基于數(shù)據(jù)挖掘技術(shù)入侵檢測系統(tǒng)研究

高翔1,王敏2,胡正國1


1.西北工業(yè)大學(xué) 計算機科學(xué)與工程系


2.空軍工程大學(xué) 電訊工程學(xué)院




  摘 要:入侵檢測技術(shù)已經(jīng)成為網(wǎng)絡(luò)安全領(lǐng)域的研究熱點。本文介紹了入侵檢測的分類以及應(yīng)用在入侵檢測中的數(shù)據(jù)挖掘方法,并闡述了構(gòu)建的基于數(shù)據(jù)挖掘技術(shù)的入侵檢測系統(tǒng)的設(shè)計與實現(xiàn)。


  關(guān)鍵詞:網(wǎng)絡(luò)安全,數(shù)據(jù)挖掘,入侵檢測


  隨著網(wǎng)絡(luò)在現(xiàn)代社會中發(fā)揮愈來愈重要的作用,利用計算機網(wǎng)絡(luò)犯罪也呈現(xiàn)出明顯的上升趨勢。如何建立安全而又健壯的網(wǎng)絡(luò)系統(tǒng),保證重要信息的安全性,已經(jīng)成為研究的焦點。以往采用的方式多是防火墻的策略,它可以防止利用協(xié)議漏洞、源路由、地址仿冒等多種攻擊手段,并提供安全的數(shù)據(jù)通道,但是它對于應(yīng)用層的后門,內(nèi)部用戶的越權(quán)操作等導(dǎo)致的攻擊或竊取,破壞信息卻無能為力。另外,由于防火墻的位置處在網(wǎng)絡(luò)中的明處,自身的設(shè)計缺陷也難免會暴露給眾多的攻擊者,所以僅僅憑借防火墻是難以抵御多種多樣層出不窮的攻擊的。


  因此,為了保證網(wǎng)絡(luò)系統(tǒng)的安全,就需要有一種能夠及時發(fā)現(xiàn)并報告系統(tǒng)中未授權(quán)或異,F(xiàn)象的技術(shù),即入侵檢測技術(shù)。



1 入侵檢測系統(tǒng)簡介


  入侵檢測技術(shù)可以分為兩類:


  (1)濫用檢測(Misuse Detection)濫用檢測是利用已知的入侵方法和系統(tǒng)的薄弱環(huán)節(jié)識別非法入侵。該方法的主要缺點為:由于所有已知的入侵模式都被植入系統(tǒng)中,所以,一旦出現(xiàn)任何未知形式的入侵,都無法檢測出來。但該方法的檢測效率較高! 。2)異常檢測(Anomaly Detection)異常檢測是通過檢查當(dāng)前用戶行為是否與已建立的正常行為輪廓相背離來鑒別是否有非法入侵或越權(quán)操作。該
方法的優(yōu)點是無需了解系統(tǒng)缺陷,適應(yīng)性較強。但發(fā)生誤報的可能性較高。


  入侵檢測系統(tǒng)中的用戶行為主要表現(xiàn)為數(shù)據(jù)形式。根據(jù)數(shù)據(jù)的來源不同,入侵檢測系統(tǒng)可以分為基于主機的和基于網(wǎng)絡(luò)的兩種。前者的數(shù)據(jù)來自操作系統(tǒng)的審計數(shù)據(jù),后者來自網(wǎng)絡(luò)中流經(jīng)的數(shù)據(jù)包。由于用戶的行為都表現(xiàn)為數(shù)據(jù),因此,解決問題的核心就是如何正確高效地處理收集到的數(shù)據(jù),并從中得出結(jié)論。


2 基于數(shù)據(jù)挖掘技術(shù)的入侵檢測系統(tǒng)


  在入侵檢測系統(tǒng)中使用數(shù)據(jù)挖掘技術(shù),通過分析歷史數(shù)據(jù)可以提取出用戶的行為特征、總結(jié)入侵行為的規(guī)律,從而建立起比較完備的規(guī)則庫來進行入侵檢測[1]。該過程主要分為以下幾步[2]:


  數(shù)據(jù)收集基于網(wǎng)絡(luò)的檢測系統(tǒng)數(shù)據(jù)來源于網(wǎng)絡(luò),可用的工具有TCPDUMP等。


  數(shù)據(jù)的預(yù)處理在數(shù)據(jù)挖掘中訓(xùn)練數(shù)據(jù)的好壞直接影響到提取的用戶特征和推導(dǎo)出的規(guī)則的準確性。如果在入侵檢測系統(tǒng)中,用于建立模型的數(shù)據(jù)中包含入侵者的行為,那么以后建立起的檢測系統(tǒng)將不能對此入侵行為做出任何反應(yīng),從而造成漏報。由此可見,用于訓(xùn)練的數(shù)據(jù)必須不包含任何入侵,并且要格式化成數(shù)據(jù)挖掘算法可以處理的形式。


  數(shù)據(jù)挖掘從預(yù)處理過的數(shù)據(jù)中提取用戶行為特征或規(guī)則等,再對所得的規(guī)則進行歸并更新,建立起規(guī)則庫。


  入侵檢測依據(jù)規(guī)則庫的規(guī)則對當(dāng)前用戶的行為進行檢測,根據(jù)得到的結(jié)果采取不同的應(yīng)付手段。


  本文構(gòu)建了一個基于數(shù)據(jù)挖掘關(guān)聯(lián)分析方法的入侵檢測系統(tǒng),該系統(tǒng)主要用于異常檢測。



  該系統(tǒng)的數(shù)據(jù)來源是基于網(wǎng)絡(luò)的,通過在網(wǎng)絡(luò)中安放嗅探器來獲取用戶的數(shù)據(jù)包,然后采用協(xié)議分析的方法,丟棄有效負荷,僅保留包頭部分,按特定的方法預(yù)處理后得到的數(shù)據(jù)包含7個字段:時間、源IP、源端口、目的IP、目的端口、連接的ID、連接狀態(tài)。


  由于TCP的連接建立包含3次握手過程,所以在所有收集的訓(xùn)練數(shù)據(jù)中會包括一些未能成功建立的連接,它們將對后面的數(shù)據(jù)挖掘過程產(chǎn)生負面影響,故應(yīng)當(dāng)去掉,僅保留那些反映網(wǎng)絡(luò)正常情況的數(shù)據(jù)。對于UDP則不存在此問題,只需將每個UDP包都視為一次連接即可。
  采用APRIORI算法[3]對數(shù)據(jù)進行挖掘。


APRIORI算法常用在購物籃分析中,它用于發(fā)現(xiàn)“90%的客戶在購買商品A時也會購買商品B”之類的規(guī)則。它通常的輸入分為兩列:





  規(guī)則輸出的形式為I1&12aI5(support=2%,confidence=60%)。其中support是支持度,confidence是可信度。


  將前面收集到的網(wǎng)絡(luò)流量數(shù)據(jù)格式化成為APRIORI算法的輸入形式,用連接ID代替客戶ID,其他屬性替代購買的商品。在給定了支持度和可信度之后,可以得到一組規(guī)則,形式為


  192.168.0.50&202.117.80.8a80(support=6%,confidence=95%)


  規(guī)則的含義為源IP為192.168.0.50且目的IP為202.117.80.8則目的端口是80,該規(guī)則的支持度為6%,可信度為95%。


  一段時間的采樣不能夠完全代表用戶的行為,因此有必要多次采樣,并重復(fù)上述過程,然后用歸并的方法將多次得到的規(guī)則集合并起來,直至不再產(chǎn)生新的規(guī)則為止。筆者采用此方法從大量的網(wǎng)絡(luò)流量數(shù)據(jù)(28.8M)中可以提取出100多條規(guī)則(支持度2%,可信度85%),發(fā)現(xiàn)其中有很多是明顯無意義的,這就需要管理員通過個人經(jīng)驗加以精簡,最終得到可以用于檢驗的規(guī)則集。至此,產(chǎn)生的規(guī)則集已經(jīng)可以比較完整地描述用戶的行為特征了。將得出的規(guī)則集用于入侵檢測。例如,規(guī)則庫中的一條規(guī)則為


  192.168.0.50&202.117.80.8a80(support=6%,confidence=95%)


  而在檢測的過程中發(fā)現(xiàn)網(wǎng)絡(luò)數(shù)據(jù)中的一個連接源IP地址是192.168.0.50且目的IP地址為202.117.80.8,訪問的端口為1000,則說明違反規(guī)則的小概率事件發(fā)生,該連接的可疑度隨之增加。在實際過程中,來自同一IP地址的異常的連接可能會違反多條規(guī)則,當(dāng)多個可疑度之和超過一個閾值時系統(tǒng)就產(chǎn)生報警。


  采用了兩組數(shù)據(jù)(實驗數(shù)據(jù)來源于http:∥iris.
cs.uml.edu:8080/)對此系統(tǒng)進行了實驗。一組是已知不含任何攻擊的正常數(shù)據(jù)(約30M,包含35萬余條記錄),該數(shù)據(jù)用于訓(xùn)練系統(tǒng),采用以上介紹的方法,在設(shè)定支持度為1%,可信度為85%情況下,得到了17條檢驗規(guī)則。然后將得到的規(guī)則用于檢測另一組已知包含攻擊的數(shù)據(jù)(約54M,包含63萬條記錄),實驗結(jié)果證明此方法可以有效的發(fā)現(xiàn)PROBING攻擊。


3 結(jié)束語


  隨著網(wǎng)絡(luò)的帶寬迅速增長,黑客攻擊手段的日趨多樣,現(xiàn)有的入侵檢測系統(tǒng)在網(wǎng)絡(luò)遭受入侵時,反應(yīng)較慢,實時性較差。因此,如何實時的處理網(wǎng)絡(luò)中海量的數(shù)據(jù),并及時的發(fā)現(xiàn)攻擊將成為入侵檢測系統(tǒng)下一步研究的重點。



參考文獻




[1] Lee W.A Data Mining Framework for Constructing Features and Models for Intrusion Detection System:[PhDthesis].New York:Columbia University,1999,22~26.http:∥www.cs.columbia.edu/~wenke/


[2] Lee W,Stolfo S J.Data Mining Approaches for Intrusion Detection.In:Proceedings of the 7th USENIX SecuritySymposium,San Antonio:1998,6~9.http:∥www.cs.columbia.edu/~wenke/


[3] Han Jiawei,Kamber M著,范 明,孟小峰等譯.?dāng)?shù)據(jù)挖掘概念與技術(shù).北京:機械工業(yè)出版社,2001.147~158



摘自 西北工業(yè)大學(xué)學(xué)報
   

微信掃描分享本文到朋友圈
掃碼關(guān)注5G通信官方公眾號,免費領(lǐng)取以下5G精品資料
  • 1、回復(fù)“YD5GAI”免費領(lǐng)取《中國移動:5G網(wǎng)絡(luò)AI應(yīng)用典型場景技術(shù)解決方案白皮書
  • 2、回復(fù)“5G6G”免費領(lǐng)取《5G_6G毫米波測試技術(shù)白皮書-2022_03-21
  • 3、回復(fù)“YD6G”免費領(lǐng)取《中國移動:6G至簡無線接入網(wǎng)白皮書
  • 4、回復(fù)“LTBPS”免費領(lǐng)取《《中國聯(lián)通5G終端白皮書》
  • 5、回復(fù)“ZGDX”免費領(lǐng)取《中國電信5GNTN技術(shù)白皮書
  • 6、回復(fù)“TXSB”免費領(lǐng)取《通信設(shè)備安裝工程施工工藝圖解
  • 7、回復(fù)“YDSL”免費領(lǐng)取《中國移動算力并網(wǎng)白皮書
  • 8、回復(fù)“5GX3”免費領(lǐng)取《R1623501-g605G的系統(tǒng)架構(gòu)1
  • 本周熱點本月熱點

     

      最熱通信招聘

      最新招聘信息