摘要:P2P流量檢測(cè)技術(shù)可分為基于流量特征的識(shí)別方法(TLI)和基于深層數(shù)據(jù)包識(shí)別方法(DPI)。TLI通過(guò)對(duì)傳輸層數(shù)據(jù)包進(jìn)行分析并結(jié)合P2P系統(tǒng)所表現(xiàn)出來(lái)的流量特征,來(lái)識(shí)別某個(gè)網(wǎng)絡(luò)流是否屬于P2P。DPI采用協(xié)議分析與還原技術(shù),提取P2P應(yīng)用層數(shù)據(jù),通過(guò)分析其載荷所包含的協(xié)議特征值,來(lái)判斷網(wǎng)絡(luò)流量是否屬于P2P應(yīng)用。DPI由于具有準(zhǔn)確性高、健壯性好、具有分類功能,是P2P流量識(shí)別的主要方法。如果能夠結(jié)合TLI和DPI的優(yōu)點(diǎn),就有可能設(shè)計(jì)出一個(gè)準(zhǔn)確、高效的P2P流量實(shí)時(shí)識(shí)別算法。
近年來(lái),對(duì)等網(wǎng)絡(luò)(P2P)的用戶規(guī)模、應(yīng)用類型和流量均呈爆發(fā)式增長(zhǎng)。分析結(jié)果表明,基于P2P的語(yǔ)音通信軟件Skype在中國(guó)同時(shí)在線用戶數(shù)高達(dá)900萬(wàn),P2P互聯(lián)網(wǎng)電視(如PPLive、PPStream等)的注冊(cè)用戶數(shù)已超過(guò)1億,在線收視者數(shù)達(dá)到100~500萬(wàn)。P2P應(yīng)用類型也已經(jīng)從文件共享,擴(kuò)展到語(yǔ)音、視頻等應(yīng)用領(lǐng)域。同樣,中國(guó)互聯(lián)網(wǎng)實(shí)際流量模式分析報(bào)告表明,P2P流量已占整個(gè)互聯(lián)網(wǎng)流量的60%。
有鑒于此,國(guó)際網(wǎng)絡(luò)設(shè)備生產(chǎn)商和網(wǎng)絡(luò)服務(wù)提供商相繼推出了P2P流量識(shí)別與監(jiān)管產(chǎn)品。P2P流量檢測(cè)設(shè)備包括網(wǎng)絡(luò)緩存設(shè)備、應(yīng)用層流量管理設(shè)備、流統(tǒng)計(jì)狀態(tài)路由器和智能防火墻等。主要包括Cisco公司的NetFlow技術(shù)[1]、Allot公司的故障恢復(fù)流量管理方案[2]、CacheLogic公司的CacheLogic P2P管理方案[3]、 Verso Technologies公司的NetSpective系列產(chǎn)品[4]等,這些產(chǎn)品都使用了自行研發(fā)的深層數(shù)據(jù)包檢測(cè)技術(shù),除了在性能和識(shí)別精度上存在差別外,其技術(shù)的本質(zhì)是相同的。
相對(duì)來(lái)說(shuō),中國(guó)對(duì)于P2P流量識(shí)別技術(shù)的研究工作較少,不僅缺乏高質(zhì)量學(xué)術(shù)論文,也缺乏高效的P2P多媒體內(nèi)容識(shí)別與過(guò)濾產(chǎn)品。從產(chǎn)品角度來(lái)看,中國(guó)部分網(wǎng)絡(luò)設(shè)備生產(chǎn)商雖然推出了P2P流量監(jiān)控的相關(guān)產(chǎn)品,如CAPTECH的網(wǎng)絡(luò)管理軟件——網(wǎng)絡(luò)慧眼CAP[5],但是由于這些產(chǎn)品采用的都是深層數(shù)據(jù)包檢測(cè)技術(shù),因此在性能、開銷等方面存在很多問(wèn)題。
開展高效、準(zhǔn)確的P2P流量(尤其是多媒體內(nèi)容)實(shí)時(shí)識(shí)別與過(guò)濾相關(guān)技術(shù)研究,不僅有利于合理利用互聯(lián)網(wǎng)基礎(chǔ)設(shè)施、合理利用P2P技術(shù)、合理部署P2P應(yīng)用,有利于制止非法內(nèi)容在P2P網(wǎng)絡(luò)中的傳播,也有助于維護(hù)中國(guó)互聯(lián)網(wǎng)的健康環(huán)境和營(yíng)造一個(gè)和諧的網(wǎng)絡(luò)社會(huì)。
1 對(duì)等網(wǎng)絡(luò)流量檢測(cè)的困難性
對(duì)等網(wǎng)絡(luò)是一種分布式網(wǎng)絡(luò),其中的參與者共享他們所擁有的一部分硬件資源(處理能力、存儲(chǔ)能力等),這些共享資源需要由網(wǎng)絡(luò)提供服務(wù)和內(nèi)容,能被其他節(jié)點(diǎn)(peer)直接訪問(wèn)而無(wú)需經(jīng)過(guò)中間實(shí)體。在此網(wǎng)絡(luò)中的參與者既是資源提供者(即服務(wù)器),又是資源獲取者(即客戶)。對(duì)等網(wǎng)絡(luò)的代表性應(yīng)用是文件共享(如Napster)。但是,P2P不僅僅是用于文件共享,它還包括建立基于P2P形式的通信網(wǎng)絡(luò)、P2P計(jì)算或其他資源的共享等很多方面。P2P最根本的思想,同時(shí)也是它與客戶/服務(wù)器模型(C/S)最顯著的區(qū)別在于網(wǎng)絡(luò)中的節(jié)點(diǎn)既可以獲取其他節(jié)點(diǎn)的資源或服務(wù)同時(shí)又是資源或服務(wù)的提供者,即兼具客戶機(jī)和服務(wù)器的雙重身份。一般P2P網(wǎng)絡(luò)中每一個(gè)節(jié)點(diǎn)所擁有的權(quán)利和義務(wù)都是對(duì)等的,包括通信、服務(wù)和資源消費(fèi)。
從分類來(lái)看,可以將P2P分為純P2P和混合P2P兩種模式。純P2P網(wǎng)絡(luò)中不存在中心實(shí)體或服務(wù)器,從網(wǎng)絡(luò)中移去任何一個(gè)單獨(dú)的、任意的終端實(shí)體,都不會(huì)給網(wǎng)絡(luò)中的服務(wù)帶來(lái)大的損失。而混合P2P網(wǎng)絡(luò)中則需要有中心實(shí)體來(lái)提供部分必要的網(wǎng)絡(luò)服務(wù),如保存元信息、提供索引或路由、提供安全檢驗(yàn)等。
P2P應(yīng)用的飛速發(fā)展,雖然豐富了互聯(lián)網(wǎng)的內(nèi)容,但其流量的爆發(fā)式增長(zhǎng)和不加限制的帶寬占用,不僅給互聯(lián)網(wǎng)基礎(chǔ)設(shè)施帶來(lái)了巨大沖擊,也給Internet服務(wù)提供商(ISP)和應(yīng)用服務(wù)提供商(ASP)高級(jí)服務(wù)的部署帶來(lái)了很多問(wèn)題。此外,P2P網(wǎng)絡(luò)也迅速成為惡意代碼、黃色淫穢內(nèi)容、反動(dòng)信息、盜版資源等傳播的沃土。
因此,對(duì)等網(wǎng)絡(luò)的快速識(shí)別與分類,不僅為運(yùn)營(yíng)商提高服務(wù)質(zhì)量(QoS)提供技術(shù)支持,也可以為對(duì)等網(wǎng)絡(luò)上的內(nèi)容監(jiān)管(如惡意代碼識(shí)別、病毒防御)提供保障。但是,由于對(duì)等網(wǎng)絡(luò)的內(nèi)在特性,其流量識(shí)別存在以下特殊性:
(1)不確定性
由于對(duì)等網(wǎng)絡(luò)應(yīng)用的多樣性(如文件共享、語(yǔ)言通信、視頻通信)等,因此對(duì)等網(wǎng)絡(luò)流量不僅在流量特征上,而且在行為特征上也表現(xiàn)出不確定性。此外,對(duì)等網(wǎng)絡(luò)中節(jié)點(diǎn)的動(dòng)態(tài)性也增加了對(duì)等網(wǎng)絡(luò)流量的不確定性。這種流量的不確定性,為實(shí)現(xiàn)對(duì)等網(wǎng)絡(luò)的流量識(shí)別帶來(lái)了諸多困難。
(2)海量性
對(duì)等網(wǎng)絡(luò)不僅應(yīng)用多種多樣,而且規(guī)模極大(如文件共享式P2P系統(tǒng)Bittortent總同時(shí)在線節(jié)點(diǎn)可高達(dá)100萬(wàn)),因此一般來(lái)說(shuō),對(duì)等網(wǎng)絡(luò)流量均較大。對(duì)等網(wǎng)絡(luò)流量的海量性,給流量的實(shí)時(shí)檢測(cè)帶來(lái)了性能問(wèn)題。
(3)加密性
由于對(duì)等網(wǎng)絡(luò)屬于應(yīng)用層,因此為了躲避內(nèi)容監(jiān)管,現(xiàn)有P2P系統(tǒng)均對(duì)其載荷進(jìn)行了加密處理。加密特性使得常規(guī)的模式識(shí)別算法很難直接應(yīng)用于對(duì)等網(wǎng)絡(luò)中。因此,必須尋求新的流量檢測(cè)技術(shù)與檢測(cè)方法才能解決P2P流量識(shí)別的準(zhǔn)確性和可靠性問(wèn)題。
上述特殊性使得對(duì)對(duì)等網(wǎng)絡(luò)的流量進(jìn)行正確、高效和實(shí)時(shí)識(shí)別帶來(lái)了很多困難。從技術(shù)層面來(lái)看,現(xiàn)有P2P流量檢測(cè)技術(shù)大致可分為基于流量特征的識(shí)別方法(TLI)和基于深層數(shù)據(jù)包識(shí)別方法(DPI)。此外,網(wǎng)絡(luò)設(shè)備提供商和安全產(chǎn)品提供商也開展了P2P流量識(shí)別與監(jiān)管的研發(fā)工作。
2 基于流量特征的P2P流量識(shí)別技術(shù)
在P2P系統(tǒng)中,每個(gè)節(jié)點(diǎn)既是客戶機(jī)也是服務(wù)器,這種節(jié)點(diǎn)充當(dāng)雙重角色的特點(diǎn),也使得P2P應(yīng)用在傳輸層表現(xiàn)出與其他網(wǎng)絡(luò)應(yīng)用(如HTTP、FTP、DNS、EMAIL等)不同的流量特征。因此,基于流量特征的P2P流量檢測(cè)方法的基本思想是:通過(guò)對(duì)傳輸層數(shù)據(jù)包(包括TCP和UDP數(shù)據(jù)包)進(jìn)行分析,并結(jié)合P2P系統(tǒng)所表現(xiàn)出來(lái)的流量特征,來(lái)識(shí)別某個(gè)網(wǎng)絡(luò)流是否屬于P2P。這類方法包括:TCP/UDP端口識(shí)別技術(shù)、網(wǎng)絡(luò)直徑分析技術(shù)、節(jié)點(diǎn)角色分析技術(shù)、協(xié)議對(duì)分析技術(shù)和地址端口對(duì)分析技術(shù)等。
傳輸控制協(xié)議/數(shù)據(jù)報(bào)協(xié)議(TCP/UDP)端口識(shí)別技術(shù)利用第一代P2P系統(tǒng)多采用固定的服務(wù)端口的特點(diǎn)來(lái)識(shí)別P2P系統(tǒng)。例如,文獻(xiàn)[5]第一次提出了P2P流量識(shí)別問(wèn)題,并利用端口識(shí)別技術(shù),對(duì)Fast-Track、Gnutella和Direct-Connect 3種具有代表性的P2P系統(tǒng)的流量特征進(jìn)行了分析,F(xiàn)有P2P系統(tǒng)所采用的常用服務(wù)端口如表1所示。由于許多P2P應(yīng)用為了躲避流量審計(jì)與過(guò)濾,往往采用隨機(jī)端口技術(shù),因此TCP/UDP端口識(shí)別技術(shù)存在嚴(yán)重的漏報(bào)問(wèn)題。
網(wǎng)絡(luò)直徑分析技術(shù)利用了P2P系統(tǒng)所組成的邏輯網(wǎng)絡(luò)具有網(wǎng)絡(luò)直徑大這一特點(diǎn)。在P2P系統(tǒng)中,節(jié)點(diǎn)之間需要建立連接。與物理連接不同,P2P系統(tǒng)中的連接是邏輯連接,因此所形成的P2P網(wǎng)絡(luò)屬于邏輯網(wǎng)絡(luò)。文獻(xiàn)[6]通過(guò)記錄網(wǎng)絡(luò)中每個(gè)節(jié)點(diǎn)與其他節(jié)點(diǎn)建立連接的情況而得到P2P系統(tǒng)的邏輯連接拓?fù)鋱D,并計(jì)算其網(wǎng)絡(luò)直徑。文獻(xiàn)[6]的研究結(jié)果表明,與他網(wǎng)絡(luò)應(yīng)用所形成的邏輯網(wǎng)絡(luò)相比,P2P系統(tǒng)所形成的邏輯網(wǎng)絡(luò)具有更大的直徑。因此,如果網(wǎng)絡(luò)直徑超過(guò)某個(gè)門限值,則該網(wǎng)絡(luò)中的節(jié)點(diǎn)就是P2P節(jié)點(diǎn),相應(yīng)的流量就是P2P流量。由于網(wǎng)絡(luò)直徑的計(jì)算需要記錄整個(gè)網(wǎng)絡(luò)的連接狀態(tài),因此不僅存儲(chǔ)和計(jì)算開銷大,而且也不支持P2P流量的實(shí)時(shí)識(shí)別與過(guò)濾。
節(jié)點(diǎn)角色分析技術(shù)利用了P2P系統(tǒng)中每個(gè)節(jié)點(diǎn)具有多重角色的特點(diǎn)。P2P系統(tǒng)中的每個(gè)節(jié)點(diǎn),既是客戶機(jī),也是服務(wù)器。因此,如果可以判斷某個(gè)邏輯網(wǎng)絡(luò)中具有這種雙重角色的節(jié)點(diǎn)數(shù),就可以確定該網(wǎng)絡(luò)是否為P2P網(wǎng)絡(luò)。例如,文獻(xiàn)[6]通過(guò)記錄并計(jì)算網(wǎng)絡(luò)中同時(shí)充當(dāng)客戶機(jī)和服務(wù)器兩個(gè)角色的節(jié)點(diǎn)數(shù),發(fā)現(xiàn)如果該數(shù)超過(guò)某個(gè)門限值,則這些節(jié)點(diǎn)所形成的網(wǎng)絡(luò)就是P2P網(wǎng)絡(luò),而該網(wǎng)絡(luò)中的節(jié)點(diǎn)就是P2P節(jié)點(diǎn),相應(yīng)的流量也既是P2P流量。與網(wǎng)絡(luò)直徑分析一樣,節(jié)點(diǎn)角色分析技術(shù)也需要記錄整個(gè)網(wǎng)絡(luò)的連接狀態(tài),因此同樣面臨存儲(chǔ)與計(jì)算開銷大、無(wú)法供P2P流量的實(shí)時(shí)識(shí)別與過(guò)濾功能等問(wèn)題。
協(xié)議對(duì)分析技術(shù)利用了P2P系統(tǒng)可能同時(shí)使用TCP和UDP協(xié)議的特點(diǎn)。實(shí)際分析結(jié)果表明,P2P系統(tǒng)一般采用UDP來(lái)發(fā)送命令等控制信息,而采用TCP協(xié)議來(lái)傳輸數(shù)據(jù)。在一般的應(yīng)用中,通常一個(gè)應(yīng)用極少出現(xiàn)同時(shí)使用UDP協(xié)議和TCP協(xié)議的情況。因此,可以利用P2P系統(tǒng)的這個(gè)特征來(lái)識(shí)別P2P流量。例如,文獻(xiàn)[7]所采用的協(xié)議對(duì)分析技術(shù)中,通過(guò)判斷在時(shí)間t 內(nèi),某個(gè)“源-目的IP地址對(duì)”之間,是否同時(shí)使用了TCP和UDP協(xié)議。如果是,則這兩個(gè)節(jié)點(diǎn)之間的流量就有可能是P2P流量;反之,則可能不是P2P流量。由于域名服務(wù)器(DNS)等應(yīng)用也會(huì)同時(shí)使用TCP協(xié)議和UDP協(xié)議,因此協(xié)議對(duì)技術(shù)存在嚴(yán)重的誤報(bào)問(wèn)題。
地址端口對(duì)分析技術(shù)也是利用了P2P系統(tǒng)中節(jié)點(diǎn)角色多樣性的特點(diǎn)。地址端口對(duì)技術(shù)[7]的依據(jù)是,在P2P系統(tǒng)中,每個(gè)節(jié)點(diǎn)既是客戶機(jī),也是服務(wù)器。為了能夠接受其他節(jié)點(diǎn)建立連接的請(qǐng)求,每個(gè)節(jié)點(diǎn)都需要廣播自己的IP地址和提供服務(wù)的端口(記為{目的IP,目的端口},簡(jiǎn)稱目的地址端口對(duì))。而為了與其他節(jié)點(diǎn)建立連接,每個(gè)節(jié)點(diǎn)隨機(jī)選擇一個(gè)源端口,使用自己的IP地址(記為{源IP,源端口},簡(jiǎn)稱源地址端口對(duì)),并利用其他節(jié)點(diǎn)所廣播的IP地址和端口對(duì)信息來(lái)建立連接。由于每個(gè)節(jié)點(diǎn)與另外一個(gè)節(jié)點(diǎn)建立連接時(shí),不論是源節(jié)點(diǎn)還是目的節(jié)點(diǎn),都使用隨機(jī)源端口技術(shù),因此對(duì)于廣播了目的地址斷口對(duì)的節(jié)點(diǎn)A來(lái)說(shuō),與自己建立了連接的源IP地址數(shù)和源端口數(shù)應(yīng)大致相同。相反,其他應(yīng)用(如HTTP)往往需要建立多個(gè)連接來(lái)傳送數(shù)據(jù),因此來(lái)自于同一個(gè)源IP的節(jié)點(diǎn)可能采用不同的源端口,與Web服務(wù)器建立多條連接,其源IP數(shù)與源端口數(shù)往往不同。為此,在單位時(shí)間t 內(nèi),如果網(wǎng)絡(luò)流的源IP數(shù)與源端口數(shù)相同,則該流量可能就是P2P流量。地址端口對(duì)具有性能高的優(yōu)點(diǎn),但是缺乏實(shí)時(shí)識(shí)別與過(guò)濾的能力。
除了上述有關(guān)P2P流量檢測(cè)技術(shù)外,還有以下基于流量特征的P2P流量檢測(cè)技術(shù)。文獻(xiàn)[8]通過(guò)兩種方法來(lái)識(shí)別BitTorrent流量:
(1)許多節(jié)點(diǎn)向同一個(gè)節(jié)點(diǎn)發(fā)送大量數(shù)據(jù)且在目的節(jié)點(diǎn)出現(xiàn)握手?jǐn)?shù)據(jù)包。
(2)某個(gè)節(jié)點(diǎn)廣播大量UDP數(shù)據(jù)包,并隨之發(fā)送了大量握手?jǐn)?shù)據(jù)包。
文獻(xiàn)[9]利用P2P系統(tǒng)的連接錯(cuò)誤率等TCP流的特征來(lái)識(shí)別P2P流量。文獻(xiàn)[10]結(jié)合Skype具有“中繼”的特性,通過(guò)考察P2P流量的如下特征參數(shù)來(lái)識(shí)別網(wǎng)絡(luò)流是否為P2P:開始時(shí)間差、結(jié)束時(shí)間差、流的速率、兩個(gè)流的時(shí)間相關(guān)系數(shù)。通過(guò)實(shí)驗(yàn)分析,文獻(xiàn)[10]證明具有中繼特性的Skype流量具有如下特征:開始時(shí)間差一般小于5秒、結(jié)束時(shí)間差一般小于5秒、進(jìn)入流的比特率與出來(lái)流的比特率大小基本相等、兩個(gè)P2P流的時(shí)間相關(guān)系數(shù)不小于0.37。因此,可以利用這4個(gè)特征參數(shù),來(lái)識(shí)別具有中繼特征的Skype及其他P2P流量。
3 基于應(yīng)用層數(shù)據(jù)檢測(cè)的P2P流量識(shí)別技術(shù)
基于應(yīng)用層數(shù)據(jù)檢測(cè)的P2P流量識(shí)別技術(shù)是通過(guò)協(xié)議分析與還原技術(shù),提取P2P應(yīng)用層數(shù)據(jù)(即P2P載荷),通過(guò)分析P2P載荷所包含的協(xié)議特征值,來(lái)判斷是否屬于P2P應(yīng)用。因此,這類方法也叫做深層數(shù)據(jù)包檢測(cè)技術(shù)(DPI)。在深層數(shù)據(jù)包檢測(cè)技術(shù)中,通過(guò)對(duì)具體的P2P協(xié)議及其對(duì)應(yīng)的P2P系統(tǒng)的載荷進(jìn)行特征提取,建立特征庫(kù)。對(duì)于流經(jīng)的實(shí)時(shí)網(wǎng)絡(luò)流,采用模式匹配算法,判斷其中是否包含特征庫(kù)中的特征串。如果特征匹配成功,該網(wǎng)絡(luò)流就是P2P數(shù)據(jù)。
文獻(xiàn)[11-15]都采用了DPI的P2P流量識(shí)別技術(shù)。文獻(xiàn)[11]對(duì)Gnutella、Edonkey、DirebtConnect、BitTorrent以及Kazaa的協(xié)議特征進(jìn)行了分析,并據(jù)此對(duì)應(yīng)用層數(shù)據(jù)進(jìn)行分析來(lái)識(shí)別是否是P2P流量。文獻(xiàn)[12]利用應(yīng)用層數(shù)據(jù)分析技術(shù),對(duì)多媒體流量進(jìn)行了識(shí)別分析。
此外,也有少量文獻(xiàn)探討了結(jié)合基于流量特征方法和基于應(yīng)用層數(shù)據(jù)的檢測(cè)技術(shù)。相關(guān)文獻(xiàn)參見文獻(xiàn)[13]和文獻(xiàn)[14]。文獻(xiàn)[13]對(duì)比了3種P2P流量識(shí)別技術(shù):端口分析技術(shù)、應(yīng)用層簽名、傳輸層分析。文獻(xiàn)[14]引入誘餌節(jié)點(diǎn),并結(jié)合應(yīng)用層簽名分析技術(shù)對(duì)日本流行的P2P系統(tǒng)Winny的流量進(jìn)行了分析。
4 兩種P2P流量識(shí)別技術(shù)的優(yōu)缺點(diǎn)及比較分析
基于流量特征的檢測(cè)技術(shù)的優(yōu)點(diǎn)包括可擴(kuò)展性好、性能高和可識(shí)別加密數(shù)據(jù)流。
可擴(kuò)展性好是指該方法利用了P2P應(yīng)用所具有普適性流量特征,不僅可以發(fā)現(xiàn)已有的P2P流量,也可以識(shí)別新的、符合普適性流量特征的P2P流量。
性能高是由于不需要對(duì)協(xié)議進(jìn)行解析和還原,且也不需要對(duì)P2P應(yīng)用載荷進(jìn)行分析,因此計(jì)算開銷和存儲(chǔ)開銷小,識(shí)別算法性能高?勺R(shí)別加密P2P流量是由于基于流量特征的檢測(cè)技術(shù)不依賴具體的P2P應(yīng)用載荷,因此,數(shù)據(jù)是否加密對(duì)檢測(cè)算法沒(méi)有影響。
但是,基于流量特征的P2P流量識(shí)別技術(shù)也具有很多不足,其主要缺點(diǎn)包括:準(zhǔn)確性差、健壯性差、缺乏流量分類功能等。有兩個(gè)因素決定了基于流量特征的P2P流量識(shí)別技術(shù)存在準(zhǔn)確性差的缺點(diǎn)。第一個(gè)因素是P2P流量特征不一定唯一:很多流量特征都不是P2P流量唯一的,其他應(yīng)用也有可能表現(xiàn)出這種流量特征來(lái)。因此,該方法存在誤判問(wèn)題,即將不是P2P流量的網(wǎng)絡(luò)流,誤認(rèn)為是P2P流量。第二個(gè)因素是網(wǎng)絡(luò)環(huán)境復(fù)雜。例如,由于不對(duì)稱路由和丟包、重傳現(xiàn)象的存在,導(dǎo)致無(wú)法精確確定流量特征,從而有可能對(duì)P2P流量檢測(cè)的精確度造成影響。健壯性差是指由于不能處理數(shù)據(jù)包丟失、重組等,因此不能適應(yīng)復(fù)雜的P2P應(yīng)用。缺乏分類功能是指由于傳輸層流量特征一般不能明確指示應(yīng)用層協(xié)議類型,所以這種方法對(duì)P2P應(yīng)用分類的能力較弱,而對(duì)P2P應(yīng)用進(jìn)行細(xì)分類,對(duì)于執(zhí)行P2P流量監(jiān)管措施(如禁封、限速、提供服務(wù)質(zhì)量QoS等)非常重要。
深層數(shù)據(jù)包檢測(cè)技術(shù)易于理解、升級(jí)方便、維護(hù)簡(jiǎn)單,是目前運(yùn)用最普遍的P2P流量識(shí)別方法。其主要優(yōu)點(diǎn)包括:準(zhǔn)確性高、健壯性好、具有分類功能等。準(zhǔn)確性高是由于該方法執(zhí)行精確特征匹配,因此極少存在誤判問(wèn)題。健壯性好是由于可以處理數(shù)據(jù)包丟失、重組等,因此能適應(yīng)復(fù)雜的P2P應(yīng)用。具有分類功能是由于深層數(shù)據(jù)包檢測(cè)技術(shù)可以依據(jù)不同P2P應(yīng)用的載荷特征來(lái)準(zhǔn)確分類P2P應(yīng)用,因此可以為實(shí)施P2P流量監(jiān)管策略提供準(zhǔn)確的信息。
但是,深層數(shù)據(jù)包檢測(cè)技術(shù)的缺點(diǎn)包括可擴(kuò)展性差、缺乏加密數(shù)據(jù)分析功能、性能低等?蓴U(kuò)展性差是由于該方法對(duì)新P2P應(yīng)用的流量識(shí)別具有滯后性,即在未升級(jí)特征庫(kù)前無(wú)法檢測(cè)新的P2P應(yīng)用,必須找到新應(yīng)用的載荷特征后,才能對(duì)該應(yīng)用實(shí)施有效檢測(cè)。缺乏加密數(shù)據(jù)分析功能是由于P2P載荷加密,隱藏了P2P應(yīng)用的協(xié)議和數(shù)據(jù)特征,因此深層數(shù)據(jù)包檢測(cè)技術(shù)對(duì)加密P2P應(yīng)用的檢測(cè)能力非常有限。性能低是由于需要完成協(xié)議解析還原和特征匹配等操作,因此計(jì)算和存儲(chǔ)開銷大,流量檢測(cè)算法性能低。載荷特征越復(fù)雜,檢測(cè)代價(jià)越高,算法性能也越差。各種P2P流量識(shí)別算法的比較如表2所示,其中,基于流量特征的P2P流量識(shí)別技術(shù)包括端口分析、網(wǎng)絡(luò)直徑分析、節(jié)點(diǎn)角色分析、協(xié)議對(duì)分析和地址端口對(duì)分析等。
5 結(jié)束語(yǔ)
基于流量特征和基于應(yīng)用數(shù)據(jù)分析技術(shù)是目前主要的P2P流量識(shí)別方法。從P2P流量識(shí)別的技術(shù)現(xiàn)狀來(lái)看,基于應(yīng)用數(shù)據(jù)分析技術(shù)的深層數(shù)據(jù)分析方法DPI由于具有準(zhǔn)確性高、健壯性好、具有分類功能,且過(guò)去的P2P系大都未加密,因此是P2P流量識(shí)別的主要方法。但是,基于DPI技術(shù)也面臨諸如如何提供檢測(cè)算法的性能、如何支持對(duì)加密數(shù)據(jù)的分析、如何更新P2P應(yīng)用特征庫(kù)等問(wèn)題。同樣,基于流量特征的P2P流量識(shí)別方法雖然具有性能高、可擴(kuò)展性好的有點(diǎn),但由于準(zhǔn)確性差,因此在實(shí)際應(yīng)用中也面臨諸多困難。此外,現(xiàn)有方法都以離線數(shù)據(jù)分析為主,缺乏P2P流量的實(shí)時(shí)識(shí)別能力。從本質(zhì)來(lái)看,基于流量特征的檢測(cè)屬于啟發(fā)式方法,而深層數(shù)據(jù)分析屬于精確匹配方法。如果能夠結(jié)合這兩種方法的優(yōu)點(diǎn),就有可能設(shè)計(jì)出一個(gè)準(zhǔn)確、高效的P2P流量實(shí)時(shí)識(shí)別算法來(lái)。為此,研究啟發(fā)式深層數(shù)據(jù)分析實(shí)時(shí)識(shí)別算法將是進(jìn)一步研究的主要內(nèi)容。
6 參考文獻(xiàn)
[1] Cisco Systems Inc. NetFlow services solutions guide [EB/OL].
http :∥www.cisco.com/, 2007.
[2] Allot Communications Ltd [EB/OL].
http ://www.allot.com, 2007.
[3] CacheLogic [EB/OL]. http ://www.cachelogic.com, 2007.
[4] Verso Technologies [EB/OL]. http ://www.verso.com/, 2007.
[5] SEN S, WANG J. Analyzing peer-to-peer traffic across large networks [J]. IEEE/ACM Transactions on Networking, 2004,12(2):219-232.
[6] CONSTANTINOU F, MAVROMMATIS P Identifying known and unknown peer-to-peer traffic [C]// Proceedings of Fifth IEEE International Symposium on Network Computing and Applications, Jul 24-26,2006, Cambridge, MA, USA. Los Alamitos, CA,USA: IEEE Computer Society, 2006: 93-102.
[7] KARAGIANNIS T, BROIDO A, FALOUTSOS M, et al. Transport layer identification of P2P traffic [C]// Proceedings of the 4th ACM SIGCOMM Conference on Internet Measurement, Oct 25-27, 2004, Taormina, Italy. New York, NY, USA: ACM, 2004:121-134.
[8] HORNG Mong-Fong, CHEN Chun-Wei, Chuang Chin-Shun, et al. Identification and analysis of P2P traffic- an example of bit torrent [C]//Proceedings of International Conference on Innovative Computing, Information and Control (ICICIC2006):Vol. 2, Aug 30 - Sep 1, 2006, Beijing, China.2006:266-269.
[9] ZHOU Lijuan, LI Zhitong, LIU Bin. P2P traffic identification by TCP flow analysis [C]// Proceedings of International Workshop on Networking, Architecture, and Storages, Sep,2006, Shenyang, China. Los Alamitos, CA, USA: IEEE Computer Society, 2006.
[10] SUH K, FIGUEIREDO D R, KUROSE J, et al. Characterizing and detecting skype-relayed traffic [C]// Proceedings of IEEE Conference on Computer Communications (INFOCOM 2006), Apr 26, 2006, Barcelona, Spain .2006:1-12.
[11] SEN S, SPATSCHECK O, WANG Dongmei. Accurate, scalable in-network identification of P2P traffic using application signatures [C]//Proceedings of the 13th International Conference on World Wide Web, May 17-20, 2004, New York, NY,USA .New York, NY,USA: ACM, 2004:512-521.
[12] WANG Rui, LIU Yang, YANG Yuexiang, et al. Solving the app-level classification problem of P2P traffic via optimized support vector machines [C]// Proceedings of Sixth International Conference on Intelligent Systems Design and Applications (ISDA '06): Vol 2, Oct 16-18, 2006, Jinan, China. Los Alamitos, CA, USA: IEEE Computer Society, 2006:534-539.
[13] MADHUKAR A, WILLIAMSON C. A longitudinal study of P2P traffic classification [C]// Proceedings of 14th IEEE International Symposium on Modeling, Analysis, and Simulation of Computer and Telecommunication Systems, Sep 11-13, 2006, Monterey, CA, USA. Los Alamitos, CA, USA: IEEE Computer Society, 2006:179-188.
[14] OHZAHATA S, HAGIWARA Y, TERADA M, et al. A traffic identification method and evaluations for a pure P2P application [C]// Proceedings of 2005 Passive and Active Measurement (PAM'05), Boston, MA,USA. Berlin,Germany: Springer-Verlag , 2005:55-68.
[15] KANG H J, KIM M S, HONG J W. Streaming media and multimedia conferencing traffic analysis using payload examination [J]. ETRI Journal, 2004,26(3):203-217.