寫在開頭的話
Q: 軍哥,你們運(yùn)營商行業(yè)的大規(guī)模集群,都有啥特點(diǎn)啊?
A: 我們集群主要是承載B域、信令和互聯(lián)網(wǎng)日志等去標(biāo)識(shí)化數(shù)據(jù),簡單的說,有三個(gè)特點(diǎn):
1)集群規(guī)模較大:數(shù)千節(jié)點(diǎn)規(guī)模,近百PB數(shù)據(jù)量,日新增處理數(shù)據(jù)百TB以上;
2)組織干系人多:數(shù)據(jù)平臺(tái)開發(fā)運(yùn)維過程涉及到數(shù)百人以上的不同團(tuán)隊(duì)組織協(xié)同;
3)數(shù)據(jù)合規(guī)要求高:數(shù)據(jù)租戶服務(wù)涉及到數(shù)據(jù)安全、用戶隱私保護(hù)的合規(guī)要求高。
Q: 好吧,聽起來,要搞定這樣的集群,有難度呀!那何時(shí)要關(guān)注集群的治理呢?
A: 好問題!一般來說,當(dāng)數(shù)據(jù)質(zhì)量問題、數(shù)據(jù)交付及時(shí)性、數(shù)據(jù)安全問題需要耗費(fèi)極高的應(yīng)對(duì)成本,或者說,當(dāng)你經(jīng)常會(huì)碰到以下類似的問題時(shí),就該考慮做系統(tǒng)化的集群治理工作了。
Q: 看起來,集群治理好像需要做很多配套的工作,實(shí)際上會(huì)有多大的產(chǎn)出效果呢?
A: 說出來,你可能不太信,就拿針對(duì)某集群治理的效果為例:在處理數(shù)據(jù)量翻倍的情況下,集群資源負(fù)載降低30%以上,綜合計(jì)算節(jié)省數(shù)百臺(tái)節(jié)點(diǎn),每年節(jié)省投入上千萬元;減少垃圾數(shù)據(jù)、測試數(shù)據(jù)、中間數(shù)據(jù)、過程數(shù)據(jù),占總存儲(chǔ)15%以上;核心產(chǎn)品模型運(yùn)行時(shí)長,縮短30%-80%。
一、集群治理的定位
Q: 我以前聽說過數(shù)據(jù)治理,你這里說大規(guī)模數(shù)據(jù)集群的治理,有什么具體差異嗎?
A: 好問題!不過要搞清楚這塊,得先了解一下我們數(shù)據(jù)資產(chǎn)管理體系建設(shè)的實(shí)施路徑——主要分三個(gè)子工程,同步開展實(shí)施推進(jìn):
工程一:搭建核心業(yè)務(wù)數(shù)據(jù)治理框架,包括基礎(chǔ)平臺(tái)的建設(shè)、治理規(guī)范的制定,元數(shù)據(jù)管理、數(shù)據(jù)血緣和數(shù)據(jù)質(zhì)量工具開發(fā)和應(yīng)用實(shí)踐,構(gòu)建上層數(shù)據(jù)產(chǎn)品體系和數(shù)據(jù)能力開放平臺(tái),讓數(shù)據(jù)多用活用,形成符合公司業(yè)務(wù)和組織協(xié)作特點(diǎn)的治理文化。
工程二:實(shí)現(xiàn)全域數(shù)據(jù)計(jì)算集群的深度治理,完成全域數(shù)據(jù)治理元數(shù)據(jù)的自動(dòng)化采集、存儲(chǔ)和分析,構(gòu)建數(shù)據(jù)能力開放平臺(tái)多租戶專項(xiàng)治理機(jī)制,沉淀數(shù)據(jù)治理中臺(tái)能力,基于大數(shù)據(jù)集群底層核心組件(如YARN、HDFS)的深入洞察,孵化出數(shù)據(jù)集群治理的應(yīng)用。
工程三:完善治理機(jī)制體制建設(shè),構(gòu)建數(shù)據(jù)資產(chǎn)管理體系,并利用該系統(tǒng)的運(yùn)營逐步重塑優(yōu)化業(yè)務(wù)流程,實(shí)現(xiàn)可支撐全業(yè)務(wù)流程的成本評(píng)估機(jī)制,讓數(shù)據(jù)價(jià)值持續(xù)攀升。
回到你剛才的提問,數(shù)據(jù)治理基本上可以理解為工程一的核心目標(biāo);大規(guī)模集群的治理對(duì)應(yīng)工程二,它需要長期支撐工程一的具體建設(shè)任務(wù),并為數(shù)據(jù)資產(chǎn)管理體系的運(yùn)營夯實(shí)基礎(chǔ)。
二、集群治理的背景
Q: 你剛才說的好像很有道理,但是我還是不太明白,為何不是在數(shù)據(jù)治理工程中擴(kuò)展一個(gè)子任務(wù)去做,而是要另起爐灶,搞一個(gè)新的大工程來做數(shù)據(jù)集群的專項(xiàng)治理?
A: 好問題!恭喜你!你快要觸摸到數(shù)據(jù)集群治理問題的核心了。我們不妨再捋一下數(shù)據(jù)集群治理的背景,主要是遇到的歷史部分集群無序建設(shè)的種種問題:
這些問題可進(jìn)一步分為幾類,簡單分析完你就自然明白了:
1)管理類:集群接口機(jī)權(quán)限管控、數(shù)據(jù)表不合理創(chuàng)建和刪除、垃圾數(shù)據(jù)表過多問題。這類問題,可以通過數(shù)據(jù)治理工程進(jìn)行持續(xù)改進(jìn),但是解決時(shí)間周期以年為單位。
2)集群類:集群整體加工慢、穩(wěn)定性欠佳、隊(duì)列資源爭搶、資源得不到合理分配的問題。這類問題,基本上要集群底層視角進(jìn)行深入分析,在業(yè)務(wù)層做數(shù)據(jù)治理幾乎無解。
3)洞察類:冗余計(jì)算浪費(fèi)資源問題、智能實(shí)時(shí)預(yù)警、完整血緣和數(shù)據(jù)價(jià)值分析問題。這類問題只能通過大數(shù)據(jù)技術(shù)手段對(duì)Hadoop底層核心組件做深入洞察來解決。
三、集群治理的目標(biāo)
Q: 聽你這么說,針對(duì)大規(guī)模數(shù)據(jù)集群的治理工程還是很有必要的!
A:是的,“大規(guī)模”帶來的問題,肯定不止上面這幾類,實(shí)際上會(huì)遠(yuǎn)超你的想象,傳統(tǒng)的數(shù)據(jù)治理工具(如元數(shù)據(jù)、數(shù)據(jù)質(zhì)量、數(shù)據(jù)血緣分析)可能就不靈了,必須要根據(jù)集群規(guī)模、數(shù)據(jù)倉庫新型技術(shù)方案選型以及業(yè)務(wù)流程進(jìn)行重構(gòu),才可能得到預(yù)期的治理效果。再強(qiáng)調(diào)一句,大規(guī)模數(shù)據(jù)是長在集群之上,而集群里面的很多關(guān)鍵組件不是傳統(tǒng)的商業(yè)關(guān)系型數(shù)據(jù)庫,而是開源社區(qū)的通用版本,其可維護(hù)性、穩(wěn)定性和功能局限性等方面都存在較大的挑戰(zhàn),性能這塊也需要深入到源碼層進(jìn)行重構(gòu)調(diào)優(yōu)處理,你得做好準(zhǔn)備。
所以,我們做大規(guī)模集群治理的核心目標(biāo)聚焦在①確保集群穩(wěn)定,充分保障集群資源算力;②以效果為導(dǎo)向,有效驅(qū)動(dòng)平臺(tái)數(shù)據(jù)治理:
1、充分保障集群資源算力
毫無疑問,在大規(guī)模集群計(jì)算環(huán)境,保障集群資源算力是首要任務(wù)。如果這一塊稍有閃失,數(shù)據(jù)采集、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)加工、數(shù)據(jù)建模分析、數(shù)據(jù)測試、數(shù)據(jù)稽核、數(shù)據(jù)遷移、數(shù)據(jù)同步、數(shù)據(jù)計(jì)算、數(shù)據(jù)作業(yè)重跑等流程可能都要崩潰,因?yàn)檫@些環(huán)節(jié)背后都涉及到大量的數(shù)據(jù)作業(yè)任務(wù)調(diào)度執(zhí)行,其成功與否取決于分布式系統(tǒng)組件整體的通信、資源的申請、以及任務(wù)實(shí)例的執(zhí)行結(jié)果,因此除了足夠的物理資源池之外,還需要特別保障集群Master進(jìn)程類服務(wù)的性能表現(xiàn)和穩(wěn)定性。
2、有效驅(qū)動(dòng)平臺(tái)數(shù)據(jù)治理
開展集群治理的工作,最重要的目標(biāo)就是有效支撐數(shù)據(jù)治理工程的建設(shè)。
數(shù)據(jù)治理是一個(gè)系統(tǒng)工程,通常是按照類似下面的框架做:
其關(guān)鍵是組織、流程、平臺(tái)工具、評(píng)價(jià)考核機(jī)制的全面協(xié)同。
首先是從數(shù)據(jù)采集加工流程中梳理出數(shù)據(jù)治理體系最需關(guān)注的各環(huán)節(jié)建設(shè)內(nèi)容和目標(biāo):
然后構(gòu)建元數(shù)據(jù)管理、數(shù)據(jù)質(zhì)量稽核、數(shù)據(jù)血緣分析、數(shù)據(jù)地圖等工具集:
元數(shù)據(jù)管理:數(shù)據(jù)庫表、模型腳本等元數(shù)據(jù)信息龐大復(fù)雜,可通過全文檢索功能迅速查找和關(guān)鍵字匹配的權(quán)限范圍內(nèi)的元數(shù)據(jù)信息,為海量數(shù)據(jù)分析提供更快、更正確的查詢處理、更好的數(shù)據(jù)質(zhì)量、更易使用的操作接口等。
數(shù)據(jù)血緣分析:元數(shù)據(jù)管理重要應(yīng)用之一,展示表、視圖、過程之間的關(guān)系,表和指標(biāo)間的關(guān)系。采用NET模式或FLOW模式進(jìn)行信息呈現(xiàn)。血緣關(guān)系的數(shù)據(jù)來源支持通過解析數(shù)據(jù)加工SQL腳本、存儲(chǔ)過程注釋的方式;可支持通過ETL流程自動(dòng)生成的方式,亦可支持通過配置表的方式。
數(shù)據(jù)地圖:元數(shù)據(jù)信息的全景視圖,描述所有元數(shù)據(jù)對(duì)象的血緣關(guān)系,所處層級(jí)覆蓋范圍由ODS->DWA->DWD->DM層,全面呈現(xiàn)了數(shù)據(jù)倉庫中數(shù)據(jù)之間的關(guān)系。
如果你的數(shù)據(jù)集群規(guī)模不大,比如百節(jié)點(diǎn)以內(nèi),有非常完備的治理組織架構(gòu),按照傳統(tǒng)的工具流程和方法論去做數(shù)據(jù)治理,一般問題不大。但是,如果是在運(yùn)營商大規(guī)模集群環(huán)境,隨著業(yè)務(wù)的發(fā)展,遇到新的問題時(shí),光靠一些老套路是行不通的,或者說整體治理成本是極大的。
在這樣的大規(guī)模集群環(huán)境下,數(shù)據(jù)治理的本質(zhì)其實(shí)就是:解決人與人的對(duì)抗、人與機(jī)器的對(duì)抗、人與工具的對(duì)抗、人與數(shù)的對(duì)抗問題。實(shí)踐經(jīng)驗(yàn)發(fā)現(xiàn),只是靠堆人的方式,或者只在數(shù)據(jù)治理文化層面強(qiáng)調(diào)人機(jī)數(shù)的全面協(xié)同,要做好大規(guī)模集群的數(shù)據(jù)治理是不太現(xiàn)實(shí)的。更務(wù)實(shí)的做法是基于公司業(yè)務(wù)和組織架構(gòu)特點(diǎn),不斷驅(qū)動(dòng)和協(xié)同優(yōu)化,還要借助大數(shù)據(jù)技術(shù)手段,精益推動(dòng)數(shù)據(jù)集群側(cè)的持續(xù)治理,形成數(shù)據(jù)治理+集群治理+資產(chǎn)管理的整體協(xié)同效應(yīng)。
簡而言之,集群治理支撐數(shù)據(jù)治理,數(shù)據(jù)治理驅(qū)動(dòng)數(shù)據(jù)資產(chǎn)管理。數(shù)據(jù)中心的資產(chǎn)包括數(shù)據(jù)、程序、流程、服務(wù)及資源5大類,通過集群治理和資產(chǎn)的有效管理,對(duì)于促進(jìn)數(shù)據(jù)價(jià)值持續(xù)發(fā)現(xiàn)、數(shù)據(jù)能力持續(xù)開放、數(shù)據(jù)的持續(xù)變現(xiàn)有巨大的促進(jìn)作用,從而逐步推動(dòng)數(shù)據(jù)治理體系向資產(chǎn)管理體系演進(jìn)。
四、集群治理的實(shí)施路徑
Q: 軍哥,說了半天,你好像還沒有告訴我,到底如何開展集群的治理工作呀?
A: 不急,只要你明白了集群治理的定位、背景、目標(biāo),其實(shí)搞大規(guī)模數(shù)據(jù)集群的治理工作就沒有那么難,按照以下8個(gè)步驟做就行:
第一步:理清大規(guī)模數(shù)據(jù)集群的現(xiàn)狀和治理需求點(diǎn)
第二步:明確治理的組織架構(gòu)、方法論、技術(shù)框架
第三步:構(gòu)建針對(duì)大數(shù)據(jù)集群的智能運(yùn)維技術(shù)平臺(tái)
第四步:實(shí)現(xiàn)YARN作業(yè)&HDFS畫像、小文件洞察
第五步:實(shí)現(xiàn)NN RPC畫像、關(guān)鍵Master服務(wù)預(yù)警
第六步:實(shí)現(xiàn)冗余計(jì)算挖掘,以目錄維度評(píng)估冗余度
第七步:重構(gòu)數(shù)據(jù)血緣、元數(shù)據(jù)、數(shù)據(jù)資產(chǎn)管理應(yīng)用
第八步:智能分析集群用戶行為畫像,檢測預(yù)測異常
下文中將對(duì)以上八個(gè)步驟進(jìn)行具體解讀。
五、集群治理的案例實(shí)踐
1、第一步:理清大規(guī)模數(shù)據(jù)集群的現(xiàn)狀和治理需求點(diǎn)
現(xiàn)狀:Hadoop集群的計(jì)算能力已達(dá)到數(shù)千節(jié)點(diǎn),平臺(tái)部分集群初期由外部廠商進(jìn)行建設(shè),為了支撐業(yè)務(wù)快速上線,并沒有統(tǒng)一規(guī)劃,無序建設(shè)引發(fā)的問題逐漸暴露出來,權(quán)限混亂、計(jì)算能力下降、資源冗余計(jì)算、資源浪費(fèi)等問題頻發(fā),針對(duì)該部分集群的穩(wěn)定性和資源利用優(yōu)化治理工作挑戰(zhàn)巨大。
需求點(diǎn):數(shù)據(jù)治理項(xiàng)目實(shí)施的整體難點(diǎn)主要集中在運(yùn)營商多源頭數(shù)據(jù)質(zhì)量持續(xù)改進(jìn)、日萬億級(jí)大規(guī)模數(shù)據(jù)加工處理、數(shù)據(jù)平臺(tái)資源彈性交付與產(chǎn)品化快速響應(yīng)支撐能力、數(shù)據(jù)能力開放平臺(tái)租戶高效運(yùn)營、數(shù)據(jù)平臺(tái)智能運(yùn)維體系建設(shè)、數(shù)據(jù)安全合規(guī)保障等六個(gè)方面。其中跟集群本身治理特別相關(guān)的是:集群智能運(yùn)維平臺(tái)搭建、Hadoop組件洞察應(yīng)用、冗余計(jì)算挖掘、集群用戶行為智能分析、數(shù)據(jù)血緣與元數(shù)據(jù)管理系統(tǒng)重構(gòu)等五個(gè)方面。
2、第二步:明確治理的組織架構(gòu)、方法論、技術(shù)框架
治理組織架構(gòu)
集群治理組:負(fù)責(zé)集群治理平臺(tái)應(yīng)用和優(yōu)化評(píng)測工具研發(fā)、治理方案的制定、組織治理周例會(huì)和專項(xiàng)優(yōu)化虛擬小組聯(lián)合討論會(huì)、定期跟蹤巡檢治理效果,像牽引器一樣驅(qū)動(dòng)大家協(xié)同完成工作。
數(shù)據(jù)治理組:除了負(fù)責(zé)數(shù)據(jù)質(zhì)量和常規(guī)治理工作以外,還要配合集群治理組的方案,評(píng)估涉及到業(yè)務(wù)數(shù)據(jù)域基礎(chǔ)模型采集加工過程中的改進(jìn)優(yōu)化需求點(diǎn),然后負(fù)責(zé)具體實(shí)施,當(dāng)然還包括相關(guān)產(chǎn)品支撐模型的重構(gòu)、融合模型的整合優(yōu)化工作。
租戶運(yùn)營組:配合數(shù)據(jù)治理組、數(shù)據(jù)建模組和集群治理組完成租戶場景集群治理專項(xiàng)方案的實(shí)施。
平臺(tái)維護(hù)組:配合產(chǎn)品應(yīng)用部、數(shù)據(jù)治理組、租戶運(yùn)營組、數(shù)據(jù)建模組、集群治理組完成集群治理專項(xiàng)優(yōu)化方案的實(shí)施。
數(shù)據(jù)建模組:配合數(shù)據(jù)治理組、集群治理組完成集群治理平臺(tái)AI類模型的開發(fā)。
產(chǎn)品應(yīng)用部:配合數(shù)據(jù)治理組和集群治理組完成集群治理專項(xiàng)優(yōu)化方案的實(shí)施。
治理方法論
這里的核心就是建立自下而上、自發(fā)協(xié)同、精益推進(jìn)式的數(shù)據(jù)治理文化。
治理技術(shù)框架
Q: 這個(gè)技術(shù)框架理解起來太抽象了,要解決的問題可以再解釋一下嗎?
A: 其實(shí)沒有那么難以理解,主要是公司業(yè)務(wù)高速發(fā)展過程中數(shù)據(jù)業(yè)務(wù)需求越來越復(fù)雜,所需算力也越來越大,進(jìn)一步導(dǎo)致某些集群的規(guī)模越來越大,承載的產(chǎn)品也越來越多,部分集群面臨資源負(fù)載過高、資源搶占嚴(yán)重、RPC請求負(fù)載過高等問題;存儲(chǔ)系統(tǒng)也面臨空文件、垃圾文件、小文件過多,平均文件大小過小、文件數(shù)持續(xù)增長等問題,存儲(chǔ)系統(tǒng)穩(wěn)定性面臨很大隱患;作業(yè)又面臨執(zhí)行耗時(shí)過長、耗資源大、數(shù)據(jù)傾斜嚴(yán)重等問題,直接導(dǎo)致數(shù)據(jù)加工異常率過高、數(shù)據(jù)具備時(shí)間有延遲風(fēng)險(xiǎn)、產(chǎn)品交付面臨風(fēng)險(xiǎn)。
基于以上面臨的各種困境構(gòu)建巡山大數(shù)據(jù)集群治理平臺(tái),以資源、存儲(chǔ)、作業(yè)三大角度,從資源畫像、作業(yè)畫像、存儲(chǔ)畫像、冗余計(jì)算挖掘、數(shù)據(jù)血緣畫像、RPC畫像六大維度,幾十個(gè)小維度進(jìn)行集群交叉治理并協(xié)同各相關(guān)組織進(jìn)行全域治理,使集群全面向良性健康方向發(fā)展。
3、第三步:構(gòu)建針對(duì)大數(shù)據(jù)集群的智能運(yùn)維技術(shù)平臺(tái)
Q: 軍哥,搞大規(guī)模數(shù)據(jù)集群的治理怎么扯到智能運(yùn)維平臺(tái)上面去了呢?必須要建這個(gè)平臺(tái)嗎?
A: 好問題!前面說過,集群治理的首要目標(biāo)就是充分保證集群資源算力,實(shí)際上就是要保障集群關(guān)鍵服務(wù)運(yùn)行和數(shù)據(jù)作業(yè)資源調(diào)度的穩(wěn)定性,以及相對(duì)不錯(cuò)的性能表現(xiàn)。
這里的穩(wěn)定性和性能就是IT運(yùn)維領(lǐng)域的事情,從業(yè)界發(fā)展來看,主要經(jīng)歷了四個(gè)階段:
1)運(yùn)維1.0,主要關(guān)注網(wǎng)管軟件和ITSM工單系統(tǒng),講究業(yè)務(wù)協(xié)同和運(yùn)維流程化。
2)運(yùn)維2.0,主要關(guān)注CMDB和SOP標(biāo)準(zhǔn)運(yùn)維,一般都會(huì)強(qiáng)調(diào)自動(dòng)化工具在運(yùn)維場景的應(yīng)用,重點(diǎn)解決一些靠堆人方式解不了的問題。
3)運(yùn)維3.0,主要關(guān)注DevOps、微服務(wù)、容器化的融合,比如基于容器云的DevOps一體化平臺(tái),打通項(xiàng)目管理、需求、研發(fā)、測試、上線、變更處理全流程。
4)運(yùn)維4.0,主要關(guān)注AIOps,實(shí)現(xiàn)智能化的健康可用性分析、資源占用預(yù)測統(tǒng)計(jì)、異常檢測、故障預(yù)警、智能擴(kuò)縮容、日志根因分析應(yīng)用等,其實(shí)就是用大數(shù)據(jù)的技術(shù)手段來搞定AIOps模型數(shù)據(jù)的采集、存儲(chǔ)和分析處理。
一般來說,企業(yè)IT建設(shè)的頭幾年,會(huì)逐步上線CMDB、ITSM、Job自動(dòng)化作業(yè)、SOP等子系統(tǒng),然后開始考慮DevOps、容器云、AIOps等方向的建設(shè)。對(duì)于大規(guī)模數(shù)據(jù)集群來說,我們必須先構(gòu)建好這個(gè)基礎(chǔ)的智能運(yùn)維技術(shù)平臺(tái)。
總體架構(gòu)
ITSM:IT流程服務(wù)管理系統(tǒng),支持跨部門業(yè)務(wù)工作協(xié)同;CMDB:配置管理平臺(tái),IT資產(chǎn)應(yīng)用統(tǒng)一配置化動(dòng)態(tài)管理;Job:自動(dòng)化作業(yè)平臺(tái),運(yùn)維場景的作業(yè)批量自動(dòng)化調(diào)度執(zhí)行;SOP:標(biāo)準(zhǔn)運(yùn)維平臺(tái),可視化拖拽模板化的運(yùn)維流程定義和調(diào)度執(zhí)行;DevOps: 開發(fā)運(yùn)維一體化平臺(tái),公司平臺(tái)級(jí)開發(fā)運(yùn)維一體化管理模式;大數(shù)據(jù)集群治理平臺(tái)應(yīng)用:基于Hadoop內(nèi)核組件深度分析,實(shí)現(xiàn)各類運(yùn)維數(shù)據(jù)綜合采集和統(tǒng)一整合,基于運(yùn)維業(yè)務(wù)場景構(gòu)建智能調(diào)度模型,提升平臺(tái)數(shù)據(jù)處理作業(yè)性能,有效節(jié)省集群資源占用,實(shí)現(xiàn)平臺(tái)集群資源利用率最大化。Monitor統(tǒng)一監(jiān)控:先支持基礎(chǔ)設(shè)施和平臺(tái)集群監(jiān)控應(yīng)用,然后完成數(shù)據(jù)治理及上層產(chǎn)品層對(duì)接,逐步形成更全面的端到端統(tǒng)一監(jiān)控平臺(tái)。
數(shù)據(jù)生產(chǎn)監(jiān)測可視化大屏
具體實(shí)施過程中,前期需重點(diǎn)關(guān)注平臺(tái)優(yōu)化和跨部門業(yè)務(wù)協(xié)同子系統(tǒng)的運(yùn)營成效。
4、第四步:實(shí)現(xiàn)YARN作業(yè)&HDFS畫像、小文件洞察
以底層技術(shù)為核心,從資源、存儲(chǔ)、計(jì)算三大維度進(jìn)行聯(lián)合治理,深度監(jiān)控各業(yè)務(wù)資源隊(duì)列使用狀態(tài)、存儲(chǔ)系統(tǒng)文件分布、作業(yè)運(yùn)行事件和配置,建立可視化工具體系,驅(qū)動(dòng)日常優(yōu)化和運(yùn)營。從資源角度,對(duì)線上集群的資源隊(duì)列狀態(tài)進(jìn)行秒級(jí)數(shù)據(jù)采集,包含隊(duì)列最大容量、隊(duì)列配置容量、隊(duì)列已使用容量多維度的數(shù)據(jù)采集,實(shí)時(shí)監(jiān)控不同業(yè)務(wù)線、不同周期資源使用狀態(tài),以達(dá)到動(dòng)態(tài)調(diào)整資源規(guī)劃、加工周期保障產(chǎn)線加工正常進(jìn)行。
從計(jì)算角度,通過采集全域作業(yè)信息,解析出數(shù)十項(xiàng)核心指標(biāo)和千個(gè)作業(yè)配置,計(jì)算出作業(yè)耗時(shí)TOP、耗內(nèi)存TOP、耗CPU TOP、數(shù)據(jù)傾斜TOP、高IO TOP以及從不同業(yè)務(wù)、不同周期、不同賬戶洞察待優(yōu)化作業(yè),針對(duì)不同異常類型給出相應(yīng)優(yōu)化方案,降低作業(yè)資源負(fù)載、降低輸出文件數(shù)、提升輸出文件大小,從而減低整個(gè)集群資源負(fù)載和提升存儲(chǔ)系統(tǒng)穩(wěn)定性。
從存儲(chǔ)角度,采集分布式存儲(chǔ)系統(tǒng)的元數(shù)據(jù)鏡像和元數(shù)據(jù)操作日志,洞察分布式存儲(chǔ)系統(tǒng)文件數(shù)趨勢、文件分布統(tǒng)計(jì)、平均文件大小趨勢統(tǒng)計(jì)、空文件分布、垃圾文件分布。
技術(shù)實(shí)現(xiàn)方案
5、第五步:實(shí)現(xiàn)NN RPC畫像、關(guān)鍵Master服務(wù)預(yù)警
大數(shù)據(jù)集群有很多關(guān)鍵服務(wù),這些服務(wù)的健康異常狀態(tài),需要重點(diǎn)監(jiān)控,且盡可能做到實(shí)時(shí)處理效果,這樣在故障發(fā)生后可以組合多種監(jiān)控和日志信息,從多個(gè)維度交叉定位問題,提升解決問題效率。
技術(shù)實(shí)現(xiàn)方案
6、第六步:實(shí)現(xiàn)冗余計(jì)算挖掘,以目錄維度評(píng)估冗余度
冗余計(jì)算意味著同一份數(shù)據(jù)被多個(gè)加工流程加工,主要是由于前期為了支撐業(yè)務(wù)快速上線、沒有統(tǒng)一規(guī)劃、無序建設(shè)過程中所引發(fā)的問題,在運(yùn)營商海量數(shù)據(jù)背景下,數(shù)據(jù)重復(fù)加工意味著對(duì)內(nèi)存、CPU、存儲(chǔ)容量、IO、文件數(shù)量、RPC負(fù)載有著全面且巨大的影響,在全域數(shù)十萬加工作業(yè)中如何全面且精準(zhǔn)定位冗余計(jì)算成為不小的挑戰(zhàn),基于此持續(xù)優(yōu)化線上加工流程更是一個(gè)緩慢的過程,需要詳細(xì)梳理業(yè)務(wù)需求,制定數(shù)據(jù)標(biāo)準(zhǔn),明確數(shù)據(jù)口徑。
洞察冗余計(jì)算主要思路是解析全域數(shù)十萬個(gè)作業(yè)并從每個(gè)作業(yè)千個(gè)配置項(xiàng)中解析出輸入目錄,每個(gè)作業(yè)會(huì)有多個(gè)輸入目錄,最多的有上百個(gè)甚至上千個(gè),且目錄中含有省份、賬期、基站等各種分區(qū)類型,我們需要對(duì)目錄進(jìn)行通用化處理,以目錄為維度統(tǒng)計(jì)對(duì)應(yīng)的加工流程以及每個(gè)加工流程對(duì)應(yīng)的作業(yè)實(shí)例,從每個(gè)作業(yè)實(shí)例中計(jì)算內(nèi)存消耗、CPU消耗、存儲(chǔ)消耗、IO負(fù)載、文件數(shù)增長、RPC負(fù)載以評(píng)估冗余計(jì)算帶來的成本、優(yōu)化后達(dá)到的效果、執(zhí)行周期內(nèi)對(duì)其他數(shù)據(jù)加工產(chǎn)生的影響,以精細(xì)化數(shù)據(jù)為基礎(chǔ)協(xié)調(diào)各組織進(jìn)行持續(xù)治理。
技術(shù)實(shí)現(xiàn)方案
7、第七步:重構(gòu)數(shù)據(jù)血緣、元數(shù)據(jù)、數(shù)據(jù)資產(chǎn)管理應(yīng)用
面臨挑戰(zhàn)
在某集群長期的無序建設(shè)中,由于對(duì)數(shù)據(jù)缺少平臺(tái)級(jí)的運(yùn)營手段,比如缺少數(shù)據(jù)庫、數(shù)據(jù)表以及數(shù)據(jù)列統(tǒng)一的信息維護(hù)平臺(tái)和整體的物理視圖,導(dǎo)致底層數(shù)據(jù)存在過多垃圾表,且缺少對(duì)底層數(shù)據(jù)的認(rèn)知;
對(duì)元數(shù)據(jù)的變更無監(jiān)控?zé)o跟蹤,缺少全域加工數(shù)據(jù)血緣關(guān)系,不能追溯數(shù)據(jù)加工流向,導(dǎo)致故障發(fā)生后不能明確影響范圍,數(shù)據(jù)成本與價(jià)值也難以衡量,在安全合規(guī)為第一紅線的背景下,對(duì)敏感數(shù)據(jù)也沒有效跟蹤;
缺少數(shù)據(jù)資產(chǎn)管理,沒有展示數(shù)據(jù)應(yīng)有的支撐能力,造成組織架構(gòu)內(nèi)數(shù)據(jù)服務(wù)信息不對(duì)稱。
基于以上痛點(diǎn),著手重構(gòu)了企業(yè)級(jí)全域元數(shù)據(jù)平臺(tái),提供全域物理視圖、業(yè)務(wù)視圖、元數(shù)據(jù)變更跟蹤監(jiān)控、全域數(shù)據(jù)血緣關(guān)系圖等核心功能,物理視圖提升對(duì)數(shù)據(jù)的認(rèn)知,業(yè)務(wù)視圖展示數(shù)據(jù)支撐能力,元數(shù)據(jù)變更跟蹤實(shí)時(shí)了解產(chǎn)線環(huán)境異常修改,數(shù)據(jù)血緣可提供數(shù)據(jù)追溯、數(shù)據(jù)成本價(jià)值洞察、敏感數(shù)據(jù)流向。
元數(shù)據(jù)平臺(tái)視圖
元數(shù)據(jù)平臺(tái)應(yīng)用
全域數(shù)據(jù)血緣關(guān)系圖
技術(shù)實(shí)現(xiàn)方案
8、第八步:智能分析集群用戶行為畫像,檢測預(yù)測異常
產(chǎn)線環(huán)境難免存在數(shù)據(jù)被誤刪除的情況,故障發(fā)生后,一般要通過較復(fù)雜的綜合定位過程才能發(fā)現(xiàn)根因,此時(shí)產(chǎn)線加工可能受阻、數(shù)據(jù)具備時(shí)間延遲,進(jìn)一步影響到產(chǎn)品質(zhì)量和用戶體驗(yàn);由于此類故障從根本上難以徹底消除,為盡可能的降低負(fù)面影響,可建立用戶行為異常操作智能檢測機(jī)制,對(duì)不正常的用戶操作及時(shí)預(yù)警,在一定程度上提前發(fā)現(xiàn)問題、規(guī)避故障。
技術(shù)實(shí)現(xiàn)方案
根據(jù)產(chǎn)線環(huán)境千萬級(jí)的作業(yè)信息,結(jié)合當(dāng)下的資源狀態(tài)進(jìn)行特征抽取,建立實(shí)時(shí)的機(jī)器學(xué)習(xí)模型,對(duì)當(dāng)前以及未來一段時(shí)間窗口的資源占用進(jìn)行預(yù)測,將檢測到的異常狀態(tài)波動(dòng)進(jìn)行告警。
六、結(jié)語
在運(yùn)營商大規(guī)模集群治理的實(shí)踐過程中,有幾點(diǎn)感悟:
1)領(lǐng)導(dǎo)的支持力度非常關(guān)鍵。公司領(lǐng)導(dǎo)對(duì)數(shù)據(jù)資產(chǎn)管理建設(shè)的價(jià)值認(rèn)可,能夠在核心數(shù)據(jù)質(zhì)量持續(xù)優(yōu)化過程中提供組織協(xié)調(diào)支持,有效推動(dòng)集團(tuán)和各省分公司配合改進(jìn),保障端到端質(zhì)量優(yōu)化效果。
2)數(shù)據(jù)治理文化建設(shè)是核心。建立專業(yè)的數(shù)據(jù)治理團(tuán)隊(duì),優(yōu)化數(shù)據(jù)資產(chǎn)管理組織架構(gòu),以自底向上的完整血緣分析、核心數(shù)據(jù)質(zhì)量為入口,建立自下而上、自發(fā)協(xié)同、精益推進(jìn)的數(shù)據(jù)治理文化。
3)數(shù)據(jù)資產(chǎn)管理架構(gòu)和配套工具是基礎(chǔ)。在業(yè)務(wù)發(fā)展過程中,逐步打造體系化的數(shù)據(jù)治理實(shí)施能力,安全合規(guī)標(biāo)準(zhǔn)規(guī)范先行,建立持續(xù)優(yōu)化的治理體制。
4)數(shù)據(jù)能力開放平臺(tái)是優(yōu)勢。通過面向外部租戶自助建模平臺(tái)的綜合運(yùn)營,可大幅提升內(nèi)部數(shù)據(jù)治理工程跨組織的協(xié)同效率,數(shù)據(jù)用多了,自然會(huì)激發(fā)治理的原動(dòng)力。
5)基礎(chǔ)平臺(tái)團(tuán)隊(duì)要擁抱并吃透開源技術(shù)。能夠從大數(shù)據(jù)平臺(tái)核心組件源碼層進(jìn)行重構(gòu)與性能調(diào)優(yōu),充分保障集群的穩(wěn)定性和算力要求,在大規(guī)模集群故障預(yù)測、異常檢測、故障恢復(fù)、資源調(diào)度優(yōu)化、跨集群協(xié)同計(jì)算等方向全面探索和應(yīng)用AIOps技術(shù)解決難題。
來源:廠商供稿