數(shù)據(jù)、算法與算力,被稱為人工智能的三駕馬車。在數(shù)據(jù)體量爆發(fā)性增長(zhǎng)的當(dāng)下,精耕細(xì)作的數(shù)據(jù)治理,或?qū)⒊蔀槠髽I(yè)趕上大模型風(fēng)口的制勝關(guān)鍵。
瓴羊「數(shù)據(jù)薈」數(shù)據(jù)Meet Up第三站線上活動(dòng)成功舉辦。來自中國(guó)信息通信研究院、阿里云智能集團(tuán)、雅戈?duì)柤瘓F(tuán)的業(yè)務(wù)主管、技術(shù)專家及大數(shù)據(jù)負(fù)責(zé)人,圍繞“大模型時(shí)代的數(shù)據(jù)治理創(chuàng)新實(shí)踐”主題,深入分享了AI與數(shù)據(jù)治理的深度融合、數(shù)據(jù)平臺(tái)建設(shè)的最佳實(shí)踐以及數(shù)據(jù)資產(chǎn)管理與運(yùn)營(yíng)的前沿見解。
大模型時(shí)代,數(shù)據(jù)治理四大趨勢(shì)與三大堵點(diǎn)
中國(guó)信息通信研究院云計(jì)算與大數(shù)據(jù)研究所高級(jí)業(yè)務(wù)主管尹正指出,AI時(shí)代下的數(shù)據(jù)治理,將呈現(xiàn)出“全域數(shù)據(jù)治理”、“數(shù)據(jù)研發(fā)模式工程化、敏捷化”、“數(shù)據(jù)治理技術(shù)智能化”、“數(shù)據(jù)安全縱深化”四大趨勢(shì)。
具體而言,全域數(shù)據(jù)治理將重點(diǎn)關(guān)注音視頻、圖片、文本等非結(jié)構(gòu)化數(shù)據(jù)。在實(shí)踐領(lǐng)域,中國(guó)移動(dòng)、自動(dòng)駕駛等企業(yè)已通過構(gòu)建非結(jié)構(gòu)化數(shù)據(jù)評(píng)價(jià)體系,關(guān)注合成數(shù)據(jù)技術(shù),提升了數(shù)據(jù)集可信性,解決了“數(shù)據(jù)荒”難題。
在全域數(shù)據(jù)治理下,數(shù)據(jù)研發(fā)模式也隨之發(fā)生變化,企業(yè)應(yīng)打造面向AI與BI結(jié)合的數(shù)據(jù)工程“流水線”,以系統(tǒng)化方法提升效率、降低成本、保障質(zhì)量、推動(dòng)創(chuàng)新。同時(shí),智能化數(shù)據(jù)治理將逐步取代傳統(tǒng)勞動(dòng)密集型模式,而AI驅(qū)動(dòng)的數(shù)據(jù)安全技術(shù)與能力,將為解決數(shù)據(jù)安全關(guān)鍵問題、應(yīng)對(duì)大模型安全挑戰(zhàn)指明方向。
盡管趨勢(shì)向好,但當(dāng)前大模型發(fā)展仍面臨質(zhì)量、安全、倫理三大數(shù)據(jù)堵點(diǎn),具體體現(xiàn)為:高質(zhì)量數(shù)據(jù)集構(gòu)建知易行難,安全與隱私泄露頻發(fā)、數(shù)據(jù)倫理體系亟待完善。不過,面向AI的數(shù)據(jù)治理框架正在形成,人工智能數(shù)據(jù)治理的流程、方法、技術(shù)也在逐步完善。此外,依據(jù)DataOps理念構(gòu)建面向人工智能的數(shù)據(jù)工程體系,為Al提供了敏捷高效、安全可信的數(shù)據(jù)供給,并進(jìn)一步為企業(yè)人工智能長(zhǎng)期平穩(wěn)、良好、健康發(fā)展提供了保障。
以數(shù)據(jù)標(biāo)準(zhǔn)為抓手,讓AI為數(shù)據(jù)治理提效
阿里云智能集團(tuán)瓴羊高級(jí)技術(shù)專家周鑫指出,企業(yè)數(shù)據(jù)治理面臨現(xiàn)狀評(píng)估難、組織架構(gòu)復(fù)雜、實(shí)施成本高、治理迭代難等多個(gè)難題,破解以上難題的最好方法,是找到核心抓手,降低數(shù)據(jù)治理的復(fù)雜度。
數(shù)據(jù)治理很重要的一個(gè)核心是數(shù)據(jù)標(biāo)準(zhǔn)的梳理與建設(shè)。通過瓴羊Dataphin,企業(yè)只需完成基礎(chǔ)數(shù)據(jù)梳理,即可完成大部分?jǐn)?shù)據(jù)治理工作。例如,在身份證數(shù)據(jù)治理中,企業(yè)僅需定義數(shù)據(jù)類型、分級(jí)標(biāo)準(zhǔn)及字段空值校驗(yàn)等規(guī)則,系統(tǒng)即可自動(dòng)開展元數(shù)據(jù)監(jiān)控,檢驗(yàn)數(shù)據(jù)是否符合字符串類型、是否存在空值,安全權(quán)限是否合規(guī)。除元數(shù)據(jù)監(jiān)控外,數(shù)據(jù)標(biāo)準(zhǔn)還能與數(shù)據(jù)質(zhì)量、建模、研發(fā)相結(jié)合,使數(shù)據(jù)標(biāo)準(zhǔn)可以在數(shù)據(jù)全生命周期中得以不斷流轉(zhuǎn)。
周鑫提到,數(shù)據(jù)質(zhì)量是AI成功的關(guān)鍵,據(jù)Gartner預(yù)測(cè),到2025年,至少三分之二的生成式人工智能項(xiàng)目將因數(shù)據(jù)質(zhì)量不足等問題在概念驗(yàn)證階段被放棄。與此同時(shí),AI同樣是實(shí)現(xiàn)主動(dòng)數(shù)據(jù)治理的重要工具,它可以讓數(shù)據(jù)治理變得更加智能化和自動(dòng)化,形成從數(shù)據(jù)發(fā)現(xiàn)、治理、評(píng)估與標(biāo)準(zhǔn)的完整閉環(huán)。
瓴羊Quick BI智能小D是AI+BI的標(biāo)志性產(chǎn)品化成果,它承擔(dān)著數(shù)據(jù)PD與數(shù)據(jù)架構(gòu)師的角色,可以為用戶業(yè)務(wù)問題提供直接的解決方案。以往,關(guān)鍵詞搜索往往與實(shí)際業(yè)務(wù)問題相差千里,搜索“交易”得出的相似度匹配信息,并不能解決實(shí)際的業(yè)務(wù)問題。而利用智能小D,用戶可直接提出“GMV提升20%,我能做什么?”或“哪些表適合用于客戶分層?”等問題,無需自行拆解數(shù)據(jù)維度,即可獲取直接的數(shù)據(jù)維度與策略指引。
除了數(shù)據(jù)發(fā)現(xiàn)與理解,瓴羊通過自動(dòng)屬性豐富功能,幫助企業(yè)一鍵生成目錄、標(biāo)簽、描述等信息,將原本需要半小時(shí)完成的上架操作縮短至數(shù)十秒,效率提升百倍。此外,瓴羊的自動(dòng)生成識(shí)別特征功能,讓不會(huì)寫、讀不懂正則表達(dá)式的人也能輕松完成條件組合復(fù)雜的特征識(shí)別工作。邁過提效階段后,Dataphin還將往更加自動(dòng)化、智能化方向演進(jìn),探索自動(dòng)生成質(zhì)量規(guī)則、智能理解業(yè)務(wù)流程解決方案,讓數(shù)據(jù)治理更加輕盈。
Dataphin的技術(shù)演進(jìn):打造開放兼容的數(shù)據(jù)建設(shè)與治理平臺(tái)
阿里云智能集團(tuán)瓴羊高級(jí)技術(shù)專家江嵐指出,Dataphin在產(chǎn)品演進(jìn)過程中,面臨著“全域資產(chǎn)建設(shè)與治理”、“混合云架構(gòu)”、“多引擎支持”和“資產(chǎn)消費(fèi)”等挑戰(zhàn)。為應(yīng)對(duì)這些挑戰(zhàn),Dataphin成功探索出了一套優(yōu)化數(shù)據(jù)建設(shè)與治理中臺(tái)的技術(shù)實(shí)現(xiàn)路徑。
在多引擎兼容方面,Dataphin通過多引擎SDK和插件的結(jié)合,充分融合了富客戶端和輕客戶端的優(yōu)勢(shì),在接口層、插件層和依賴層構(gòu)建了多引擎技術(shù)架構(gòu),實(shí)現(xiàn)了對(duì)多云環(huán)境的支持以及多種引擎的適配兼容。
在混合云架構(gòu)方面,Dataphin基于Kubernetes集群部署了應(yīng)用集群與默認(rèn)調(diào)度集群,同時(shí)在IDC通過外部調(diào)度集群進(jìn)行任務(wù)調(diào)度,廣泛應(yīng)用于數(shù)據(jù)集成、數(shù)據(jù)服務(wù)和資產(chǎn)采集等多個(gè)場(chǎng)景。
在資產(chǎn)消費(fèi)場(chǎng)景中,Dataphin通過統(tǒng)一JDBC,實(shí)現(xiàn)了數(shù)據(jù)資產(chǎn)在權(quán)限管理、脫敏處理、審計(jì)等方面的統(tǒng)一管控。此外,Dataphin還與Quick BI進(jìn)行了深度集成,大幅簡(jiǎn)化了用戶的配置工作。目前,Dataphin已經(jīng)在自助取數(shù)與分析、數(shù)據(jù)探查與分析、接口調(diào)用與應(yīng)用等三種消費(fèi)方式中得到了廣泛應(yīng)用,極大地提升了業(yè)務(wù)人員、數(shù)據(jù)分析師和開發(fā)人員的工作效率。
從數(shù)據(jù)資產(chǎn)建設(shè)到數(shù)據(jù)運(yùn)營(yíng),雅戈?duì)柕臄?shù)據(jù)價(jià)值探索實(shí)踐
雅戈?duì)柤瘓F(tuán)大數(shù)據(jù)負(fù)責(zé)人竺顯波表示,數(shù)字化建設(shè)有兩個(gè)階段,一個(gè)階段是一切業(yè)務(wù)數(shù)據(jù)化、可視化,第二個(gè)階段是一切數(shù)據(jù)業(yè)務(wù)化、價(jià)值化。數(shù)字化之所以經(jīng)常被說成是“一把手工程”,正在于它要協(xié)同好公司的戰(zhàn)略、業(yè)務(wù)、技術(shù)、治理與改革,是一個(gè)系統(tǒng)性的大工程。
雅戈?duì)柕臄?shù)據(jù)架構(gòu)由以下三部分組成:數(shù)據(jù)源層、數(shù)據(jù)中臺(tái)與數(shù)據(jù)應(yīng)用。其中,數(shù)據(jù)中臺(tái)和數(shù)據(jù)應(yīng)用分別通過瓴羊Dataphin和Quick BI等數(shù)據(jù)產(chǎn)品,實(shí)現(xiàn)了工具與架構(gòu)的全面升級(jí),落地了多個(gè)數(shù)字化產(chǎn)品成果。例如,企業(yè)數(shù)據(jù)門戶以銷售、物流等類別劃分,用戶只需簡(jiǎn)單拖拉拽操作,即可快速生成所需報(bào)表;主題門戶則根據(jù)品牌、大區(qū)管理人員、店長(zhǎng)等特定身份進(jìn)行分類,為不同用戶精準(zhǔn)聚合并高效查找所需數(shù)據(jù)提供了便利。
在數(shù)據(jù)中臺(tái)建設(shè)方面,雅戈?duì)柍晒Υ罱?/span>16個(gè)系統(tǒng),整合了950多個(gè)數(shù)據(jù)表、400個(gè)指標(biāo)和650個(gè)報(bào)表,提升了系統(tǒng)性能與架構(gòu)效率。同時(shí),雅戈?duì)枌?shí)現(xiàn)了組織架構(gòu)信息、商品信息、人員信息等核心數(shù)據(jù)的統(tǒng)一治理與貫通,消除了數(shù)據(jù)二義性。
在標(biāo)準(zhǔn)化治理的基礎(chǔ)上,雅戈?duì)枏?/span>數(shù)據(jù)組織、技術(shù)架構(gòu)和流程管理三個(gè)層面全面優(yōu)化,推動(dòng)數(shù)據(jù)價(jià)值的深度挖掘與應(yīng)用。以“平效”為例,數(shù)據(jù)團(tuán)隊(duì)基于“面積在300至1萬平方米之間,面積越大,平效越高”的數(shù)據(jù)規(guī)律,驗(yàn)證了公司“開大店、關(guān)小店”戰(zhàn)略的科學(xué)性和可行性,為企業(yè)決策提供了數(shù)據(jù)支撐。
隨著AI與數(shù)據(jù)治理深度融合,更多行業(yè)將迎來數(shù)字化轉(zhuǎn)型的新機(jī)遇。瓴羊?qū)⒊掷m(xù)以數(shù)據(jù)標(biāo)準(zhǔn)為核心,打造開放兼容的數(shù)據(jù)建設(shè)與治理平臺(tái),推動(dòng)企業(yè)開啟更加高效、安全的數(shù)據(jù)治理新時(shí)代。