7月6日,在2024世界人工智能大會期間,中國移動研究院聯(lián)合北京郵電大學(xué)、北京市大數(shù)據(jù)中心、工信部賽迪研究院、國家電網(wǎng)、廈門大學(xué)、數(shù)據(jù)堂公司、浪潮集團(tuán)和科大訊飛等頭部企業(yè)、重點(diǎn)高校和科研機(jī)構(gòu)共同發(fā)布《“弈衡”多模態(tài)大模型評測體系白皮書》。白皮書聚焦于文生圖、圖生文、圖文理解等各類應(yīng)用場景,深入分析多模態(tài)大模型的應(yīng)用需求,系統(tǒng)總結(jié)行業(yè)典型評測體系,并創(chuàng)新地提出“弈衡”多模態(tài)大模型評測體系,助力大模型技術(shù)與行業(yè)應(yīng)用的深度融合。
相比于語言類大模型,多模態(tài)大模型具備對文本、圖像、視頻和音頻等數(shù)據(jù)進(jìn)行綜合處理的能力,在生產(chǎn)生活領(lǐng)域中具有廣泛的應(yīng)用前景。同時(shí),多模態(tài)大模型評測面臨評測數(shù)據(jù)更多樣、評測任務(wù)更豐富、評測方式更復(fù)雜、評測成本更昂貴等挑戰(zhàn)。如何應(yīng)對上述挑戰(zhàn),構(gòu)建全面、客觀的多模態(tài)大模型評測體系,成為業(yè)界關(guān)注的熱點(diǎn)問題。
中國移動技術(shù)能力評測中心與業(yè)界權(quán)威機(jī)構(gòu)、頭部企業(yè)深入合作,攻關(guān)多模態(tài)大模型評測難點(diǎn)技術(shù),完成“弈衡”多模態(tài)大模型評測體系構(gòu)建,并編制白皮書。該白皮書主要包括以下四方面內(nèi)容:一是總結(jié)梳理多模態(tài)大模型的應(yīng)用需求、評測方式、評測維度和評測指標(biāo),將評測需求劃分為識別、理解、創(chuàng)作、推理四種任務(wù);二是廣泛調(diào)研業(yè)界多模態(tài)大模型評測技術(shù)和評測體系,從評測方式、評測維度和評測指標(biāo)等方面進(jìn)行分析總結(jié);三是提出“弈衡”多模態(tài)大模型“2-4-6”評測框架,針對圖文雙模態(tài)大模型,詳細(xì)闡述基礎(chǔ)任務(wù)和應(yīng)用任務(wù)兩大評測場景,評測指標(biāo)、評測數(shù)據(jù)等四大評測要素,以及功能性、準(zhǔn)確性、交互性、安全性等六大評測維度;四是針對多模態(tài)大模型演進(jìn)趨勢,展望評測技術(shù)重點(diǎn)方向。
未來,中國移動將持續(xù)跟進(jìn)多模態(tài)大模型發(fā)展,不斷優(yōu)化“弈衡”多模態(tài)大模型評測體系,與業(yè)界合作伙伴一道,共同打造評測產(chǎn)業(yè)標(biāo)準(zhǔn)化生態(tài),推動多模態(tài)大模型產(chǎn)業(yè)成熟和落地應(yīng)用,為AI+賦能千行百業(yè)貢獻(xiàn)力量。