新突破!中國(guó)電信復(fù)現(xiàn)DeepSeek R1,探索行業(yè)大模型建設(shè)新路徑

DeepSeek 是由深度求索開(kāi)發(fā)的低成本、高性能開(kāi)源大語(yǔ)言模型。該模型通過(guò)強(qiáng)化學(xué)習(xí)與混合專(zhuān)家結(jié)構(gòu)(MOE)的技術(shù)創(chuàng)新,以工程優(yōu)化突破硬件限制,實(shí)現(xiàn)了“算力需求下降但性能提升”的反共識(shí)路徑。

開(kāi)源策略重塑了 AI 生態(tài),為全球開(kāi)發(fā)者提供普惠工具,標(biāo)志著從“算力堆砌”向“算法效率”的產(chǎn)業(yè)轉(zhuǎn)型。中國(guó)電信政企信息服務(wù)事業(yè)群 DeepSeek 攻堅(jiān)團(tuán)隊(duì)緊跟技術(shù)潮流,基于行業(yè)數(shù)據(jù)復(fù)現(xiàn) R1 模型,提出行業(yè)大模型優(yōu)化的新思路。

政企信息服務(wù)事業(yè)群 DeepSeek 攻堅(jiān)團(tuán)隊(duì)選取醫(yī)療行業(yè)數(shù)據(jù)作為實(shí)驗(yàn)對(duì)象,基于 Qwen2.5-14B 和 DeepSeek-R1-Dstill-Qwen-14B 兩個(gè)開(kāi)源模型,對(duì) DeepSeek-R1 相關(guān)技術(shù)的復(fù)現(xiàn)實(shí)驗(yàn),通過(guò)復(fù)現(xiàn)其強(qiáng)化學(xué)習(xí)(RL)訓(xùn)練和基于 R1 的蒸餾模型監(jiān)督微調(diào)(SFT)訓(xùn)練過(guò)程,提高了政企醫(yī)療行業(yè)大模型的應(yīng)用能力,使行業(yè)大模型的落地有了新思路。

本次實(shí)驗(yàn)通過(guò)兩種建設(shè)路徑提升行業(yè)大模型的應(yīng)用能力:在數(shù)據(jù)方面通過(guò) R1 蒸餾模式提升行業(yè)數(shù)據(jù)質(zhì)量。在合成高質(zhì)量的行業(yè)數(shù)據(jù)的同時(shí)提升現(xiàn)有行業(yè)數(shù)據(jù)的質(zhì)量。在訓(xùn)練方面借鑒 DeepSeek 的 GRPO 強(qiáng)化學(xué)習(xí)模式,提升行業(yè)大模型訓(xùn)練效率和邏輯推理能力。讓模型更懂行業(yè)知識(shí),更好地回答行業(yè)問(wèn)題。

實(shí)驗(yàn)準(zhǔn)備在數(shù)據(jù)準(zhǔn)備階段,研究團(tuán)隊(duì)通過(guò) DeepSeek-R1 API 進(jìn)行知識(shí)蒸餾,對(duì)原本僅包含問(wèn)題和答案的醫(yī)療數(shù)據(jù)集進(jìn)行了優(yōu)化升級(jí),生成了包含完整推理過(guò)程和最終答案的高質(zhì)量醫(yī)療推理數(shù)據(jù)集。一系列優(yōu)化顯著提升了數(shù)據(jù)的邏輯性和質(zhì)量,為后續(xù)行業(yè)大模型的訓(xùn)練與優(yōu)化提供了可靠保障。畢竟,高質(zhì)量的數(shù)據(jù)是提升大模型能力的關(guān)鍵所在。

隨后,研究團(tuán)隊(duì)分別對(duì)基于 Qwen2.5-14B 和 DeepSeek-R1-Dstill-Qwen-14B 兩個(gè)開(kāi)源模型進(jìn)行了 SFT 訓(xùn)練,旨在驗(yàn)證經(jīng)過(guò) R1 蒸餾優(yōu)化的基模型相較于原始基模在能力上是否存在顯著提升。

實(shí)驗(yàn)分析在 RL 復(fù)現(xiàn)階段,研究團(tuán)隊(duì)采用 GRPO 算法對(duì)兩個(gè)開(kāi)源模型進(jìn)行了訓(xùn)練,并使用高質(zhì)量醫(yī)療推理數(shù)據(jù)集對(duì)其性能進(jìn)行了全面評(píng)估。實(shí)驗(yàn)過(guò)程如下圖,可看到 RL 后的模型能快速掌握基本格式與逐步掌握嚴(yán)格格式規(guī)范。

格式正確性獎(jiǎng)勵(lì)該獎(jiǎng)勵(lì)值從一開(kāi)始就在滿(mǎn)分附近波動(dòng),表明模型能夠快速學(xué)習(xí)到基本格式要求。嚴(yán)格格式獎(jiǎng)勵(lì)該獎(jiǎng)勵(lì)值在訓(xùn)練初期顯著上升,并最終趨于穩(wěn)定,說(shuō)明模型逐步掌握了更嚴(yán)格的格式規(guī)范。

實(shí)驗(yàn)對(duì)比結(jié)果顯示,經(jīng)過(guò)微調(diào)的模型在回答通用問(wèn)題和專(zhuān)業(yè)問(wèn)題時(shí)均表現(xiàn)出顯著提升。具體而言,模型不僅能夠提供更加準(zhǔn)確和專(zhuān)業(yè)的答案,還引入了清晰的思考過(guò)程,使回答的邏輯性和可解釋性得到了增強(qiáng)。這種改進(jìn)不僅提升了模型的可信度,也使其在醫(yī)療領(lǐng)域


微信掃描分享本文到朋友圈
掃碼關(guān)注5G通信官方公眾號(hào),免費(fèi)領(lǐng)取以下5G精品資料
  • 1、回復(fù)“YD5GAI”免費(fèi)領(lǐng)取《中國(guó)移動(dòng):5G網(wǎng)絡(luò)AI應(yīng)用典型場(chǎng)景技術(shù)解決方案白皮書(shū)
  • 2、回復(fù)“5G6G”免費(fèi)領(lǐng)取《5G_6G毫米波測(cè)試技術(shù)白皮書(shū)-2022_03-21
  • 3、回復(fù)“YD6G”免費(fèi)領(lǐng)取《中國(guó)移動(dòng):6G至簡(jiǎn)無(wú)線(xiàn)接入網(wǎng)白皮書(shū)
  • 4、回復(fù)“LTBPS”免費(fèi)領(lǐng)取《《中國(guó)聯(lián)通5G終端白皮書(shū)》
  • 5、回復(fù)“ZGDX”免費(fèi)領(lǐng)取《中國(guó)電信5GNTN技術(shù)白皮書(shū)
  • 6、回復(fù)“TXSB”免費(fèi)領(lǐng)取《通信設(shè)備安裝工程施工工藝圖解
  • 7、回復(fù)“YDSL”免費(fèi)領(lǐng)取《中國(guó)移動(dòng)算力并網(wǎng)白皮書(shū)
  • 8、回復(fù)“5GX3”免費(fèi)領(lǐng)取《R1623501-g605G的系統(tǒng)架構(gòu)1
  • 本周熱點(diǎn)本月熱點(diǎn)

     

      最熱通信招聘

      最新招聘信息

    最新論壇貼子