近日,中國電信人工智能研究院(TeleAI)發(fā)布了“復(fù)雜推理大模型”TeleAI-t1-preview。該模型使用強化學(xué)習(xí)訓(xùn)練方法,大幅提升了在數(shù)學(xué)推導(dǎo)、邏輯推理等復(fù)雜問題上的準確性。
在數(shù)學(xué)基準評測中,TeleAI-t1-preview表現(xiàn)出色。它在AIME 2024和MATH500兩項評測中分別獲得了60和93.8的高分,超越了OpenAI的o1-preview和GPT-4o等標桿模型。在研究生級別問答測試GPQA Diamond中,TeleAI-t1-preview的得分也超過了GPT-4o,并與Claude 3.5 Sonnet的性能水準相當。
TeleAI-t1-preview不僅能夠給出正確答案,還能展示出思考和分析過程。這對于學(xué)生學(xué)習(xí)數(shù)學(xué)和理解問題背后的邏輯非常有幫助。例如,在面對三角函數(shù)的復(fù)雜等式關(guān)系時,TeleAI-t1-preview能夠通過多次假設(shè)嘗試和思路糾偏,將復(fù)雜等式轉(zhuǎn)化為簡化的方程式,并給出正確的推導(dǎo)過程。
在回答問題時,TeleAI-t1-preview還能夠?qū)⑿蜗笏季S與抽象思維結(jié)合,對所涉及的場景進行具象化思考,輔助理解題目。同時,它還能夠嚴謹?shù)剡M行古今單位換算,順利解決古代數(shù)學(xué)問題。
此外,TeleAI-t1-preview在策略推理問題上也表現(xiàn)出色。它能夠迅速理解游戲規(guī)則并完成破題,在解題過程中還能考慮到可能出現(xiàn)的特殊情況。
為了訓(xùn)練TeleAI-t1-preview,TeleAI引入了創(chuàng)新的訓(xùn)練策略。在數(shù)據(jù)準備階段,收集和構(gòu)建了一個以數(shù)學(xué)為核心、多學(xué)科為補充的高質(zhì)量推理數(shù)據(jù)集。在Judge Model評估階段,專門訓(xùn)練了一個評估模型,用于分析和評估模型長思考鏈路的正確性。在SFT監(jiān)督微調(diào)階段,使用MCTS構(gòu)造高質(zhì)量長推理數(shù)據(jù),并結(jié)合準確率和解決方案長度選擇最優(yōu)路徑。在強化學(xué)習(xí)階段,構(gòu)造了基于規(guī)則的獎勵模型,以提供準確的獎勵信號。
總的來說,TeleAI-t1-preview的發(fā)布是人工智能領(lǐng)域的一項重要成果。它在復(fù)雜推理問題上的出色表現(xiàn),將為人們提供更智能、更高效的服務(wù)。TeleAI將繼續(xù)在推理模型領(lǐng)域研究探索,讓人工智能基于人類的“已知”,推導(dǎo)出期盼得到的“未知”。