一道步驟難懂的數(shù)學(xué)奧賽試題、一場組會(huì)中的“頭腦風(fēng)暴”、一個(gè)需要做大量“功課”才能做出的生活決策——當(dāng)大模型能像人類一樣思考時(shí),你會(huì)發(fā)現(xiàn),這一切都將在一次回車的敲下后迎刃而解。
“什么樣的場景最適合讓AI鍛煉思考能力?我們認(rèn)為是數(shù)學(xué)場景。”11月16日,月之暗面創(chuàng)始人楊植麟發(fā)布了新一代數(shù)學(xué)能力可對(duì)標(biāo)OpenAI o1系列的數(shù)學(xué)推理模型k0-math,在中考、高考、考研以及包含競賽題的MATH等數(shù)學(xué)基準(zhǔn)測試中,k0-math初代模型成績已經(jīng)超過o1-mini和o1-preview模型。
“這可以說是,在OpenAI o1發(fā)布后,國內(nèi)首個(gè)摸索出并實(shí)現(xiàn)o1思路的公司。”對(duì)于k0-math的推出,一位國內(nèi)頭部互聯(lián)網(wǎng)公司的大模型技術(shù)人員表示,k0-math模型采用的全新強(qiáng)化學(xué)習(xí)和思維鏈(CoT)推理技術(shù),正是業(yè)內(nèi)普遍認(rèn)為OpenAI o1系列的技術(shù)關(guān)鍵所在,國內(nèi)多家互聯(lián)網(wǎng)巨頭均在破解這一“新思路”,但在k0-math發(fā)布時(shí),尚未有其他類似模型問世。
在“百模大戰(zhàn)”開戰(zhàn)的一年多里,新技術(shù)、新團(tuán)隊(duì)、新應(yīng)用不斷涌現(xiàn),戰(zhàn)況也隨之頻繁變動(dòng)。從月之暗面、零一萬物等“新AI六小龍”和字節(jié)跳動(dòng)、阿里等互聯(lián)網(wǎng)大廠團(tuán)隊(duì)在混戰(zhàn)中脫穎而出,到如今應(yīng)用最廣的AI智能助手陸續(xù)上線,可以觀察到的是,豆包和Kimi的領(lǐng)先讓AI智能助手領(lǐng)域逐漸呈現(xiàn)出了“兩超多強(qiáng)”的新格局。
新模型登場
Kimi對(duì)標(biāo)o1
“如果你有100枚硬幣,每枚硬幣正面朝上。每次翻轉(zhuǎn)包含當(dāng)前正面朝上的硬幣和它相鄰的兩枚硬幣。最少需要翻轉(zhuǎn)多少次才能使所有硬幣反面朝上?”
仿佛一個(gè)數(shù)學(xué)天才型選手,Kimi數(shù)學(xué)版在40秒鐘里完成了對(duì)該題的問題分解、3種思路嘗試、解法驗(yàn)證并正確作答的全套解題流程。
值得注意的是,其中,“意識(shí)到逐個(gè)翻轉(zhuǎn)硬幣不可行,我開始思考如何最大化每次翻轉(zhuǎn)的效果”“意識(shí)到翻轉(zhuǎn)之間隔兩枚硬幣會(huì)導(dǎo)致重疊,我考慮增加間隔”等對(duì)思維鏈推理的展示,均是模型自我思考能力的體現(xiàn)。
今年9月,被Open AI創(chuàng)始人Sam Altman喻為“新范式開始”的o1誕生,以模仿人類思維過程進(jìn)行的強(qiáng)化學(xué)習(xí)和思維鏈技術(shù),突破了AI推理瓶頸。自此,行業(yè)的技術(shù)焦點(diǎn)也從預(yù)訓(xùn)練轉(zhuǎn)向了推理和強(qiáng)化學(xué)習(xí)。
11月16日,Kimi率先交出國內(nèi)首份答卷。據(jù)介紹,相較于以盡快提供答案為關(guān)鍵目標(biāo)的常規(guī)模型,新推出的k0-math模型在做題過程中會(huì)花更長的時(shí)間來推理,包括思考和規(guī)劃思路,并且在必要時(shí)自行反思改進(jìn)解題思路,提升答題的成功率。
發(fā)布會(huì)上,月之暗面公布了k0-math的目前測評(píng)得分:在業(yè)界最常使用的數(shù)學(xué)能力基準(zhǔn)測試MATH中,k0-math模型得分93.8分,超過o1-mini的90分和o1-preview的85.5分,且k0-math這一成績僅次于o1完全版的94.8分。
在兩個(gè)難度更大的競賽級(jí)別的數(shù)學(xué)題庫OMNI-MATH和AIME基準(zhǔn)測試中,k0-math初代模型的表現(xiàn)分別達(dá)到了o1-mini最高成績的90%和83%。
從線上AI社區(qū)的討論中選取一道數(shù)學(xué)題進(jìn)行實(shí)測,Kimi數(shù)學(xué)版用時(shí)2分10秒完成了對(duì)該題的正確解答。從線上該帖的評(píng)論區(qū)反饋來看,在求解該題時(shí),o1-mini和o1-preview在用時(shí)上有約30秒的優(yōu)勢,但多次測試均未得出正確答案。

