Ai大模型瘋狂卷出五個(gè)關(guān)鍵趨勢
發(fā)布日期: 2024年12月31日 shopxx
如果對比去年同期,你會(huì)發(fā)現(xiàn)今年12月是大模型行業(yè)的一個(gè)熱鬧峰值。
從11月中旬開始,OpenAI、微軟、谷歌、字節(jié)跳動(dòng)、百度和智譜等科技公司都召開了與大模型相關(guān)的發(fā)布會(huì),推出了一系列新模型、新應(yīng)用和新產(chǎn)品,其中OpenAI的12天連續(xù)直播更是開啟了科技公司發(fā)布會(huì)的新流行。
熱鬧之下,比起去年技術(shù)層和競爭層的種種不確定性,當(dāng)下模型廠商們的心態(tài)和預(yù)期好很多。一方面,在技術(shù)側(cè),一場推理AI競賽已經(jīng)開打;另一方面,應(yīng)用層包括AI Agent、搜索等方向也已經(jīng)明確。
隨著OpenAI相繼發(fā)布o(jì)1和o3模型,一場推理競賽正在模型廠商間展開。
據(jù)OpenAI發(fā)布的o3系列時(shí)給出的評測數(shù)據(jù),在數(shù)學(xué)、編碼、博士級科學(xué)問題等復(fù)雜問題上的表現(xiàn),o3均展現(xiàn)出了強(qiáng)大的實(shí)力,例如在陶哲軒等60余位全球數(shù)學(xué)家共同推出的最強(qiáng)數(shù)學(xué)基準(zhǔn)的EpochAI Frontier Math中,o3 創(chuàng)下新紀(jì)錄,準(zhǔn)確率高達(dá)25.2%,而其他模型都沒有超過2.0%。
而在OpenAI沒放出o3前,國內(nèi)外科技公司的目標(biāo)無疑是追趕o1,谷歌此前發(fā)布全新測試模型Gemini 2.0 Flash Thinking。
今年11月,月之暗面Kimi的新一代數(shù)學(xué)推理模型k0-math、DeepSeek的推理模型DeepSeek-R1-Lite預(yù)覽版、阿里云通義的QwQ-32B-Preview也相繼發(fā)布,在一些數(shù)學(xué)和編碼評估表現(xiàn)中,它們的分?jǐn)?shù)比o1還要高。
目前尚不清楚o3是否會(huì)為普通用戶帶來很大幫助,從模型能力來看更適合推編碼、數(shù)學(xué)和科學(xué)領(lǐng)域的研究人員,除此以外,推理模型也很昂貴。在Keras之父François Chollet發(fā)起的ARC-AGI基準(zhǔn)測試顯示,盡管o3在高計(jì)算模式下得分率為 87.5%,但研究人員在該模式下每個(gè)任務(wù)花費(fèi)達(dá)到數(shù)美元,任務(wù)成本很高。
但成本也只是一個(gè)相對的概念。近期,清華NLP實(shí)驗(yàn)室劉知遠(yuǎn)教授團(tuán)隊(duì)提出了大模型的密度定律(densing law),該定律表明,大約每過3.3個(gè)月(100天),就能用參數(shù)量減半的模型達(dá)到當(dāng)前最先進(jìn)模型的性能水平,這意味未來推理成本還會(huì)快速降低。
但至少從技術(shù)端來看,至少OpenAI再度驗(yàn)證了Scaling Law沒有消失,只不過是從預(yù)訓(xùn)練端轉(zhuǎn)向了推理端,通過強(qiáng)化學(xué)習(xí)和更多的思考時(shí)間,提升模型的復(fù)雜推理能力,這條路是可行的。
對國內(nèi)外基礎(chǔ)模型廠商而言,它們需要追趕的新目標(biāo)又出現(xiàn)了。
本文鏈接: http://www.cwtic.org.cn/news/detail/6773447f9194be00018dc59c