每日經濟新聞 2025-02-10 22:51:38
每經記者 宋欣悅 每經編輯 蘭素英
當?shù)貢r間2月6日,據(jù)外媒報道,李飛飛等斯坦福大學和華盛頓大學的研究人員以不到50美元的費用,使用了16張英偉達H100GPU,耗時26分鐘就完成了訓練,成功“打造”出了一個名為s1-32B的人工智能推理模型。
根據(jù)李飛飛等人的研究論文《s1:Simple test- time scaling》,該模型在數(shù)學和編碼能力測試中的表現(xiàn),與OpenAI的o1和DeepSeek的R1等尖端推理模型不相上下,在競賽數(shù)學問題上的表現(xiàn)更是比o1-preview高出27%。
憑借低成本、高效能,s1模型成為繼“AI界價格屠夫”DeepSeek之后再次引發(fā)科技界熱議的話題。但s1推理模型的成本真的只有50美元嗎?其性能是否真有描述的那么出色?在“白菜價”的背后,李飛飛團隊又有哪些探索?
針對成本問題,復旦大學計算機學院副教授、博士生鄭驍慶在接受《每日經濟新聞》記者采訪時指出,“像DeepSeek或者類似的公司,在尋找有效的整合解決方案時,需要進行大量的前期研究與消融實驗。”這意味著前期是需要大量“燒錢”的。
疑問一:只用50美元?
據(jù)報道,李飛飛等斯坦福大學和華盛頓大學的研究人員以不到50美元的費用,就完成了模型s1-32B的訓練。參與該項目的斯坦福大學研究員尼克拉斯·穆寧霍夫(Niklas Muennighoff)更是表示,如今,只要約20美元就能租到所需的計算資源。
然而,關于訓練成本,有幾點需要明確。
首先,模型s1-32B的打造并非是從零開始,而是基于現(xiàn)成的、預訓練的模型(阿里通義千問Qwen2.5-32B-Instruct)進行監(jiān)督微調。而微調一個模型和從零開始訓練一個模型的成本是無法相提并論的。
其次,50美元是否包含了其他數(shù)據(jù)、設備、消融實驗等費用,還要打一個問號。正如DeepSeek-V3不到600萬美元的訓練成本,實際上也只包括了訓練時的GPU算力費用。
鄭驍慶向《每日經濟新聞》記者表示,“像DeepSeek或者類似的公司,在尋找有效的整合解決方案時,需要進行大量的前期研究與消融實驗。”而消融實驗就意味著,前期是需要大量“燒錢”的。
AI數(shù)據(jù)公司Databricks研究員奧馬爾·哈塔布(Omar Khattab)評價稱,(李飛飛團隊的)論文似乎是關于Qwen模型的某種發(fā)現(xiàn)。
谷歌DeepMind資深研究員Wenhu Chen同樣表示,“真正神奇的是Qwen模型。我們嘗試過把基座模型換成其他模型,用同樣的數(shù)據(jù)去訓練,但最終并不能達到這么好的效果。”
也就是說,s1-32B是站在了“巨人肩膀”上,且50美元的成本也并沒有涵蓋Qwen模型的訓練費用。
疑問二:性能這么強?
李飛飛團隊發(fā)表的論文提到,根據(jù)Qwen2.5-32B-Instruct進行微調的s1-32B模型,在數(shù)學和編碼能力測試中的表現(xiàn),與OpenAI的o1和DeepSeek的R1等尖端推理模型不相上下,在競賽數(shù)學問題上的表現(xiàn)更是比o1-preview高出27%。
此外,研究結果顯示,s1-32B是樣本效率最高的開放數(shù)據(jù)推理模型,表現(xiàn)明顯優(yōu)于其基座模型(Qwen2.5-32B-Instruct)以及OpenAI的推理模型o1- preview。
不過,事實上,s1-32B只能在特定的測試集上超過o1-preview,且并沒有超過“滿血版”o1和DeepSeek-R1。
研究結果顯示,在AIME2024和MATH 500兩個測試集中,s1-32B超過了o1-preview,但無論在哪個測試集,s1-32B都沒有超過“滿血版”o1和正式版DeepSeek-R1。
重點不在“白菜價”
事實上,李飛飛團隊論文的核心也并不在于如何“卷”模型價格,而是研究如何以最簡單的方式實現(xiàn)“測試時拓展”(test- time scaling)。
測試時擴展是一種在模型推理階段通過多步推理來提高模型性能的技術。具體來說,研究團隊可控制模型“思考”多長時間或進行多少步操作。如果模型過早結束推理,系統(tǒng)會鼓勵模型延長思考時間,確保其充分考慮問題。這也就意味著,模型在推理時會進行多次推理迭代,并逐步優(yōu)化推理結果,最終生成高質量的答案。
例如,當被問到“raspberry”中有幾個“r”時,模型首先進行了初步推理,并得出了錯誤的初步結果:有2個r。但推理過程并沒有就此結束,模型又重新進行推理,優(yōu)化了上次回答的結果,輸出了最終的答案:3個r。
OpenAI的o1系列模型就是一個典型的例子,展現(xiàn)了測試時拓展在模型性能提升上的潛力。
微軟CEO薩提亞·納德拉(Satya Nadella)曾表示,人們正在見證一種新的規(guī)模法則(Scaling Law)的出現(xiàn)——模型效率與測試時間或推理時間計算有關。
高質量數(shù)據(jù)集降低成本
此外,李飛飛研究團隊還從16個來源收集了59029道高質量題目,包括數(shù)學競賽問題、博士級別的科學問題、奧林匹克競賽問題等,并通過三個標準進行驗證:難度、多樣性和質量。
通過過濾,研究團隊最終得到了包含1000個樣本的s1K數(shù)據(jù)集,數(shù)據(jù)集覆蓋幾何、數(shù)論、量子力學等50個領域,并且每個問題都配有從 Google Gemini 2.0Flash Thinking Experimental作為“教師模型”蒸餾而來的答案和推理軌跡。
這個數(shù)據(jù)集的構建基于三個關鍵標準:難度、多樣性和質量。高質量的數(shù)據(jù)集,極大降低了s1-32B模型的訓練成本。
復旦大學計算機學院副教授、博士生鄭驍慶在接受記者采訪時表示,大規(guī)模的數(shù)據(jù)可能不會成為下一步大家爭奪的戰(zhàn)場,其成本和產出之間的比例在慢慢壓縮,而高質量數(shù)據(jù)的微調和強化學習未來將會有更多的投入。
如需轉載請與《每日經濟新聞》報社聯(lián)系。
未經《每日經濟新聞》報社授權,嚴禁轉載或鏡像,違者必究。
讀者熱線:4008890008
特別提醒:如果我們使用了您的圖片,請作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站,可聯(lián)系我們要求撤下您的作品。
歡迎關注每日經濟新聞APP