每日經濟新聞 2024-09-13 06:33:13
每經編輯 杜宇
北京時間周五凌晨1時許,AI時代迎來嶄新的起點——能夠進行通用復雜推理的大模型終于走到臺前。
圖片來源:視覺中國-VCG31N2008743681
OpenAI在官網發(fā)布公告稱,開始向全體訂閱用戶開始推送OpenAI o1預覽模型——也就是此前被廣泛期待的“草莓”大模型。OpenAI表示,對于復雜推理任務而言,新模型代表著人工智能能力的嶄新水平,因此值得將計數重置為1,給它一個有別于“GPT-4”系列的全新名號。
推理大模型的特點,就是AI會在回答之前花更多時間進行思考,就像人類思考解決問題的過程一樣。以往的大模型,背后的邏輯是通過學習大量數據集中的模式,來預測單詞生成的序列,嚴格來說并不是真正理解提問。
作為o1系列模型的首批版本,OpenAI僅推出了o1-preview預覽版和o1-mini迷你版,而且是分階段向付費用戶、免費用戶和開發(fā)者推出,且開發(fā)者的使用價格頗為昂貴。
據介紹,o1新模型通過背后嶄新的訓練方式,變得可以回答更復雜的編程、數學與科學難題,在給出答案前會先“思考”,而且速度比人類更快。更小、更便宜的迷你版聚焦在編程用例。
ChatGPT Plus和Team付費用戶即刻起便能訪問這兩種模型,從用戶界面AI模型選擇器的下拉菜單中手動選擇。ChatGPT Enterprise和Edu用戶下周能使用這兩種模式,未來某個未知時刻還將向所有免費用戶提供o1-mini的訪問權限。OpenAI希望以后能根據提示語自動選擇正確的模型。
不過,開發(fā)人員訪問o1非常昂貴,在API(應用程序編程接口)中,o1-preview每100萬個輸入token收費15美元,是GPT-4o成本的三倍,每100萬個輸出token收費60美元,是GPT-4o成本的四倍。100萬個token即模型解析文字塊的規(guī)模大小,相當于大約75萬個單詞。
OpenAI的研究負責人Jerry Tworek對媒體稱,o1背后的訓練方式與之前的模型有著根本不同。
首先,o1“使用了一種全新的優(yōu)化算法和專門為其量身定制的新訓練數據集進行訓練”,這個數據集中包含“推理數據”和專門為其量身定制的科學文獻。
其次,之前的GPT模型訓練方法是模仿數據集的規(guī)律/范式(pattern),而o1采用“強化學習”的方式,通過獎勵和懲罰來教導模型自行解決問題,再通過“思路鏈”(chain of thoughts)來處理用戶查詢的問題,給出思路鏈的總結摘要版,類似于人類一步步來處理問題的方式。
右圖可以點開思路鏈看o1模型如何“思考”
對于一個復雜數學問題的思路鏈展示圖
OpenAI認為,這種全新的訓練方法會讓o1模型更加準確,會減少瞎編回答的“幻覺”問題,但也無法完全杜絕出現“幻覺”。新模型與GPT-4o的主要區(qū)別在于能夠更好地解決編程和數學等復雜問題,同時還能完善其推理過程、嘗試不同策略,并識別和修正自身答案中的錯誤。
OpenAI曾解釋過,2023年發(fā)布的GPT-4類似于高中生的智能水平,而GPT-5則是完成AI從“高中生躍升至博士”的成長。這個o1模型就是其中關鍵的一步。
相較于GPT-4o等現有的大模型,OpenAI o1能夠解決更加困難的推理問題,同時改善過往模型中存在的機制性缺陷。
舉例而言,這個新模型能夠數清楚strawberry里到底有幾個“r”。
同時AI在解答編程問題時也會更有條理,在著手寫代碼前,把整個回答的流程全部思考完一遍,再動手輸出代碼。
例如在預設條件的寫詩任務(例如第二句的最后一個單詞需要以i收尾)中,“拿起筆就寫”的GPT-4o的確給出了回答,但往往只會滿足了一部分條件,同時不會自我糾正。這意味著AI必須在第一次生成時就能碰上正確的答案,否則就一定會出錯。但在o1模型中,AI會不斷試錯并打磨答案,從而顯著提高生成結果的準確率和質量。
有趣的是,點開AI思考的過程,還會出現AI表示“我在思考這個事情這么做行不行”、“啊時間不夠了得盡快給出答案”等。OpenAI確認,這里展示的并不是原始的思維鏈,而是“模型生成的摘要”,公司也坦率承認這里有保持“競爭優(yōu)勢”的因素。
OpenAI的研究負責人Jerry Tworek透露,o1模型背后的訓練與之前的產品有著根本性的區(qū)別。之前的GPT模型旨在模仿其訓練數據中的模式,而o1的訓練旨在讓其獨立解決問題。在強化學習的過程中,使用獎勵和懲罰機制來“教育”AI使用“思維鏈”來處理問題,就像人類習得拆解、分析問題的方式一樣。
根據測試,o1模型在國際數學奧林匹克的資格考試中,能夠拿到83%的分數,而GPT-4o只能正確解決13%的問題。而在編程能力比賽Codeforces中,o1模型拿到89%百分位的成績,而GPT-4o只有11%。
OpenAI表示,根據測試,在下一個更新的版本中,AI在物理、化學和生物學的挑戰(zhàn)性基準測試中,表現能夠與博士生水平類似。
但作為o1模型的最初始版本,今日發(fā)布的o1-預覽版也有明顯缺點。例如,只是一款“純文字版”,暫時無法瀏覽網頁信息以及上傳文件和圖片,也就是說不具備ChatGPT的許多使用功能,在許多常見用例中不如GPT-4o那么強大,而且還有用量限制,o1預覽版每周上限為30條消息,迷你版每周上限為50條。
其他被提及的局限性包括:o1模型在很多領域的能力不如GPT-4o,在關于世界的事實知識方面表現不佳;有的用例下推理能力較慢,可能需要更長的時間來回答問題;目前o1只是一個純文本模型,缺乏針對特定文檔進行推理,或者從網絡收集實時信息的能力。
此外,讓AI模型玩井字棋(Tic-Tac-Toe)一直被認為是個業(yè)界難題,擁有推理能力的o1新模型也還是會在這個游戲中出錯,即無法完全攻克技術難關。
OpenAI還在一篇技術論文中承認,其收到了一些“軼事反饋”,稱o1預覽版和迷你版比GPT-4o及其迷你版更容易產生“幻覺”,也就是AI仍在很自信地編造答案,而且o1很少會承認它不知道問題的答案。
知名科技媒體Techcrunch指出,OpenAI在o1模型相關的博文中點明,其決定不向用戶展示這一新模型的原始“思維鏈”,而是選擇在答案中給出思維鏈的總結摘要,目的是為了維持“競爭優(yōu)勢”,為了彌補可能的缺點,“我們努力教導模型在答案中重現思路鏈中的任何有用想法。”
每日經濟新聞綜合公開資料
如需轉載請與《每日經濟新聞》報社聯系。
未經《每日經濟新聞》報社授權,嚴禁轉載或鏡像,違者必究。
讀者熱線:4008890008
特別提醒:如果我們使用了您的圖片,請作者與本站聯系索取稿酬。如您不希望作品出現在本站,可聯系我們要求撤下您的作品。
歡迎關注每日經濟新聞APP