国产成人精品免费视,91天堂嫩模在线播放,国产免费小视频在线观看,久久免费公开视频,国产成人精品免费视频网页大全,日韩不卡在线视频,视频一区二区精品的福利

<dfn id="fzbjq"><listing id="fzbjq"></listing></dfn>

<input id="fzbjq"></input>

每日經(jīng)濟(jì)新聞

要聞

每經(jīng)網(wǎng)首頁(yè) > 要聞 > 正文

記者實(shí)測(cè) | DeepSeek-R1對(duì)決四款主流推理模型：基礎(chǔ)題意外“翻車”，高難度推理碾壓ChatGPT o1

每日經(jīng)濟(jì)新聞 2025-01-27 21:52:13

DeepSeek的熱度還在持續(xù)。《每日經(jīng)濟(jì)新聞》記者對(duì)DeepSeek-R1與四款主流推理模型進(jìn)行了對(duì)比測(cè)試，結(jié)果顯示其在基礎(chǔ)題上意外“翻車”，高難度問(wèn)題上卻表現(xiàn)出色，甚至在速度上打敗了OpenAI的o1模型。DeepSeek旗下模型極低的訓(xùn)練成本或許預(yù)示著AI大模型對(duì)算力投入的需求將大幅下降。AI預(yù)訓(xùn)練時(shí)代或?qū)⒔K結(jié)。多家券商研報(bào)也指出算力需求將向推理側(cè)傾斜。

每經(jīng)記者岳楚鵬每經(jīng)編輯蘭素英

1月20日發(fā)布的DeepSeek-R1模型讓開(kāi)發(fā)公司DeepSeek在全球的熱度持續(xù)攀升。1月27日，DeepSeek接連登頂蘋果中國(guó)和美國(guó)地區(qū)應(yīng)用商城的免費(fèi)應(yīng)用排行榜，甚至超越了大眾熟知的ChatGPT。

諸多測(cè)評(píng)結(jié)果顯示，DeepSeek旗下模型R1在多個(gè)基準(zhǔn)測(cè)試下都能匹敵甚至超越OpenAI、谷歌和Meta的大模型，而且成本更低。在聊天機(jī)器人競(jìng)技場(chǎng)綜合榜單上，DeepSeek-R1已經(jīng)升至全類別大模型第三，其中，在風(fēng)格控制類模型（StyleCtrl）分類中與頂尖推理模型OpenAI o1并列第一。其競(jìng)技場(chǎng)得分達(dá)到1357分，略超OpenAI o1的1352分。

據(jù)外媒報(bào)道，Meta專門成立了四個(gè)專門研究小組來(lái)研究DeepSeek的工作原理，并基于此來(lái)改進(jìn)旗下大模型Llama。

其中兩個(gè)小組正在試圖了解DeepSeek如何降低訓(xùn)練和運(yùn)行成本；第三個(gè)研究小組則在研究DeepSeek訓(xùn)練模型可能用到的數(shù)據(jù)；第四個(gè)小組正在考慮基于DeepSeek模型屬性重構(gòu)Meta模型。

《每日經(jīng)濟(jì)新聞》記者也對(duì)炙手可熱的R1模型與四款主流推理模型——OpenAI的ChatGPT o1、谷歌的Gemini 2.0 Flash Thinking Experimental、字節(jié)跳動(dòng)的豆包1.5Pro和月之暗面的Kimi 1.5——進(jìn)行了對(duì)比測(cè)試。測(cè)試結(jié)果顯示，DeepSeek在難度最低的簡(jiǎn)單邏輯推理問(wèn)題上表現(xiàn)不佳，但在高難度問(wèn)題上表現(xiàn)可圈可點(diǎn)，不僅回答正確，還在速度上擊敗了o1。

DeepSeek旗下模型極低的訓(xùn)練成本或許預(yù)示著AI大模型對(duì)算力投入的需求將大幅下降。多家券商研報(bào)指出，算力需求會(huì)加速?gòu)念A(yù)訓(xùn)練向推理側(cè)傾斜，推理有望接力訓(xùn)練，成為下一階段算力需求的主要驅(qū)動(dòng)力。

記者實(shí)測(cè)：DeepSeek簡(jiǎn)單問(wèn)題出錯(cuò)，高難度問(wèn)題完勝，并在速度上擊敗o1

《每日經(jīng)濟(jì)新聞》記者對(duì)DeepSeek-R1以及市面上的幾款主流推理模型進(jìn)行了對(duì)比測(cè)試，包括o1、谷歌的Gemini 2.0 Flash Thinking Experimental、字節(jié)跳動(dòng)的豆包1.5Pro和月之暗面的Kimi 1.5。

記者選擇了三個(gè)問(wèn)題對(duì)以上五款模型進(jìn)行測(cè)試，難度依次升級(jí)（分別為一級(jí)到三級(jí)），依次評(píng)估模型的整體表現(xiàn)。由于DeepSeek的模型并不具備多模態(tài)功能，所以未進(jìn)行多模態(tài)相關(guān)測(cè)試。

首先需要明確的是，推理模型與傳統(tǒng)的大語(yǔ)言模型在輸出方式上采用了兩種不同的模式。傳統(tǒng)的大語(yǔ)言模型對(duì)于模型的輸出采用的預(yù)測(cè)模式，即通過(guò)大規(guī)模的預(yù)訓(xùn)練猜測(cè)下一個(gè)輸出應(yīng)該是什么。而推理模型則具備自我事實(shí)核查能力，能夠有效避免一些常見(jiàn)錯(cuò)誤，使之輸出邏輯更接近人類自身思考推理的過(guò)程。所以，推理模型在解決問(wèn)題時(shí)通常比非推理模型需多花費(fèi)幾秒到幾分鐘，在物理、科學(xué)和數(shù)學(xué)等領(lǐng)域，其可靠性更高，但在常識(shí)領(lǐng)域可能有著效率不高的問(wèn)題。

DeepSeek推理過(guò)程示意圖

難度I|三個(gè)燈泡問(wèn)題：五大模型全部通關(guān)

首先，記者選擇了一道簡(jiǎn)單的思維問(wèn)題：在一個(gè)黑暗的房間里，有三個(gè)開(kāi)關(guān)，分別控制著房間外的三個(gè)燈泡。你站在房間里，不能看到燈泡，只能通過(guò)開(kāi)關(guān)控制它們。你只能走一次出去檢查燈泡，如何確定每個(gè)開(kāi)關(guān)控制哪個(gè)燈泡？

五個(gè)模型都很快得出了正確答案，在這個(gè)簡(jiǎn)單的問(wèn)題上沒(méi)有分出區(qū)別。

豆包

DeepSeek

Kimi

Gemini

o1

難度II|囚犯帽子顏色推理：DeepSeek、Kimi犯錯(cuò)，Gemini耗時(shí)最短且完全正確

接下來(lái)問(wèn)題升級(jí)：有四位囚犯排隊(duì)站好，囚犯1號(hào)能看見(jiàn)囚犯2號(hào)和囚犯3號(hào)；囚犯2號(hào)可以看見(jiàn)囚犯3號(hào)；囚犯3號(hào)看不見(jiàn)任何人；囚犯4號(hào)也看不見(jiàn)任何人。他們知道一共有4頂帽子，2黑2白，但并不知道自己頭頂?shù)拿弊邮鞘裁搭伾?。?qǐng)問(wèn)誰(shuí)會(huì)是第一個(gè)知道自己頭頂?shù)拿弊邮鞘裁搭伾⑶已杆俸俺鰜?lái)的人？

在這個(gè)問(wèn)題上，DeepSeek和Kimi都犯錯(cuò)了，兩者在推理過(guò)程中推導(dǎo)出了一種情況，但正確選項(xiàng)應(yīng)該是兩種。

Kimi

DeepSeek

而Gemini、豆包和o1都回答正確。其中，Gemini推理速度最快，僅用了6.8秒就得出了結(jié)果，最慢的是o1，耗時(shí)1分02秒。

Gemini

o1

豆包

難度III|研究生級(jí)別數(shù)學(xué)題：DeepSeek-R1完勝，且用時(shí)最短

評(píng)測(cè)結(jié)果顯示，DeepSeek在科學(xué)領(lǐng)域如數(shù)學(xué)能力上排名第一。于是，記者找來(lái)了一道研究生級(jí)別的數(shù)學(xué)題進(jìn)行測(cè)試：找出所有階為147且不包含階為49的元素的兩兩不同同構(gòu)群（出自美國(guó)南加州大學(xué)博士資格考試）。

在這一問(wèn)題上，DeepSeek-R1沒(méi)有“辜負(fù)”評(píng)測(cè)，表現(xiàn)最好，找出了三個(gè)解。除o1外的其他模型只找出了兩個(gè)解，而且，Kimi在推理過(guò)程中還開(kāi)啟了聯(lián)網(wǎng)查詢功能進(jìn)行輔助推理，但仍然少了一個(gè)解。

雖然o1也找出了三個(gè)解，但耗時(shí)更長(zhǎng)，用了4分17秒得出答案，而DeepSeek-R1只花費(fèi)了2分18秒。

DeepSeek

o1

豆包

Gemini

Kimi

綜合各項(xiàng)測(cè)試來(lái)看，DeepSeek存在一個(gè)反常識(shí)的問(wèn)題，即在難度不高的問(wèn)題上表現(xiàn)不如其他模型好，甚至可能會(huì)出現(xiàn)其他模型不會(huì)出現(xiàn)的錯(cuò)誤。但是當(dāng)難度提升到專家級(jí)別的程度上時(shí)，DeepSeek的表現(xiàn)反而變成了最好的模型。

這就是說(shuō)，對(duì)于需要專業(yè)知識(shí)輔導(dǎo)的從業(yè)人員或研究人員來(lái)說(shuō)，DeepSeek是一個(gè)好的選擇。

DeepSeek力壓ChatGPT登頂蘋果應(yīng)用榜

1月27日，蘋果App Store中國(guó)區(qū)免費(fèi)榜顯示，近一周全球刷屏的DeepSeek一舉登上首位。同時(shí)，DeepSeek在美國(guó)區(qū)蘋果App Store免費(fèi)榜從前一日的第六位飆升至第一位，超越ChatGPT、Meta旗下的社交媒體平臺(tái)Threads、Google Gemini，以及Microsoft Copilot等AI產(chǎn)品。

許多科技界人士都在大肆宣揚(yáng)該公司所取得的成就及其對(duì)AI領(lǐng)域的意義。

例如，著名投資公司A16z創(chuàng)始人馬克安德森27日表示，DeepSeek-R1是AI的斯普特尼克時(shí)刻（注：這是指1957年10月4日蘇聯(lián)搶先美國(guó)成功發(fā)射斯普特尼克1號(hào)人造衛(wèi)星，令西方世界陷入一段恐懼和焦慮的時(shí)期）。

DeepSeek-R1在一些AI基準(zhǔn)測(cè)試上匹敵甚至超越了OpenAI的o1模型。DeepSeek-R1在聊天機(jī)器人競(jìng)技場(chǎng)綜合榜單上排名第三，與頂尖推理模型o1并列。

在高難度提示詞、代碼和數(shù)學(xué)等技術(shù)性極強(qiáng)的領(lǐng)域，DeepSeek-R1拔得頭籌，位列第一。

在風(fēng)格控制方面，DeepSeek-R1與o1并列第一，意味著模型在理解和遵循用戶指令，并按照特定風(fēng)格生成內(nèi)容方面表現(xiàn)出色。

在高難度提示詞與風(fēng)格控制結(jié)合的測(cè)試中，DeepSeek-R1與o1也并列第一，進(jìn)一步證明了其在復(fù)雜任務(wù)和精細(xì)化控制方面的強(qiáng)大能力。

圖片來(lái)源：聊天機(jī)器人競(jìng)技場(chǎng)

Artificial-Analysis對(duì)DeepSeek-R1的初始基準(zhǔn)測(cè)試結(jié)果也顯示，DeepSeek-R1在AI分析質(zhì)量指數(shù)中取得第二高分，價(jià)格是o1的約三十分之一。

圖片來(lái)源:Artificial-Analysis

預(yù)訓(xùn)練時(shí)代將終結(jié)，推理正在崛起

DeepSeek旗下模型極低的訓(xùn)練成本或許預(yù)示著AI大模型對(duì)算力投入的需求將大幅下降。

“AI預(yù)訓(xùn)練時(shí)代無(wú)疑將終結(jié)。”2024年12月13日，在溫哥華NeurIPS大會(huì)上，OpenAI聯(lián)合創(chuàng)始人兼前首席科學(xué)家伊利亞•蘇茨克維爾（Ilya Sutskever）直言。

在這場(chǎng)演講中，Ilya Sutskever將數(shù)據(jù)比作化石燃料，而燃料終將耗盡。“算力在增長(zhǎng)，但數(shù)據(jù)卻沒(méi)有增長(zhǎng)，因?yàn)槲覀冎挥幸粋€(gè)互聯(lián)網(wǎng)……我們已經(jīng)達(dá)到了數(shù)據(jù)峰值，不會(huì)再有更多數(shù)據(jù)了，我們必須處理好現(xiàn)有的數(shù)據(jù)。”現(xiàn)有數(shù)據(jù)仍可推動(dòng)AI進(jìn)一步發(fā)展，業(yè)內(nèi)也正在竭力挖掘新數(shù)據(jù)進(jìn)行訓(xùn)練，這種情況最終將迫使行業(yè)改變目前的AI模型訓(xùn)練方式。他預(yù)計(jì)，下一代AI模型將是真正的AI Agent，且具備推理能力。

預(yù)訓(xùn)練是指使用大量數(shù)據(jù)訓(xùn)練AI模型的過(guò)程，通常需要極高的計(jì)算能力和存儲(chǔ)資源。訓(xùn)練過(guò)程通常在數(shù)據(jù)中心完成，耗時(shí)較長(zhǎng)，成本高昂。推理是指將訓(xùn)練好的模型應(yīng)用于實(shí)際任務(wù)（如生成文本、識(shí)別圖像、推薦商品等），通常需要低延遲和高吞吐量。推理過(guò)程可以在云端或邊緣設(shè)備（如手機(jī)、自動(dòng)駕駛汽車）上進(jìn)行。

推理模型其最突出的地方在于，在給出回答之前，模型會(huì)思考，通過(guò)產(chǎn)生一個(gè)很長(zhǎng)的內(nèi)部思維鏈（CoT），逐步推理，模仿人類思考復(fù)雜問(wèn)題的過(guò)程。

隨著各類大模型的成熟，許多企業(yè)和開(kāi)發(fā)者可以直接使用預(yù)訓(xùn)練模型，而不需要從頭訓(xùn)練。對(duì)于特定任務(wù)，企業(yè)通常只需對(duì)預(yù)訓(xùn)練模型進(jìn)行微調(diào)，而不需要大規(guī)模訓(xùn)練，這減少了對(duì)訓(xùn)練算力的需求。預(yù)訓(xùn)練時(shí)代或許行將落幕，推理正在崛起。

近幾日，多家券商研報(bào)都指出，算力需求會(huì)加速?gòu)念A(yù)訓(xùn)練向推理側(cè)傾斜，推理有望接力訓(xùn)練，成為下一階段算力需求的主要驅(qū)動(dòng)力。

巴克萊12月的報(bào)告預(yù)計(jì)，AI推理計(jì)算需求將快速提升，預(yù)計(jì)其將占通用人工智能總計(jì)算需求的70%以上，推理計(jì)算的需求甚至可以超過(guò)訓(xùn)練計(jì)算需求，達(dá)到后者的4.5倍。英偉達(dá)GPU目前在推理市場(chǎng)中市占率約80%，但隨著大型科技公司定制化ASIC芯片不斷涌現(xiàn)，這一比例有望在2028年下降至50%左右。

免責(zé)聲明：本文內(nèi)容與數(shù)據(jù)僅供參考，不構(gòu)成投資建議，使用前請(qǐng)核實(shí)。據(jù)此操作，風(fēng)險(xiǎn)自擔(dān)。

如需轉(zhuǎn)載請(qǐng)與《每日經(jīng)濟(jì)新聞》報(bào)社聯(lián)系。
未經(jīng)《每日經(jīng)濟(jì)新聞》報(bào)社授權(quán)，嚴(yán)禁轉(zhuǎn)載或鏡像，違者必究。

讀者熱線：4008890008

特別提醒：如果我們使用了您的圖片，請(qǐng)作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站，可聯(lián)系我們要求撤下您的作品。

模型 DeepSeek Gemini Kimi OpenAI 推理模型豆包

上一篇文章

突發(fā)！森霸傳感實(shí)際控制人、董事長(zhǎng)被留置

返回每經(jīng)網(wǎng)首頁(yè)

下一篇文章

莫高股份“換帥”：牛濟(jì)軍出任董事長(zhǎng) 總經(jīng)理亦變更

相關(guān)文章

熱文精選

點(diǎn)擊排行

歡迎關(guān)注每日經(jīng)濟(jì)新聞APP

每經(jīng)經(jīng)濟(jì)新聞官方APP

關(guān)注我們
辟謠專區(qū)

加入我們
招聘專頁(yè)

Copyright ? 2025 每日經(jīng)濟(jì)新聞報(bào)社版權(quán)所有，未經(jīng)許可不得轉(zhuǎn)載使用，違者必究。

廣告熱線? 北京: 010-57613265，?上海: 021-61283008，?廣州: 020-84201861，?深圳: 0755-83520159，?成都: 028-86512112

網(wǎng)絡(luò)社會(huì)征信網(wǎng)

兒童色情信息舉報(bào)專區(qū)

成都市互聯(lián)網(wǎng)不良與違法信息舉報(bào)中心

四川省互聯(lián)網(wǎng)舉報(bào)中心

中國(guó)互聯(lián)網(wǎng)舉報(bào)中心

每日經(jīng)濟(jì)新聞互聯(lián)網(wǎng)不良與違法信息舉報(bào)中心

互聯(lián)網(wǎng)新聞信息服務(wù)許可證：51120190017 網(wǎng)站備案號(hào)：蜀ICP備19004508號(hào)-3 川公網(wǎng)安備 51019002002026號(hào)

新聞職業(yè)道德監(jiān)督熱線：400 889 0008 郵箱：zbb@nbd.com.cn

_{<del id="8vmms"><i id="8vmms"></i></del>}

<input id="8vmms"><thead id="8vmms"><blockquote id="8vmms"></blockquote></thead></input>

<progress id="8vmms"></progress>

<del id="8vmms"></del>