国产成人精品免费视,91天堂嫩模在线播放,国产免费小视频在线观看,久久免费公开视频,国产成人精品免费视频网页大全,日韩不卡在线视频,视频一区二区精品的福利

<fieldset id="m4d7p"><small id="m4d7p"></small></fieldset>

<nobr id="m4d7p"><small id="m4d7p"></small></nobr>

<nobr id="m4d7p"><small id="m4d7p"></small></nobr>

每日經(jīng)濟(jì)新聞

要聞

每經(jīng)網(wǎng)首頁(yè) > 要聞 > 正文

馬斯克用20萬(wàn)張GPU“砸出”地表最強(qiáng)AI？每經(jīng)記者實(shí)測(cè)Grok 3：速度稱王，數(shù)學(xué)亮眼，但邏輯思考不敵DeepSeek R1

每日經(jīng)濟(jì)新聞 2025-02-23 14:57:06

近日，馬斯克旗下人工智能公司xAI發(fā)布了最新一代AI模型Grok 3，并宣稱其為“地球上最聰明的人工智能”。xAI在發(fā)布后48小時(shí)內(nèi)免費(fèi)開(kāi)放Grok 3供用戶試用。然而，一些用戶體驗(yàn)后質(zhì)疑其能力，OpenAI應(yīng)用研究主管Boris Power也指責(zé)xAI存在作弊嫌疑。真相如何？每經(jīng)記者進(jìn)行了實(shí)測(cè)。

每經(jīng)實(shí)習(xí)記者岳楚鵬每經(jīng)編輯高涵

近日，人工智能初創(chuàng)公司xAI發(fā)布了更新版Grok 3大模型，埃隆·馬斯克稱之為“地球上最聰明的人工智能”。

根據(jù)官方公開(kāi)的測(cè)試結(jié)果，Grok 3在包括AIME（評(píng)估模型在一系列數(shù)學(xué)問(wèn)題上的表現(xiàn)）和 GPQA（評(píng)估模型在博士級(jí)別的物理學(xué)、生物學(xué)和化學(xué)問(wèn)題上的表現(xiàn)）等基準(zhǔn)測(cè)試中，遠(yuǎn)超 GPT-4o、Gemini-2 Pro、DeepSeek V3、Claude 3.5 Sonnet 等大模型。

在大模型競(jìng)技場(chǎng) Chatbot Arena（LMSYS）測(cè)試中，xAI工程師表示，早期版本的Grok 3獲得了第一的成績(jī)，達(dá)到了140分，超越了Gemini 2.0 Flash Thinking實(shí)驗(yàn)版本、ChatGPT-4o最新版本以及最近大火的DeepSeek R1等等。

然而，有些用戶在體驗(yàn)后卻對(duì)Grok 3的能力產(chǎn)生了質(zhì)疑，他們認(rèn)為Grok 3的能力并沒(méi)有馬斯克宣稱的那么強(qiáng)大。OpenAI應(yīng)用研究主管Boris Power則對(duì)Grok團(tuán)隊(duì)在模型評(píng)估中的行為表示失望，指出其存在作弊和欺騙的動(dòng)機(jī)。Boris Power提到，o3-mini在各項(xiàng)評(píng)估中均優(yōu)于Grok 3。

真相到底如何，馬斯克吹牛了嗎？《每日經(jīng)濟(jì)記者》測(cè)試發(fā)現(xiàn)，Grok 3確實(shí)是世界頂級(jí)模型的水平，但并沒(méi)有和其他模型拉開(kāi)太大差距。唯一拉開(kāi)差距的是它極快的響應(yīng)速度。

9.9和9.11誰(shuí)大，Grok 3輕松拿下

Grok 3是由馬斯克旗下的人工智能公司xAI發(fā)布的最新一代AI模型。馬斯克在發(fā)布會(huì)上稱其為“地球上最聰明的人工智能”，并表示Grok 3的能力比前代產(chǎn)品Grok 2高出一個(gè)數(shù)量級(jí)，具備更強(qiáng)的推理、計(jì)算和適應(yīng)能力。

在新聞發(fā)布會(huì)上，馬斯克宣稱Grok 3在數(shù)學(xué)、科學(xué)和編程等基準(zhǔn)測(cè)試中表現(xiàn)出色，超越了谷歌的Gemini、DeepSeek的V3模型、Anthropic的Claude和OpenAI的GPT-4o等競(jìng)爭(zhēng)對(duì)手。

Grok 3在發(fā)布后僅48小時(shí)內(nèi)，xAI宣布將其免費(fèi)開(kāi)放給所有用戶，直至服務(wù)器負(fù)載達(dá)到極限。目前用戶每天可以體驗(yàn)十條“思考模式”Grok3，及不限量免費(fèi)普通Grok 3。

《每日經(jīng)濟(jì)新聞》記者在Grok 3發(fā)布后也親自進(jìn)行了測(cè)試，看看Grok3真有馬斯克宣傳的那么厲害嗎？

首先，從最經(jīng)典的基礎(chǔ)問(wèn)題開(kāi)始：9.9和9.11誰(shuí)大？

Grok 3

這個(gè)問(wèn)題毫無(wú)難度，Grok 3輕松拿下。

邏輯思考和文字理解能力：Grok 3不如DeepSeek R1

馬斯克發(fā)布會(huì)上自豪的一點(diǎn)是，Grok 3“思考模型”下的邏輯推理能力，他聲稱，Grok 3 (Think) 學(xué)會(huì)了改進(jìn)其解決問(wèn)題的策略，通過(guò)回溯糾正錯(cuò)誤，簡(jiǎn)化步驟，并利用其在預(yù)訓(xùn)練期間獲得的知識(shí)。就像人類在解決復(fù)雜問(wèn)題時(shí)一樣，Grok 3 (Think) 可以花費(fèi)幾秒鐘到幾分鐘的時(shí)間進(jìn)行推理，通常會(huì)考慮多種方法，驗(yàn)證自己的解決方案，并評(píng)估如何精確滿足問(wèn)題的要求。

每經(jīng)記者用弱智吧的問(wèn)題來(lái)檢驗(yàn)一下它的邏輯是不是真的過(guò)關(guān)。

（編者注：“弱智吧”是百度貼吧的一個(gè)子論壇。在這個(gè)論壇中，用戶經(jīng)常發(fā)布包含雙關(guān)語(yǔ)、多義詞、因果倒置和諧音詞等具有挑戰(zhàn)性的內(nèi)容，很多內(nèi)容設(shè)計(jì)有邏輯陷阱，即使對(duì)人類來(lái)說(shuō)也頗具挑戰(zhàn)。）

第一個(gè)問(wèn)題：用水來(lái)兌水，得到的是濃水還是稀水？

Grok 3

Grok3成功答對(duì)了問(wèn)題，并且還指出了這是一個(gè)文字游戲。而OpenAI的o1就在這道題上敗下了陣來(lái)，認(rèn)為水兌水后得到的是稀水。

OpenAI o1

當(dāng)然除了o1其他大模型諸如Gemini和R1都答對(duì)了這道問(wèn)題。所以這并不足以證明Grok的推理模式就是第一的水平，還得加大難度。

下一題：未來(lái)的某天，李同學(xué)在實(shí)驗(yàn)室制作神秘材料時(shí)，意外發(fā)現(xiàn)實(shí)驗(yàn)室的老鼠在空中飛，分析發(fā)現(xiàn)，是因?yàn)槔鲜蟛恍⌒某粤松衩夭牧?。第二天，李同學(xué)又發(fā)現(xiàn)實(shí)驗(yàn)室的蛇也在空中飛，分析發(fā)現(xiàn)，是因?yàn)樯叱粤死鲜?。第三天，李同學(xué)又發(fā)現(xiàn)實(shí)驗(yàn)室的老鷹也在空中飛，你認(rèn)為原因是什么？

Grok 3

很可惜，這道題Grok 3沒(méi)有答對(duì)，它在思維鏈里面已經(jīng)想到了老鷹本身就會(huì)飛的可能性，但是沒(méi)有在最后的輸出結(jié)果里體現(xiàn)出來(lái)。

Grok 3思考過(guò)程

其他大模型里只有DeepSeek R1成功答對(duì)了問(wèn)題，且考慮了兩種情況。

DeepSeek R1

之后，每經(jīng)記者還進(jìn)行了多次類似弱智吧問(wèn)題測(cè)試，發(fā)現(xiàn)Grok 3的對(duì)中文的理解和邏輯推理能力確實(shí)明顯高于其他國(guó)外模型，但還是不如DeepSeek的R1模型。

數(shù)學(xué)能力:Grok 3最好，但未拉開(kāi)明顯差距

既然邏輯思考無(wú)法奪魁，那么在基準(zhǔn)測(cè)試?yán)锏姆肿罡叩臄?shù)學(xué)項(xiàng)目，Grok 3能不能扳回一城呢？

題目如下：

三個(gè)人打臺(tái)球，兩人對(duì)局一人觀戰(zhàn)，輸?shù)娜讼聢?chǎng)換觀戰(zhàn)的人上場(chǎng)，如此往復(fù)，最終，A輸了6局，B輸了8局，C輸了10局，問(wèn)各贏多少局？

這道題只有Grok3和OpenAI的o1答對(duì)。不過(guò)，Grok 3只用了1分15秒就得出了答案，O1使用了2分53秒。

Grok 3

再進(jìn)一步加大難度看看能不能分出高下。下面是一道群論問(wèn)題：有幾個(gè)階為147的非同構(gòu)群。

在這個(gè)問(wèn)題上，Grok 3雖然答對(duì)了具體的數(shù)量6個(gè)，但是中間的具體群卻錯(cuò)了一個(gè)。而其他模型只找到了5個(gè)正確的非同構(gòu)群。這意味著，在數(shù)學(xué)能力方面，Grok 3確實(shí)是最好，但是好得有限，并沒(méi)有與其他同等級(jí)模型拉開(kāi)顯著差距。

Grok 3

編程能力：Grok 3險(xiǎn)勝o1

針對(duì)編程能力，《每日經(jīng)濟(jì)新聞》記者借用了Kcores聯(lián)合創(chuàng)始人karminski-牙醫(yī)的測(cè)評(píng)結(jié)果。

karminski-牙醫(yī)復(fù)現(xiàn)了馬斯克在發(fā)布會(huì)上對(duì)于火星發(fā)射計(jì)劃的代碼模擬，并測(cè)試了多個(gè)模型進(jìn)行比較。

圖片來(lái)源：karminski-牙醫(yī)

在這次測(cè)試中，表現(xiàn)最好的是Grok 3的推理模型（思考模式），雖然在最后著陸時(shí)，動(dòng)畫火箭沒(méi)有與火星重疊，但軌道需求計(jì)算得很好。但是他始終沒(méi)有復(fù)現(xiàn)出馬斯克在發(fā)布會(huì)時(shí)所展現(xiàn)的那么完美的軌道計(jì)算和動(dòng)畫。Grok 3最后綜合得分排在了第一名，再之后是OpenAI的o1，兩者的綜合得分差距不大。

圖片來(lái)源：karminski-牙醫(yī)

結(jié)合所有測(cè)試來(lái)看，Grok 3確實(shí)是世界頂尖的AI模型，不愧于20萬(wàn)張GPU的身價(jià)。但是，實(shí)際測(cè)試效果并沒(méi)有馬斯克在發(fā)布會(huì)上展示得那么夸張，馬斯克所說(shuō)的世界上最“聰明”的模型，可能還值得商榷。

在實(shí)測(cè)中，《每日經(jīng)濟(jì)新聞》記者發(fā)現(xiàn)，Grok 3模型能力并沒(méi)有像基準(zhǔn)測(cè)試得分那樣遠(yuǎn)遠(yuǎn)甩開(kāi)對(duì)手一大截，唯一甩開(kāi)競(jìng)爭(zhēng)對(duì)手的一點(diǎn)是它的響應(yīng)速度，它得出結(jié)果的速度相較于其他同等級(jí)的大模型來(lái)說(shuō)是最快的，并且遠(yuǎn)超對(duì)手。

如需轉(zhuǎn)載請(qǐng)與《每日經(jīng)濟(jì)新聞》報(bào)社聯(lián)系。
未經(jīng)《每日經(jīng)濟(jì)新聞》報(bào)社授權(quán)，嚴(yán)禁轉(zhuǎn)載或鏡像，違者必究。

讀者熱線：4008890008

特別提醒：如果我們使用了您的圖片，請(qǐng)作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站，可聯(lián)系我們要求撤下您的作品。

Grok 3 模型 GPU 馬斯克

上一篇文章

天風(fēng)證券給予四川路橋買入評(píng)級(jí)，規(guī)劃現(xiàn)金分紅比例不低于60%，關(guān)注中長(zhǎng)期高股息投資價(jià)值

返回每經(jīng)網(wǎng)首頁(yè)

下一篇文章

德國(guó)新一屆聯(lián)邦議院選舉正式開(kāi)始投票

相關(guān)文章

熱文精選

點(diǎn)擊排行

歡迎關(guān)注每日經(jīng)濟(jì)新聞APP

每經(jīng)經(jīng)濟(jì)新聞官方APP

關(guān)注我們
辟謠專區(qū)

加入我們
招聘專頁(yè)

Copyright ? 2025 每日經(jīng)濟(jì)新聞報(bào)社版權(quán)所有，未經(jīng)許可不得轉(zhuǎn)載使用，違者必究。

廣告熱線? 北京: 010-57613265，?上海: 021-61283008，?廣州: 020-84201861，?深圳: 0755-83520159，?成都: 028-86512112

網(wǎng)絡(luò)社會(huì)征信網(wǎng)

兒童色情信息舉報(bào)專區(qū)

成都市互聯(lián)網(wǎng)不良與違法信息舉報(bào)中心

四川省互聯(lián)網(wǎng)舉報(bào)中心

中國(guó)互聯(lián)網(wǎng)舉報(bào)中心

每日經(jīng)濟(jì)新聞互聯(lián)網(wǎng)不良與違法信息舉報(bào)中心

互聯(lián)網(wǎng)新聞信息服務(wù)許可證：51120190017 網(wǎng)站備案號(hào)：蜀ICP備19004508號(hào)-3 川公網(wǎng)安備 51019002002026號(hào)

新聞職業(yè)道德監(jiān)督熱線：400 889 0008 郵箱：zbb@nbd.com.cn