国产成人精品免费视,91天堂嫩模在线播放,国产免费小视频在线观看,久久免费公开视频,国产成人精品免费视频网页大全,日韩不卡在线视频,视频一区二区精品的福利

每日經(jīng)濟(jì)新聞
要聞

每經(jīng)網(wǎng)首頁(yè) > 要聞 > 正文

馬斯克用20萬(wàn)張GPU“砸出”地表最強(qiáng)AI?每經(jīng)記者實(shí)測(cè)Grok 3:速度稱王,數(shù)學(xué)亮眼,但邏輯思考不敵DeepSeek R1

每日經(jīng)濟(jì)新聞 2025-02-23 14:57:06

近日,馬斯克旗下人工智能公司xAI發(fā)布了最新一代AI模型Grok 3,并宣稱其為“地球上最聰明的人工智能”。xAI在發(fā)布后48小時(shí)內(nèi)免費(fèi)開(kāi)放Grok 3供用戶試用。然而,一些用戶體驗(yàn)后質(zhì)疑其能力,OpenAI應(yīng)用研究主管Boris Power也指責(zé)xAI存在作弊嫌疑。真相如何?每經(jīng)記者進(jìn)行了實(shí)測(cè)。

每經(jīng)實(shí)習(xí)記者 岳楚鵬    每經(jīng)編輯 高涵    

近日,人工智能初創(chuàng)公司xAI發(fā)布了更新版Grok 3大模型,埃隆·馬斯克稱之為“地球上最聰明的人工智能”。

根據(jù)官方公開(kāi)的測(cè)試結(jié)果,Grok 3在包括AIME(評(píng)估模型在一系列數(shù)學(xué)問(wèn)題上的表現(xiàn))和 GPQA(評(píng)估模型在博士級(jí)別的物理學(xué)、生物學(xué)和化學(xué)問(wèn)題上的表現(xiàn))等基準(zhǔn)測(cè)試中,遠(yuǎn)超 GPT-4o、Gemini-2 Pro、DeepSeek V3、Claude 3.5 Sonnet 等大模型。

在大模型競(jìng)技場(chǎng) Chatbot Arena(LMSYS)測(cè)試中,xAI工程師表示,早期版本的Grok 3獲得了第一的成績(jī),達(dá)到了140分,超越了Gemini 2.0 Flash Thinking實(shí)驗(yàn)版本、ChatGPT-4o最新版本以及最近大火的DeepSeek R1等等。

然而,有些用戶在體驗(yàn)后卻對(duì)Grok 3的能力產(chǎn)生了質(zhì)疑,他們認(rèn)為Grok 3的能力并沒(méi)有馬斯克宣稱的那么強(qiáng)大。OpenAI應(yīng)用研究主管Boris Power則對(duì)Grok團(tuán)隊(duì)在模型評(píng)估中的行為表示失望,指出其存在作弊和欺騙的動(dòng)機(jī)。Boris Power提到,o3-mini在各項(xiàng)評(píng)估中均優(yōu)于Grok 3。

真相到底如何,馬斯克吹牛了嗎?《每日經(jīng)濟(jì)記者》測(cè)試發(fā)現(xiàn),Grok 3確實(shí)是世界頂級(jí)模型的水平,但并沒(méi)有和其他模型拉開(kāi)太大差距。唯一拉開(kāi)差距的是它極快的響應(yīng)速度。

9.9和9.11誰(shuí)大,Grok 3輕松拿下

Grok 3是由馬斯克旗下的人工智能公司xAI發(fā)布的最新一代AI模型。馬斯克在發(fā)布會(huì)上稱其為“地球上最聰明的人工智能”,并表示Grok 3的能力比前代產(chǎn)品Grok 2高出一個(gè)數(shù)量級(jí),具備更強(qiáng)的推理、計(jì)算和適應(yīng)能力。

在新聞發(fā)布會(huì)上,馬斯克宣稱Grok 3在數(shù)學(xué)、科學(xué)和編程等基準(zhǔn)測(cè)試中表現(xiàn)出色,超越了谷歌的Gemini、DeepSeek的V3模型、Anthropic的Claude和OpenAI的GPT-4o等競(jìng)爭(zhēng)對(duì)手。

Grok 3在發(fā)布后僅48小時(shí)內(nèi),xAI宣布將其免費(fèi)開(kāi)放給所有用戶,直至服務(wù)器負(fù)載達(dá)到極限。目前用戶每天可以體驗(yàn)十條“思考模式”Grok3,及不限量免費(fèi)普通Grok 3。

《每日經(jīng)濟(jì)新聞》記者在Grok 3發(fā)布后也親自進(jìn)行了測(cè)試,看看Grok3真有馬斯克宣傳的那么厲害嗎?

首先,從最經(jīng)典的基礎(chǔ)問(wèn)題開(kāi)始:9.9和9.11誰(shuí)大?

Grok 3

這個(gè)問(wèn)題毫無(wú)難度,Grok 3輕松拿下。

邏輯思考和文字理解能力:Grok 3不如DeepSeek R1

馬斯克發(fā)布會(huì)上自豪的一點(diǎn)是,Grok 3“思考模型”下的邏輯推理能力,他聲稱,Grok 3 (Think) 學(xué)會(huì)了改進(jìn)其解決問(wèn)題的策略,通過(guò)回溯糾正錯(cuò)誤,簡(jiǎn)化步驟,并利用其在預(yù)訓(xùn)練期間獲得的知識(shí)。就像人類在解決復(fù)雜問(wèn)題時(shí)一樣,Grok 3 (Think) 可以花費(fèi)幾秒鐘到幾分鐘的時(shí)間進(jìn)行推理,通常會(huì)考慮多種方法,驗(yàn)證自己的解決方案,并評(píng)估如何精確滿足問(wèn)題的要求。

每經(jīng)記者用弱智吧的問(wèn)題來(lái)檢驗(yàn)一下它的邏輯是不是真的過(guò)關(guān)。

(編者注:“弱智吧”是百度貼吧的一個(gè)子論壇。在這個(gè)論壇中,用戶經(jīng)常發(fā)布包含雙關(guān)語(yǔ)、多義詞、因果倒置和諧音詞等具有挑戰(zhàn)性的內(nèi)容,很多內(nèi)容設(shè)計(jì)有邏輯陷阱,即使對(duì)人類來(lái)說(shuō)也頗具挑戰(zhàn)。)

第一個(gè)問(wèn)題:用水來(lái)兌水,得到的是濃水還是稀水?

Grok 3

Grok3成功答對(duì)了問(wèn)題,并且還指出了這是一個(gè)文字游戲。而OpenAI的o1就在這道題上敗下了陣來(lái),認(rèn)為水兌水后得到的是稀水。

OpenAI o1 

當(dāng)然除了o1其他大模型諸如Gemini和R1都答對(duì)了這道問(wèn)題。所以這并不足以證明Grok的推理模式就是第一的水平,還得加大難度。

下一題:未來(lái)的某天,李同學(xué)在實(shí)驗(yàn)室制作神秘材料時(shí),意外發(fā)現(xiàn)實(shí)驗(yàn)室的老鼠在空中飛,分析發(fā)現(xiàn),是因?yàn)槔鲜蟛恍⌒某粤松衩夭牧?。第二天,李同學(xué)又發(fā)現(xiàn)實(shí)驗(yàn)室的蛇也在空中飛,分析發(fā)現(xiàn),是因?yàn)樯叱粤死鲜?。第三天,李同學(xué)又發(fā)現(xiàn)實(shí)驗(yàn)室的老鷹也在空中飛,你認(rèn)為原因是什么?

Grok 3

很可惜,這道題Grok 3沒(méi)有答對(duì),它在思維鏈里面已經(jīng)想到了老鷹本身就會(huì)飛的可能性,但是沒(méi)有在最后的輸出結(jié)果里體現(xiàn)出來(lái)。

Grok 3思考過(guò)程

其他大模型里只有DeepSeek R1成功答對(duì)了問(wèn)題,且考慮了兩種情況。


DeepSeek R1

之后,每經(jīng)記者還進(jìn)行了多次類似弱智吧問(wèn)題測(cè)試,發(fā)現(xiàn)Grok 3的對(duì)中文的理解和邏輯推理能力確實(shí)明顯高于其他國(guó)外模型,但還是不如DeepSeek的R1模型。

數(shù)學(xué)能力:Grok 3最好,但未拉開(kāi)明顯差距

既然邏輯思考無(wú)法奪魁,那么在基準(zhǔn)測(cè)試?yán)锏姆肿罡叩臄?shù)學(xué)項(xiàng)目,Grok 3能不能扳回一城呢?

題目如下:

三個(gè)人打臺(tái)球,兩人對(duì)局一人觀戰(zhàn),輸?shù)娜讼聢?chǎng)換觀戰(zhàn)的人上場(chǎng),如此往復(fù),最終,A輸了6局,B輸了8局,C輸了10局,問(wèn)各贏多少局?

這道題只有Grok3和OpenAI的o1答對(duì)。不過(guò),Grok 3只用了1分15秒就得出了答案,O1使用了2分53秒。

Grok 3

再進(jìn)一步加大難度看看能不能分出高下。下面是一道群論問(wèn)題:有幾個(gè)階為147的非同構(gòu)群。

在這個(gè)問(wèn)題上,Grok 3雖然答對(duì)了具體的數(shù)量6個(gè),但是中間的具體群卻錯(cuò)了一個(gè)。而其他模型只找到了5個(gè)正確的非同構(gòu)群。這意味著,在數(shù)學(xué)能力方面,Grok 3確實(shí)是最好,但是好得有限,并沒(méi)有與其他同等級(jí)模型拉開(kāi)顯著差距。

Grok 3

編程能力:Grok 3險(xiǎn)勝o1

針對(duì)編程能力,《每日經(jīng)濟(jì)新聞》記者借用了Kcores聯(lián)合創(chuàng)始人karminski-牙醫(yī)的測(cè)評(píng)結(jié)果。

karminski-牙醫(yī)復(fù)現(xiàn)了馬斯克在發(fā)布會(huì)上對(duì)于火星發(fā)射計(jì)劃的代碼模擬,并測(cè)試了多個(gè)模型進(jìn)行比較。

圖片來(lái)源:karminski-牙醫(yī)

 

在這次測(cè)試中,表現(xiàn)最好的是Grok 3的推理模型(思考模式),雖然在最后著陸時(shí),動(dòng)畫火箭沒(méi)有與火星重疊,但軌道需求計(jì)算得很好。但是他始終沒(méi)有復(fù)現(xiàn)出馬斯克在發(fā)布會(huì)時(shí)所展現(xiàn)的那么完美的軌道計(jì)算和動(dòng)畫。Grok 3最后綜合得分排在了第一名,再之后是OpenAI的o1,兩者的綜合得分差距不大。

圖片來(lái)源:karminski-牙醫(yī) 

結(jié)合所有測(cè)試來(lái)看,Grok 3確實(shí)是世界頂尖的AI模型,不愧于20萬(wàn)張GPU的身價(jià)。但是,實(shí)際測(cè)試效果并沒(méi)有馬斯克在發(fā)布會(huì)上展示得那么夸張,馬斯克所說(shuō)的世界上最“聰明”的模型,可能還值得商榷。

在實(shí)測(cè)中,《每日經(jīng)濟(jì)新聞》記者發(fā)現(xiàn),Grok 3模型能力并沒(méi)有像基準(zhǔn)測(cè)試得分那樣遠(yuǎn)遠(yuǎn)甩開(kāi)對(duì)手一大截,唯一甩開(kāi)競(jìng)爭(zhēng)對(duì)手的一點(diǎn)是它的響應(yīng)速度,它得出結(jié)果的速度相較于其他同等級(jí)的大模型來(lái)說(shuō)是最快的,并且遠(yuǎn)超對(duì)手。

如需轉(zhuǎn)載請(qǐng)與《每日經(jīng)濟(jì)新聞》報(bào)社聯(lián)系。
未經(jīng)《每日經(jīng)濟(jì)新聞》報(bào)社授權(quán),嚴(yán)禁轉(zhuǎn)載或鏡像,違者必究。

讀者熱線:4008890008

特別提醒:如果我們使用了您的圖片,請(qǐng)作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站,可聯(lián)系我們要求撤下您的作品。

Grok 3 模型 GPU 馬斯克

歡迎關(guān)注每日經(jīng)濟(jì)新聞APP

每經(jīng)經(jīng)濟(jì)新聞官方APP

0

0