国产成人精品免费视,91天堂嫩模在线播放,国产免费小视频在线观看,久久免费公开视频,国产成人精品免费视频网页大全,日韩不卡在线视频,视频一区二区精品的福利

每日經(jīng)濟(jì)新聞
今日?qǐng)?bào)紙

每經(jīng)網(wǎng)首頁(yè) > 今日?qǐng)?bào)紙 > 正文

每經(jīng)記者實(shí)測(cè)馬斯克“地表最強(qiáng)AI”Grok 3:速度稱王,數(shù)學(xué)亮眼,但邏輯能力不敵DeepSeek

每日經(jīng)濟(jì)新聞 2025-02-25 22:36:18

每經(jīng)記者 岳楚鵬    每經(jīng)編輯 高涵    

近日,人工智能初創(chuàng)公司xAI(馬斯克成立的人工智能公司)發(fā)布了更新版Grok 3(模型名)大模型,埃隆·馬斯克稱之為“地球上最聰明的人工智能”。

根據(jù)官方公開的測(cè)試結(jié)果,Grok 3在包括AIME(美國(guó)數(shù)學(xué)邀請(qǐng)賽)和 GPQA(研究生水平的專家推理)等基準(zhǔn)測(cè)試中,表現(xiàn)遠(yuǎn)超GPT-4o(模型名)、Gemini-2Pro(模型名)、DeepSeek V3(模型名)、Claude 3.5 Sonnet(模型名)等。

在大模型競(jìng)技場(chǎng)Chatbot Arena(一個(gè)通過人類評(píng)估人工智能的開源平臺(tái))測(cè)試中,xAI工程師表示,早期版本的Grok 3獲得了第一的成績(jī),達(dá)到了140分,超越了Gemini 2.0 Flash Thinking(模型名)實(shí)驗(yàn)版本、GPT-4o最新版本以及最近大火的DeepSeek-R1(模型名,以下簡(jiǎn)稱R1)等。

然而,有些用戶在體驗(yàn)后卻對(duì)Grok 3的能力產(chǎn)生了質(zhì)疑,他們認(rèn)為Grok 3的能力并沒有馬斯克宣稱的那么強(qiáng)大。OpenAI(一家開放人工智能研究和部署公司)應(yīng)用研究主管Boris Power(人名)則對(duì)Grok團(tuán)隊(duì)在模型評(píng)估中的行為表示失望,指出其存在作弊和欺騙動(dòng)機(jī)。Boris Power提到,o3mini(模型名)在各項(xiàng)評(píng)估中均優(yōu)于Grok 3。

真相到底如何,馬斯克吹牛了嗎?《每日經(jīng)濟(jì)新聞》記者測(cè)試發(fā)現(xiàn),Grok 3確實(shí)是世界頂級(jí)模型,但并沒有和其他模型拉開太大差距,唯一拉開差距的是它極快的響應(yīng)速度。

輕松拿下數(shù)字比大小

Grok 3是由馬斯克旗下的人工智能公司xAI發(fā)布的最新一代AI(人工智能)模型。馬斯克在發(fā)布會(huì)上稱其為“地球上最聰明的人工智能”,并表示Grok 3的能力比前代產(chǎn)品Grok 2高出一個(gè)數(shù)量級(jí),具備更強(qiáng)的推理、計(jì)算和適應(yīng)能力。

在新聞發(fā)布會(huì)上,馬斯克宣稱Grok 3在數(shù)學(xué)、科學(xué)和編程等基準(zhǔn)測(cè)試中表現(xiàn)出色,超越了谷歌的Gemini、DeepSeek的V3模型、Anthropic(一家美國(guó)人工智能企業(yè))的Claude(模型名)和OpenAI的GPT-4o等競(jìng)爭(zhēng)對(duì)手。

Grok 3在發(fā)布后僅48小時(shí)內(nèi),xAI宣布將其免費(fèi)開放給所有用戶,直至服務(wù)器負(fù)載達(dá)到極限。目前用戶每天可以體驗(yàn)十條“思考模式”Grok 3及不限量免費(fèi)普通Grok 3。

《每日經(jīng)濟(jì)新聞》記者在Grok 3發(fā)布后也親自進(jìn)行了測(cè)試,看看Grok 3是否真有馬斯克宣傳的那么厲害。

首先,從最經(jīng)典的基礎(chǔ)問題開始:9.9和9.11誰大?

這個(gè)問題毫無難度,Grok 3輕松拿下。

邏輯思考能力并不突出

馬斯克在發(fā)布會(huì)上自豪的一點(diǎn)是,Grok 3“思考模型”下的邏輯推理能力。他聲稱,Grok 3(思考模式)學(xué)會(huì)了改進(jìn)其解決問題的策略,通過回溯糾正錯(cuò)誤,簡(jiǎn)化步驟,并利用其在預(yù)訓(xùn)練期間獲得的知識(shí)。就像人類在解決復(fù)雜問題時(shí)一樣,Grok 3(思考模式)可以花費(fèi)幾秒鐘到幾分鐘的時(shí)間進(jìn)行推理,通常會(huì)考慮多種方法,驗(yàn)證自己的解決方案,并評(píng)估如何精確滿足問題的要求。

記者用弱智吧的問題來檢驗(yàn)一下它的邏輯是不是真的過關(guān)。“弱智吧”是百度貼吧的一個(gè)子論壇。在這個(gè)論壇中,用戶經(jīng)常發(fā)布包含雙關(guān)語、多義詞、因果倒置和諧音詞等具有挑戰(zhàn)性的內(nèi)容,很多內(nèi)容設(shè)計(jì)有邏輯陷阱,即使對(duì)人類來說也頗具挑戰(zhàn)。

第一個(gè)問題:用水來兌水,得到的是濃水還是稀水?

Grok 3答對(duì)了問題,并且還指出這是一個(gè)文字游戲。而OpenAI的o1就在這道題上敗下陣來,認(rèn)為水兌水后得到的是稀水。當(dāng)然除了o1,其他大模型諸如Gemini和R1都答對(duì)了這道問題。所以這并不足以證明Grok的推理模式就是第一的水平,還得加大難度。

下一題:未來的某天,李同學(xué)在實(shí)驗(yàn)室制作神秘材料時(shí),意外發(fā)現(xiàn)實(shí)驗(yàn)室的老鼠在空中飛。分析發(fā)現(xiàn),是因?yàn)槔鲜蟛恍⌒某粤松衩夭牧稀5诙?,李同學(xué)又發(fā)現(xiàn)實(shí)驗(yàn)室的蛇也在空中飛,分析發(fā)現(xiàn),是因?yàn)樯叱粤死鲜?。第三天,李同學(xué)又發(fā)現(xiàn)實(shí)驗(yàn)室的老鷹也在空中飛,你認(rèn)為原因是什么?

很可惜,這道題Grok 3沒有答對(duì),它在思維鏈里面已經(jīng)想到了老鷹本身就會(huì)飛的可能性,但是沒有在最后的輸出結(jié)果里體現(xiàn)出來。其他大模型里只有R1成功答對(duì)了問題,且考慮了兩種情況。

記者還進(jìn)行了多次類似問題的測(cè)試,發(fā)現(xiàn)Grok 3對(duì)中文的理解和邏輯推理能力確實(shí)明顯高于其他國(guó)外模型,但還是不如R1。

數(shù)學(xué)能力未拉開差距

既然邏輯思考無法奪魁,那么在基準(zhǔn)測(cè)試?yán)锓肿罡叩臄?shù)學(xué)項(xiàng)目,Grok 3能不能扳回一局呢?

題目如下:三個(gè)人打臺(tái)球,兩人對(duì)局一人觀戰(zhàn),輸?shù)娜讼聢?chǎng)換觀戰(zhàn)的人上場(chǎng),如此往復(fù),最終,A輸了6局,B輸了8局,C輸了10局,問各贏多少局?

這道題只有Grok 3和OpenAI的o1答對(duì)。不過,Grok 3只用了1分15秒就得出了答案,o1使用了2分53秒。

再進(jìn)一步加大難度看看能不能分出高下。下面是一道群論問題:有幾個(gè)階為147的非同構(gòu)群。

在這個(gè)問題上,Grok 3雖然答對(duì)了具體的數(shù)量6個(gè),但是中間的具體群卻錯(cuò)了一個(gè)。而其他模型只找到了5個(gè)正確的非同構(gòu)群。這意味著,在數(shù)學(xué)能力方面,Grok 3確實(shí)是最好的,但是好得有限,并沒有與其他同等級(jí)模型拉開顯著差距。

編程能力險(xiǎn)勝o1

針對(duì)編程能力,《每日經(jīng)濟(jì)新聞》記者借用了Kcores(公司名)聯(lián)合創(chuàng)始人karminski-牙醫(yī)(網(wǎng)名)的測(cè)評(píng)結(jié)果。

karminski-牙醫(yī)復(fù)現(xiàn)了馬斯克在發(fā)布會(huì)上對(duì)于火星發(fā)射計(jì)劃的代碼模擬,并測(cè)試了多個(gè)模型進(jìn)行比較。

在這次測(cè)試中,表現(xiàn)最好的是Grok 3的推理模型(思考模式),雖然在最后著陸時(shí),動(dòng)畫火箭沒有與火星重疊,但軌道需求計(jì)算得很好。但是始終沒有復(fù)現(xiàn)出馬斯克在發(fā)布會(huì)時(shí)所展現(xiàn)的那么完美的軌道計(jì)算和動(dòng)畫。Grok 3最后綜合得分排在了第一,再之后是OpenAI的o1,兩者的綜合得分差距不大。

結(jié)合所有測(cè)試來看,Grok 3確實(shí)是世界頂尖的AI模型,不愧于20萬張GPU(圖形處理器)的身價(jià)。但是,實(shí)際測(cè)試效果并沒有馬斯克在發(fā)布會(huì)上展示的那么夸張,馬斯克所說的世界上最“聰明”的模型,可能還值得商榷。

在實(shí)測(cè)中,《每日經(jīng)濟(jì)新聞》記者發(fā)現(xiàn),Grok 3模型能力并沒有像基準(zhǔn)測(cè)試得分那樣遠(yuǎn)遠(yuǎn)甩開對(duì)手一大截,唯一甩開競(jìng)爭(zhēng)對(duì)手的一點(diǎn)是它的響應(yīng)速度,它得出結(jié)果的速度相較于其他同等級(jí)的大模型來說是最快的。

如需轉(zhuǎn)載請(qǐng)與《每日經(jīng)濟(jì)新聞》報(bào)社聯(lián)系。
未經(jīng)《每日經(jīng)濟(jì)新聞》報(bào)社授權(quán),嚴(yán)禁轉(zhuǎn)載或鏡像,違者必究。

讀者熱線:4008890008

特別提醒:如果我們使用了您的圖片,請(qǐng)作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站,可聯(lián)系我們要求撤下您的作品。

Grok 3 模型 馬斯克 Ai

歡迎關(guān)注每日經(jīng)濟(jì)新聞APP

每經(jīng)經(jīng)濟(jì)新聞官方APP

0

0