国产成人精品免费视,91天堂嫩模在线播放,国产免费小视频在线观看,久久免费公开视频,国产成人精品免费视频网页大全,日韩不卡在线视频,视频一区二区精品的福利

<strong id="vl9r2"><tt id="vl9r2"></tt></strong>

<option id="vl9r2"><acronym id="vl9r2"></acronym></option>

每日經(jīng)濟(jì)新聞

今日?qǐng)?bào)紙

每經(jīng)網(wǎng)首頁(yè) > 今日?qǐng)?bào)紙 > 正文

每經(jīng)記者實(shí)測(cè)馬斯克“地表最強(qiáng)AI”Grok 3：速度稱王，數(shù)學(xué)亮眼，但邏輯能力不敵DeepSeek

每日經(jīng)濟(jì)新聞 2025-02-25 22:36:18

每經(jīng)記者岳楚鵬每經(jīng)編輯高涵

近日，人工智能初創(chuàng)公司xAI（馬斯克成立的人工智能公司）發(fā)布了更新版Grok 3（模型名）大模型，埃隆·馬斯克稱之為“地球上最聰明的人工智能”。

根據(jù)官方公開的測(cè)試結(jié)果，Grok 3在包括AIME（美國(guó)數(shù)學(xué)邀請(qǐng)賽）和 GPQA（研究生水平的專家推理）等基準(zhǔn)測(cè)試中，表現(xiàn)遠(yuǎn)超GPT-4o（模型名）、Gemini-2Pro（模型名）、DeepSeek V3（模型名）、Claude 3.5 Sonnet（模型名）等。

在大模型競(jìng)技場(chǎng)Chatbot Arena（一個(gè)通過人類評(píng)估人工智能的開源平臺(tái)）測(cè)試中，xAI工程師表示，早期版本的Grok 3獲得了第一的成績(jī)，達(dá)到了140分，超越了Gemini 2.0 Flash Thinking（模型名）實(shí)驗(yàn)版本、GPT-4o最新版本以及最近大火的DeepSeek-R1（模型名，以下簡(jiǎn)稱R1）等。

然而，有些用戶在體驗(yàn)后卻對(duì)Grok 3的能力產(chǎn)生了質(zhì)疑，他們認(rèn)為Grok 3的能力并沒有馬斯克宣稱的那么強(qiáng)大。OpenAI（一家開放人工智能研究和部署公司）應(yīng)用研究主管Boris Power（人名）則對(duì)Grok團(tuán)隊(duì)在模型評(píng)估中的行為表示失望，指出其存在作弊和欺騙動(dòng)機(jī)。Boris Power提到，o3mini（模型名）在各項(xiàng)評(píng)估中均優(yōu)于Grok 3。

真相到底如何，馬斯克吹牛了嗎？《每日經(jīng)濟(jì)新聞》記者測(cè)試發(fā)現(xiàn)，Grok 3確實(shí)是世界頂級(jí)模型，但并沒有和其他模型拉開太大差距，唯一拉開差距的是它極快的響應(yīng)速度。

輕松拿下數(shù)字比大小

Grok 3是由馬斯克旗下的人工智能公司xAI發(fā)布的最新一代AI（人工智能）模型。馬斯克在發(fā)布會(huì)上稱其為“地球上最聰明的人工智能”，并表示Grok 3的能力比前代產(chǎn)品Grok 2高出一個(gè)數(shù)量級(jí)，具備更強(qiáng)的推理、計(jì)算和適應(yīng)能力。

在新聞發(fā)布會(huì)上，馬斯克宣稱Grok 3在數(shù)學(xué)、科學(xué)和編程等基準(zhǔn)測(cè)試中表現(xiàn)出色，超越了谷歌的Gemini、DeepSeek的V3模型、Anthropic（一家美國(guó)人工智能企業(yè)）的Claude（模型名）和OpenAI的GPT-4o等競(jìng)爭(zhēng)對(duì)手。

Grok 3在發(fā)布后僅48小時(shí)內(nèi)，xAI宣布將其免費(fèi)開放給所有用戶，直至服務(wù)器負(fù)載達(dá)到極限。目前用戶每天可以體驗(yàn)十條“思考模式”Grok 3及不限量免費(fèi)普通Grok 3。

《每日經(jīng)濟(jì)新聞》記者在Grok 3發(fā)布后也親自進(jìn)行了測(cè)試，看看Grok 3是否真有馬斯克宣傳的那么厲害。

首先，從最經(jīng)典的基礎(chǔ)問題開始：9.9和9.11誰大？

這個(gè)問題毫無難度，Grok 3輕松拿下。

邏輯思考能力并不突出

馬斯克在發(fā)布會(huì)上自豪的一點(diǎn)是，Grok 3“思考模型”下的邏輯推理能力。他聲稱，Grok 3（思考模式）學(xué)會(huì)了改進(jìn)其解決問題的策略，通過回溯糾正錯(cuò)誤，簡(jiǎn)化步驟，并利用其在預(yù)訓(xùn)練期間獲得的知識(shí)。就像人類在解決復(fù)雜問題時(shí)一樣，Grok 3（思考模式）可以花費(fèi)幾秒鐘到幾分鐘的時(shí)間進(jìn)行推理，通常會(huì)考慮多種方法，驗(yàn)證自己的解決方案，并評(píng)估如何精確滿足問題的要求。

記者用弱智吧的問題來檢驗(yàn)一下它的邏輯是不是真的過關(guān)。“弱智吧”是百度貼吧的一個(gè)子論壇。在這個(gè)論壇中，用戶經(jīng)常發(fā)布包含雙關(guān)語、多義詞、因果倒置和諧音詞等具有挑戰(zhàn)性的內(nèi)容，很多內(nèi)容設(shè)計(jì)有邏輯陷阱，即使對(duì)人類來說也頗具挑戰(zhàn)。

第一個(gè)問題：用水來兌水，得到的是濃水還是稀水？

Grok 3答對(duì)了問題，并且還指出這是一個(gè)文字游戲。而OpenAI的o1就在這道題上敗下陣來，認(rèn)為水兌水后得到的是稀水。當(dāng)然除了o1，其他大模型諸如Gemini和R1都答對(duì)了這道問題。所以這并不足以證明Grok的推理模式就是第一的水平，還得加大難度。

下一題：未來的某天，李同學(xué)在實(shí)驗(yàn)室制作神秘材料時(shí)，意外發(fā)現(xiàn)實(shí)驗(yàn)室的老鼠在空中飛。分析發(fā)現(xiàn)，是因?yàn)槔鲜蟛恍⌒某粤松衩夭牧稀５诙?，李同學(xué)又發(fā)現(xiàn)實(shí)驗(yàn)室的蛇也在空中飛，分析發(fā)現(xiàn)，是因?yàn)樯叱粤死鲜?。第三天，李同學(xué)又發(fā)現(xiàn)實(shí)驗(yàn)室的老鷹也在空中飛，你認(rèn)為原因是什么？

很可惜，這道題Grok 3沒有答對(duì)，它在思維鏈里面已經(jīng)想到了老鷹本身就會(huì)飛的可能性，但是沒有在最后的輸出結(jié)果里體現(xiàn)出來。其他大模型里只有R1成功答對(duì)了問題，且考慮了兩種情況。

記者還進(jìn)行了多次類似問題的測(cè)試，發(fā)現(xiàn)Grok 3對(duì)中文的理解和邏輯推理能力確實(shí)明顯高于其他國(guó)外模型，但還是不如R1。

數(shù)學(xué)能力未拉開差距

既然邏輯思考無法奪魁，那么在基準(zhǔn)測(cè)試?yán)锓肿罡叩臄?shù)學(xué)項(xiàng)目，Grok 3能不能扳回一局呢？

題目如下：三個(gè)人打臺(tái)球，兩人對(duì)局一人觀戰(zhàn)，輸?shù)娜讼聢?chǎng)換觀戰(zhàn)的人上場(chǎng)，如此往復(fù)，最終，A輸了6局，B輸了8局，C輸了10局，問各贏多少局？

這道題只有Grok 3和OpenAI的o1答對(duì)。不過，Grok 3只用了1分15秒就得出了答案，o1使用了2分53秒。

再進(jìn)一步加大難度看看能不能分出高下。下面是一道群論問題：有幾個(gè)階為147的非同構(gòu)群。

在這個(gè)問題上，Grok 3雖然答對(duì)了具體的數(shù)量6個(gè)，但是中間的具體群卻錯(cuò)了一個(gè)。而其他模型只找到了5個(gè)正確的非同構(gòu)群。這意味著，在數(shù)學(xué)能力方面，Grok 3確實(shí)是最好的，但是好得有限，并沒有與其他同等級(jí)模型拉開顯著差距。

編程能力險(xiǎn)勝o1

針對(duì)編程能力，《每日經(jīng)濟(jì)新聞》記者借用了Kcores（公司名）聯(lián)合創(chuàng)始人karminski-牙醫(yī)（網(wǎng)名）的測(cè)評(píng)結(jié)果。

karminski-牙醫(yī)復(fù)現(xiàn)了馬斯克在發(fā)布會(huì)上對(duì)于火星發(fā)射計(jì)劃的代碼模擬，并測(cè)試了多個(gè)模型進(jìn)行比較。

在這次測(cè)試中，表現(xiàn)最好的是Grok 3的推理模型（思考模式），雖然在最后著陸時(shí)，動(dòng)畫火箭沒有與火星重疊，但軌道需求計(jì)算得很好。但是始終沒有復(fù)現(xiàn)出馬斯克在發(fā)布會(huì)時(shí)所展現(xiàn)的那么完美的軌道計(jì)算和動(dòng)畫。Grok 3最后綜合得分排在了第一，再之后是OpenAI的o1，兩者的綜合得分差距不大。

結(jié)合所有測(cè)試來看，Grok 3確實(shí)是世界頂尖的AI模型，不愧于20萬張GPU（圖形處理器）的身價(jià)。但是，實(shí)際測(cè)試效果并沒有馬斯克在發(fā)布會(huì)上展示的那么夸張，馬斯克所說的世界上最“聰明”的模型，可能還值得商榷。

在實(shí)測(cè)中，《每日經(jīng)濟(jì)新聞》記者發(fā)現(xiàn)，Grok 3模型能力并沒有像基準(zhǔn)測(cè)試得分那樣遠(yuǎn)遠(yuǎn)甩開對(duì)手一大截，唯一甩開競(jìng)爭(zhēng)對(duì)手的一點(diǎn)是它的響應(yīng)速度，它得出結(jié)果的速度相較于其他同等級(jí)的大模型來說是最快的。

如需轉(zhuǎn)載請(qǐng)與《每日經(jīng)濟(jì)新聞》報(bào)社聯(lián)系。
未經(jīng)《每日經(jīng)濟(jì)新聞》報(bào)社授權(quán)，嚴(yán)禁轉(zhuǎn)載或鏡像，違者必究。

讀者熱線：4008890008

特別提醒：如果我們使用了您的圖片，請(qǐng)作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站，可聯(lián)系我們要求撤下您的作品。

Grok 3 模型馬斯克 Ai

上一篇文章

美股三大指數(shù)開盤漲跌不一納斯達(dá)克中國(guó)金龍指數(shù)漲0.56%

返回每經(jīng)網(wǎng)首頁(yè)

下一篇文章

海南出臺(tái)創(chuàng)新容錯(cuò)機(jī)制，為科技創(chuàng)新“松綁”

相關(guān)文章

熱文精選

點(diǎn)擊排行

歡迎關(guān)注每日經(jīng)濟(jì)新聞APP

每經(jīng)經(jīng)濟(jì)新聞官方APP

關(guān)注我們
辟謠專區(qū)

加入我們
招聘專頁(yè)

Copyright ? 2025 每日經(jīng)濟(jì)新聞報(bào)社版權(quán)所有，未經(jīng)許可不得轉(zhuǎn)載使用，違者必究。

廣告熱線? 北京: 010-57613265，?上海: 021-61283008，?廣州: 020-84201861，?深圳: 0755-83520159，?成都: 028-86512112

網(wǎng)絡(luò)社會(huì)征信網(wǎng)

兒童色情信息舉報(bào)專區(qū)

成都市互聯(lián)網(wǎng)不良與違法信息舉報(bào)中心

四川省互聯(lián)網(wǎng)舉報(bào)中心

中國(guó)互聯(lián)網(wǎng)舉報(bào)中心

每日經(jīng)濟(jì)新聞互聯(lián)網(wǎng)不良與違法信息舉報(bào)中心

互聯(lián)網(wǎng)新聞信息服務(wù)許可證：51120190017 網(wǎng)站備案號(hào)：蜀ICP備19004508號(hào)-3 川公網(wǎng)安備 51019002002026號(hào)

新聞職業(yè)道德監(jiān)督熱線：400 889 0008 郵箱：zbb@nbd.com.cn