每日經(jīng)濟(jì)新聞 2024-09-06 15:04:00
每經(jīng)記者 王嘉琦 每經(jīng)實(shí)習(xí)編輯 宋欣悅
一、評(píng)測(cè)場(chǎng)景與參評(píng)模型概述
6月25日《每日經(jīng)濟(jì)新聞大模型評(píng)測(cè)報(bào)告》第1期發(fā)布。第1期評(píng)測(cè)聚焦財(cái)經(jīng)新聞采編能力,對(duì)15款大模型在“財(cái)經(jīng)新聞標(biāo)題創(chuàng)作”“微博新聞寫作”“文章差錯(cuò)校對(duì)”“財(cái)務(wù)數(shù)據(jù)計(jì)算與分析”四大應(yīng)用場(chǎng)景下的能力進(jìn)行了評(píng)測(cè)。第1期評(píng)測(cè)至今,國(guó)內(nèi)外大模型持續(xù)更新,能力不斷提升,同時(shí)也有新的大模型涌現(xiàn)。
與第1期一樣,《每日經(jīng)濟(jì)新聞大模型評(píng)測(cè)報(bào)告》第2期評(píng)測(cè)依然以考察大模型在財(cái)經(jīng)新聞應(yīng)用場(chǎng)景中的能力為目標(biāo)。
第2期評(píng)測(cè)設(shè)置了三個(gè)應(yīng)用場(chǎng)景:(1)金融數(shù)學(xué)計(jì)算;(2)商務(wù)文本翻譯;(3)財(cái)經(jīng)新聞閱讀。
每經(jīng)大模型評(píng)測(cè)小組為每個(gè)場(chǎng)景制定了相應(yīng)的評(píng)價(jià)維度和評(píng)分指標(biāo)。每日經(jīng)濟(jì)新聞10名資深記者、編輯根據(jù)評(píng)價(jià)維度和評(píng)分指標(biāo),對(duì)各款大模型在三大場(chǎng)景中的表現(xiàn)進(jìn)行評(píng)分,匯總各場(chǎng)景得分,最終得到參評(píng)大模型總分。
第2期評(píng)測(cè)中的任務(wù)以客觀題為主,絕大多數(shù)題目都有標(biāo)準(zhǔn)答案。同時(shí),評(píng)價(jià)維度和評(píng)分標(biāo)準(zhǔn)也更加突出客觀性,盡量避免主觀性評(píng)價(jià)。
需要特別指出的是,本期評(píng)測(cè)是通過各款大模型的API端口,并在默認(rèn)溫度下完成。與公眾用戶使用的大模型C端對(duì)話工具存在差異。但是評(píng)測(cè)結(jié)果對(duì)用戶在具體場(chǎng)景中選擇合適的大模型工具,依然具有重大參考價(jià)值。
本期評(píng)測(cè)均在“雨燕智宣AI創(chuàng)作+”測(cè)試臺(tái)上進(jìn)行,一共有15款大模型參與,包括:
GPT-4o、智譜GLM-4-0520、百度文心ERNIE-4.0-Turbo、阿里通義qwen-max、商湯商量SenseChat V5.5、訊飛星火Spark 4.0 Ultra、騰訊混元hunyuan-pro、月之暗面moonshot-v1、百川智能Baichuan4、零一萬(wàn)物Yi-Large、Anthropic Claude 3.5 Sonnet、幻方求索DeepSeek-V2、字節(jié)豆包Doubao-pro-32k-240615、昆侖天工SkyChat-3.0、谷歌Gemini 1.5 Pro。
本期評(píng)測(cè)時(shí)間為2024年8月12日,因此上述參評(píng)大模型中的所有國(guó)內(nèi)大模型均為截至8月12日的最新版本。
二、評(píng)測(cè)結(jié)果
評(píng)測(cè)結(jié)果顯示,“黑馬”幻方求索DeepSeek-V2以237.75的總分位居榜首,緊隨其后的是騰訊混元hunyuan-pro(237.08分)和Anthropic Claude 3.5 Sonnet(234.42分)。
在專項(xiàng)能力方面,各模型展現(xiàn)出了不同的優(yōu)勢(shì)。
金融數(shù)學(xué)計(jì)算方面,騰訊混元hunyuan-pro以78分的成績(jī)領(lǐng)先其他模型。商務(wù)文本翻譯場(chǎng)景中,Anthropic Claude 3.5 Sonnet以91.67分的高分遠(yuǎn)超其他模型。昆侖天工SkyChat-3.0在財(cái)經(jīng)新聞閱讀場(chǎng)景中得分最高,達(dá)到87.75分。
1、評(píng)測(cè)場(chǎng)景一:金融數(shù)學(xué)計(jì)算
(1)評(píng)測(cè)任務(wù)及評(píng)分指標(biāo)
13.8%和13.11%哪個(gè)大?這道小學(xué)生難度的數(shù)學(xué)題,曾難倒了一眾海內(nèi)外大模型。不禁讓人思考,大模型在數(shù)學(xué)計(jì)算方面,到底是什么水平?
在實(shí)際應(yīng)用中,數(shù)學(xué)計(jì)算往往不是以“13.8%和13.11%哪個(gè)大”這樣的形式出現(xiàn),而是出現(xiàn)在具體行業(yè)和具體業(yè)務(wù)場(chǎng)景中。
對(duì)于每日經(jīng)濟(jì)新聞來說,財(cái)經(jīng)新聞報(bào)道常常涉及金融證券行業(yè)相關(guān)的數(shù)學(xué)計(jì)算。因此,評(píng)測(cè)小組選擇“金融數(shù)學(xué)計(jì)算”作為本期評(píng)測(cè)的第二個(gè)場(chǎng)景,一方面考察各款大模型的數(shù)學(xué)計(jì)算能力,另一方面也檢驗(yàn)大模型對(duì)金融證券相關(guān)概念的理解。
評(píng)測(cè)小組設(shè)置了10道題目,其中絕大多數(shù)來自證券從業(yè)資格考試真題或模擬題,覆蓋股票市盈率、市凈率、基金資產(chǎn)凈值以及可轉(zhuǎn)換債券轉(zhuǎn)換價(jià)格計(jì)算等。這些題目需要大模型精確理解金融證券概念,還要求大模型能夠給出正確的計(jì)算公式和計(jì)算結(jié)果。
在評(píng)分標(biāo)準(zhǔn)方面,評(píng)測(cè)小組要求每款大模型分別進(jìn)行兩次獨(dú)立的回答。每題滿分為10分(公式正確得3分,結(jié)果正確得7分),總分共計(jì)100分。最終成績(jī)按兩次得分的平均分進(jìn)行排名。
(2)評(píng)測(cè)結(jié)果
(3)結(jié)果分析
從整體排名來看,參評(píng)大模型在數(shù)學(xué)計(jì)算能力上仍有較大的提升空間。15款大模型中,僅有騰訊混元hunyuan-pro、幻方求索DeepSeek-V2、商湯商量SenseChat V5.5、字節(jié)豆包Doubao-pro-32k這4款大模型及格,超過了60分。其中,騰訊混元hunyuan-pro以78分排名第一,幻方求索DeepSeek-V2以72.5分緊隨其后。
相比之下,零一萬(wàn)物的Yi-Large、百度的文心ERNIE-4.0-Turbo以及昆侖天工的SkyChat-3.0則在金融數(shù)學(xué)計(jì)算方面表現(xiàn)稍顯遜色,分別位列倒數(shù)第三、倒數(shù)第二與倒數(shù)第一的位置。
與第1期評(píng)測(cè)中的計(jì)算題“財(cái)務(wù)數(shù)據(jù)計(jì)算和分析”排名對(duì)比,騰訊混元hunyuan-pro與字節(jié)豆包Doubao-pro-32k在計(jì)算方面有較大提升。具體而言,騰訊混元hunyuan-pro尤為突出,從第1期的第六名一躍成為本期計(jì)算題的第一;字節(jié)豆包Doubao-pro-32k從第八名提升到第四名。
同時(shí),經(jīng)過版本更新的商湯商量SenseChat系列,在第2期評(píng)測(cè)中也以SenseChat V5.5的新姿態(tài)亮相,并實(shí)現(xiàn)從原先第十四名到第三名的巨大跨越。
上一期的“黑馬”幻方求索DeepSeek-V2依然表現(xiàn)出突出且穩(wěn)定的計(jì)算能力,在兩期評(píng)測(cè)的計(jì)算題中均排名第二名。
與之形成鮮明對(duì)比的是,零一萬(wàn)物Yi-Large在上期評(píng)測(cè)的計(jì)算題中排名第三,但在此次評(píng)測(cè)中遭遇“滑鐵盧”,降到了倒數(shù)第三名。
從具體題目分析,對(duì)于用一步計(jì)算即可得到答案的簡(jiǎn)單計(jì)算題,15款大模型均表現(xiàn)良好。
例如,問題1、問題2和問題3中,15款大模型均得到了滿分。
【問題1】一只股票每股市價(jià)10元,每股凈資產(chǎn)2元,每股收益0.5元,這只股票市盈率為多少?
【答案】20(倍)。市盈率指標(biāo)表示股票價(jià)格和每股收益的比率,該指標(biāo)揭示了盈余和股價(jià)之間的關(guān)系,用公式表達(dá)為:市盈率=每股市價(jià)/每股收益(年化),則市盈率=10/0.5=20。
【問題2】A公司的每股市價(jià)為8元,每股凈資產(chǎn)為4元,則A公司的市凈率倍數(shù)為多少?
【答案】2(倍)。市凈率=股價(jià)/每股凈資產(chǎn)=8/4=2
【問題3】如果某可轉(zhuǎn)換債券面額為1000元,規(guī)定其轉(zhuǎn)換比例為40,則轉(zhuǎn)換價(jià)格為多少元?
【答案】25(元)。轉(zhuǎn)換價(jià)格=可轉(zhuǎn)換債券面值/轉(zhuǎn)換比例=1000/40=25。
然而,面對(duì)計(jì)算公式復(fù)雜、步驟較多的題目時(shí),不少大模型表現(xiàn)并不理想,導(dǎo)致分?jǐn)?shù)差距被拉開。如問題8。
【問題8】若法定存款準(zhǔn)備率6%,客戶提現(xiàn)比率10%,超額準(zhǔn)備率9%,則可求出貨幣乘數(shù)為多少?
【答案】4.4。貨幣乘數(shù)計(jì)算公式m=(1+Rc)/(Rd+Re+Rc)。
本題中,貨幣乘數(shù)m=(1+10%)/(6%+9%+10%)=4.4。其中,Rc表示現(xiàn)金漏損率(提現(xiàn)率),Rd表示法定準(zhǔn)備金率,Re表示超額準(zhǔn)備金率。
幻方求索DeepSeek-V2答:
-計(jì)算結(jié)果:<5.56>
-計(jì)算公式:貨幣乘數(shù)=1/(法定存款準(zhǔn)備率+客戶提現(xiàn)比率+超額準(zhǔn)備率)
-計(jì)算過程:貨幣乘數(shù)=1/(0.06+0.10+0.09)=1/0.25=4
除騰訊混元hunyuan-pro在此題得到滿分10分、阿里通義qwen-max、字節(jié)豆包Doubao-pro-32k得到3分外,其余12款大模型未能拿分。
此外,問題9讓許多大模型陷入了誤區(qū)。問題9的考點(diǎn)在于,百分?jǐn)?shù)作差的結(jié)果,應(yīng)該用百分點(diǎn)而非百分?jǐn)?shù)來表示。
【問題9】某銀行將存款利率從2%提高到2.15%,請(qǐng)問加息后的存款利率與加息前的存款利率相比,增長(zhǎng)了多少?
【答案】0.15個(gè)百分點(diǎn)或15個(gè)基點(diǎn)(bp)
騰訊混元hunyuan-pro答:
**第9題**:存款利率增長(zhǎng)計(jì)算。
-加息前后利率分別為$r_1=0.02$和$r_2=0.0215$。
-增長(zhǎng)率$g=frac{r_2-r_1}{r_1}$。
根據(jù)以上分析我們可以得到如下方程:
**第9題**:增長(zhǎng)率$g=frac{0.0215-0.02}{0.02}$。
讓我們開始計(jì)算。
**第9題**的計(jì)算結(jié)果顯示加息后的存款利率增長(zhǎng)了7%。
幻方求索DeepSeek-V2答:
計(jì)算結(jié)果:<0.15%>
-計(jì)算公式:利率增長(zhǎng)=加息后的利率-加息前的利率
-計(jì)算過程:利率增長(zhǎng)=2.15%-2%=0.15%
月之暗面moonshot-v1答:
**計(jì)算結(jié)果:0.15個(gè)百分點(diǎn)**
-**計(jì)算公式:**利率增長(zhǎng)=(加息后的存款利率-加息前的存款利率)/加息前的存款利率*100%
-**計(jì)算過程:**利率增長(zhǎng)=(2.15%-2%)/2%*100%=0.15%/2%*100%=7.5%,即0.15個(gè)百分點(diǎn)
幻方求索DeepSeek-V2離正確答案僅一步之遙,但最終還是掉進(jìn)了“坑”里。而月之暗面moonshot-v1在第二次回答中,雖然計(jì)算公式錯(cuò)誤,但出乎意料地得出正確結(jié)果。
2、評(píng)測(cè)場(chǎng)景二:商務(wù)文本翻譯
(1)評(píng)測(cè)任務(wù)及評(píng)分指標(biāo)
英漢互譯也是一個(gè)大模型高頻使用場(chǎng)景。然而,翻譯質(zhì)量的評(píng)估常面臨主觀性強(qiáng)及標(biāo)準(zhǔn)不一的挑戰(zhàn)。為使評(píng)價(jià)標(biāo)準(zhǔn)盡量客觀,每經(jīng)評(píng)測(cè)小組選定“商務(wù)文本翻譯”作為測(cè)評(píng)場(chǎng)景,以翻譯的專業(yè)性和精確度為主要標(biāo)準(zhǔn)。
文本選擇方面,評(píng)測(cè)小組選取上市公司公告、協(xié)議和法律條款和科技類文章這類對(duì)準(zhǔn)確性要求高的文本。此外,這些文本均可在公司官網(wǎng)獲取英、漢兩個(gè)官方版本,可為評(píng)分提供客觀參考。
文本一:《小鵬汽車與大眾汽車集團(tuán)簽訂電子電氣架構(gòu)技術(shù)戰(zhàn)略合作框架協(xié)議》
英文文本鏈接:
中文文本鏈接:
https://www.xiaopeng.com/news/company_news/5289.html?reserve_source=168801
文本二:《解碼GAN如何掀起生成式AI革命浪潮》
英文文本鏈接:
https://blogs.nvidia.com/blog/ai-decoded-gan-canvas-app/
中文文本鏈接:
https://blogs.nvidia.cn/blog/ai-decoded-gan-canvas-app/
文本三:《Apple隱私政策(節(jié)選)》
英文文本鏈接:
https://www.apple.com/legal/privacy/en-ww/
中文文本鏈接:
https://www.apple.com/legal/privacy/szh/
在評(píng)分標(biāo)準(zhǔn)方面,評(píng)測(cè)小組專注準(zhǔn)確性和意義完整性,即信達(dá)雅中的“信”,而不關(guān)注主觀性評(píng)價(jià)過高的“達(dá)”和“雅”。
每款大模型分別對(duì)三篇文本的英、漢兩個(gè)版本進(jìn)行翻譯,完成共六次翻譯任務(wù)。隨后,依據(jù)“意思完整”“意思準(zhǔn)確”“術(shù)語(yǔ)一致性”“細(xì)節(jié)準(zhǔn)確性”四項(xiàng)維度,對(duì)每次翻譯結(jié)果進(jìn)行評(píng)估。每個(gè)維度均設(shè)有具體的評(píng)分細(xì)則(見下圖)。最終,按六次成績(jī)的平均分進(jìn)行排名,總分滿分100分。
(2)評(píng)測(cè)結(jié)果
(3)結(jié)果分析
整體來看,參評(píng)大模型表現(xiàn)了較高的翻譯水平,平均分達(dá)到了84.5分。15款大模型中,有13款大模型平均分超過了80分。
其中,Anthropic Claude 3.5 Sonnet以91.67分的高分排名第一,谷歌Gemini 1.5 Pro、GPT-4o、字節(jié)豆包Doubao-pro-32k緊隨其后,均展現(xiàn)了不俗的翻譯實(shí)力。值得注意的是,前三名均為海外大模型。
然而,騰訊混元hunyuan-pro、智譜GLM-4與昆侖天工SkyChat-3.0在該場(chǎng)景下的表現(xiàn)則稍顯遜色,分別位于榜單的后三位。
絕大多數(shù)大模型在漢譯英任務(wù)上的表現(xiàn)要優(yōu)于英譯漢。除幻方求索DeepSeek-V2外,其余14款大模型均在漢譯英任務(wù)上,取得了更高的分?jǐn)?shù)。
在英譯漢任務(wù)中,評(píng)測(cè)小組觀察到,海外大模型展現(xiàn)出了對(duì)英語(yǔ)特殊表達(dá)方式,尤其是雙關(guān)語(yǔ)的深刻理解與精準(zhǔn)翻譯能力。
具體而言,文本二《解碼GAN如何掀起生成式AI革命浪潮》的英文標(biāo)題“Decoding How the Generative AI Revolution BeGAN”巧妙運(yùn)用了英語(yǔ)雙關(guān)語(yǔ)。
在這句話中,“BeGAN”是一個(gè)雙關(guān)語(yǔ)的使用方式,結(jié)合了“began”(開始)和“GAN”(Generative Adversarial Network,生成對(duì)抗網(wǎng)絡(luò))的詞匯特征。這句話的意圖是揭示生成式人工智能革命是如何開始的,而GAN是這一革命的重要組成部分。通過“BeGAN”的巧妙使用,標(biāo)題不僅傳達(dá)了生成式AI的起源,同時(shí)突出了GAN在這一過程中扮演的關(guān)鍵角色。
【原文】Decoding How the Generative AI Revolution BeGAN
【答案】解碼GAN如何掀起生成式AI革命浪潮
Anthropic Claude 3.5 Sonnet答:
解密生成式AI革命如何始于GAN
GPT-4o答:
解碼生成式AI革命的起點(diǎn):GAN
百度文心ERNIE-4.0-Turbo答:
生成式AI革命如何拉開序幕
字節(jié)豆包Doubao-pro-32k答:
解讀生成式人工智能革命如何開啟
Anthropic Claude 3.5 Sonnet和GPT-4o兩款海外大模型都能較好地理解雙關(guān)語(yǔ),并對(duì)其進(jìn)行準(zhǔn)確翻譯。而國(guó)內(nèi)大模型中,整體表現(xiàn)優(yōu)異的百度文心ERNIE-4.0-Turbo和字節(jié)豆包Doubao-pro-32k也并沒有很好地翻譯出這一雙關(guān)語(yǔ)。
不過,各款大模型在英譯漢中的得分差距不大,真正使總分拉開差距的是漢譯英,且國(guó)外大模型的表現(xiàn)要普遍優(yōu)于國(guó)內(nèi)大模型。
在漢譯英中,三款海外大模型得分都超過90分。其中,總排名第一的Anthropic Claude 3.5 Sonnet漢譯英得分97分。相比之下,昆侖天工SkyChat-3.0在該任務(wù)上僅得到了78.33分,相差近20分。
從具體文本分析,在漢譯英任務(wù)中,最能拉開分?jǐn)?shù)差距的是文本三《Apple隱私政策(節(jié)選)》。文本三屬于法律文本,其通常具有高邏輯性和結(jié)構(gòu)性,在詞匯的使用上也非常嚴(yán)謹(jǐn),通常避免使用模糊或容易引起歧義的表達(dá)。
三款海外大模型——Anthropic Claude 3.5 Sonnet、谷歌Gemini 1.5 Pro以及GPT-4o均在該任務(wù)上均得到100分。
深入分析具體的評(píng)價(jià)維度,評(píng)測(cè)小組發(fā)現(xiàn),“意思準(zhǔn)確”與“術(shù)語(yǔ)一致性”成為了拉開分?jǐn)?shù)差距的兩大核心要素。
在“意思準(zhǔn)確”維度上,零一萬(wàn)物Yi-Large、昆侖天工SkyChat-3.0、智譜GLM-4在文本三《Apple隱私政策(節(jié)選)》漢譯英任務(wù)中表現(xiàn)欠佳。
比如:
【原文】此外,Apple不會(huì)為了第三方的營(yíng)銷目的與第三方共享個(gè)人數(shù)據(jù)。
零一萬(wàn)物Yi-Large答:
Additionally,Apple does not share personal data with third parties for marketing purposes.
原文中的“第三方的營(yíng)銷目的”是強(qiáng)調(diào)Apple不會(huì)為了第三方的營(yíng)銷目的而共享數(shù)據(jù),而不是“Apple的營(yíng)銷目的”。零一萬(wàn)物Yi-Large的翻譯“for marketing purposes”未明確指出這是第三方的營(yíng)銷目的,使得信息有些模糊。
在“術(shù)語(yǔ)一致性”維度上,就連排名國(guó)內(nèi)大模型總平均分第二的百川智能Baichuan4和在國(guó)內(nèi)大模型漢譯英單項(xiàng)排名第一的百度文心ERNIE-4.0-Turbo,也未能展現(xiàn)出令人完全滿意的水平。
比如:
【原文】Apple附屬公司
【答案】Apple affiliates或Apple-affiliated companies
百川智能Baichuan4、百度文心ERNIE-4.0-Turbo、零一萬(wàn)物Yi-Large、騰訊混元hunyuan-pro、月之暗面moonshot-v1、智譜GLM-4答:
Apple subsidiaries
這里的“Apple附屬公司”指與Apple有正式業(yè)務(wù)關(guān)系的公司。這可能包括子公司、姊妹公司或其他通過所有權(quán)或合作伙伴關(guān)系與蘋果公司有關(guān)聯(lián)的實(shí)體,術(shù)語(yǔ)范圍較廣。
“affiliates”通常用于描述廣泛的企業(yè)關(guān)系,包括子公司、關(guān)聯(lián)公司、聯(lián)營(yíng)公司等。但“subsidiaries”特指由母公司完全或部分控股的子公司。
在“意思完整”維度上,幻方求索DeepSeek-V2、昆侖天工SkyChat-3.0相對(duì)來說,表現(xiàn)欠佳。
比如:
【原文】在有合法依據(jù)的情況下,如果我們確定披露對(duì)于執(zhí)行我們的條款和條件或保護(hù)我們的運(yùn)營(yíng)或用戶是合理必要的,或者在重組、合并或出售活動(dòng)中是合理必要的,我們也可能會(huì)披露關(guān)于你的信息。
幻方求索DeepSeek-V2答:
We may also disclose information about you if we determine that disclosure is reasonably necessary to enforce our terms and conditions or protect our operations or users,or if it is reasonably necessary in the context of a reorganization,merger,or sale.
原文提到了“在有合法依據(jù)的情況下”,這是法律條款中的重要限定詞,表明信息披露必須基于法律基礎(chǔ)。
幻方求索DeepSeek-V2的翻譯中缺少這一內(nèi)容。
在“細(xì)節(jié)準(zhǔn)確性”維度上,騰訊混元hunyuan-pro、月之暗面moonshot-v1以及字節(jié)豆包Doubao-pro-32k的表現(xiàn)有待提升。
比如:
【原文】其他。
【答案】Others.
騰訊混元hunyuan-pro答:
Other.
在這里,“others”作為代詞在法律條款中使用時(shí)更加明確和完整,尤其在涉及到第三方或其他未明確提到的實(shí)體或個(gè)人時(shí),它表明了文件所指的范圍。
而騰訊混元hunyuan-pro譯為了“other”,在細(xì)節(jié)的處理上并不到位。因?yàn)樵诜蓷l款中,單獨(dú)使用“other”可能會(huì)引發(fā)歧義,因?yàn)樗鼪]有明確指出與什么相對(duì)的“其他”,通常需要一個(gè)后續(xù)的名詞來使其含義完整,如“other conditions”。
而對(duì)于句子長(zhǎng)度普遍不長(zhǎng)、邏輯相對(duì)簡(jiǎn)單清晰的文本,絕大多數(shù)大模型表現(xiàn)良好。
例如,在文本二《解碼GAN如何掀起生成式AI革命浪潮》的漢譯英任務(wù)中,13款大模型得分達(dá)90分及以上,其中還有款大模型獲得滿分。
3、評(píng)測(cè)場(chǎng)景三:財(cái)經(jīng)新聞閱讀
(1)評(píng)測(cè)任務(wù)及評(píng)分指標(biāo)
在日常使用中,用戶利用大模型快速閱讀文章并提供相關(guān)信息是一個(gè)多頻場(chǎng)景。這要求大模型能夠快速、準(zhǔn)確且穩(wěn)定地提取文章信息。
本期評(píng)測(cè)的第一個(gè)場(chǎng)景“財(cái)經(jīng)新聞閱讀”旨在檢驗(yàn)各款大模型精準(zhǔn)捕捉信息的能力。為此,評(píng)測(cè)小組選取了兩篇每日經(jīng)濟(jì)新聞的財(cái)經(jīng)新聞稿,并針對(duì)每篇文章設(shè)置了5道問答題,要求大模型閱讀新聞稿后進(jìn)行答題。
文章一:《資本市場(chǎng)迎來第三個(gè)“國(guó)九條”,會(huì)有第三次“大牛市”嗎?》
文章二:《負(fù)利率落幕!日本央行8年超寬松試驗(yàn)復(fù)盤,17年來首次加息將產(chǎn)生哪些影響》
每篇文章篇幅約4000字。所有題目均能從文章中找到答案,一部分問題的答案明確位于文章中某個(gè)位置;而另一部分問題的答案則分散在文章多個(gè)段落,考察大模型對(duì)關(guān)鍵信息的提煉整合能力。
在評(píng)分標(biāo)準(zhǔn)方面,評(píng)測(cè)小組要求每款大模型分別對(duì)兩篇文章各進(jìn)行兩次獨(dú)立的閱讀和答題,每篇文章對(duì)應(yīng)5道問答題,每題滿分10分,總分50分。隨后,評(píng)測(cè)小組依據(jù)得分點(diǎn),對(duì)兩次回答結(jié)果分別進(jìn)行評(píng)分。最終,按兩次答題的平均分之和進(jìn)行排名,總分滿分100分。由于所有題目的答案均能從文章中找到明確的答案,因此評(píng)分不存在主觀判斷。
(2)評(píng)測(cè)結(jié)果
(3)結(jié)果分析
在該場(chǎng)景下,本期評(píng)測(cè)新加入的大模型——由昆侖萬(wàn)維研發(fā)的昆侖天工SkyChat-3.0——以總分87.75分排名第一。GPT-4o、Anthropic Claude 3.5 Sonnet、谷歌Gemini 1.5 Pro三款海外大模型緊隨其后。相比之下,智譜GLM-4、百度文心ERNIE-4.0-Turbo及訊飛星火Spark 4.0 Ultra在此方面的表現(xiàn)則稍顯不足,分列該場(chǎng)景排名的后三位。
評(píng)分結(jié)果體現(xiàn)了一個(gè)突出特點(diǎn):各款大模型在文章二任務(wù)中的得分差距不大。真正拉開差距的是文章一任務(wù)。這說明,對(duì)于大多數(shù)模型來說,文章一的內(nèi)容及其題目難度更大??偡峙琶壳暗拇竽P驮趦善恼氯蝿?wù)中表現(xiàn)更加穩(wěn)定,說明這些大模型可以更好地應(yīng)對(duì)不同難度的任務(wù)。
從具體題目分析,對(duì)得分點(diǎn)單一的題目,絕大多數(shù)大模型表現(xiàn)良好且穩(wěn)定。
例如,針對(duì)文章二的題目一,14款大模型得到了滿分。
【問題1】日本央行負(fù)利率政策持續(xù)了多少年?日本退出負(fù)利率政策后,全球還有哪些央行在執(zhí)行負(fù)利率?
【答案】這標(biāo)志著日本央行正式退出維持8年之久的負(fù)利率政策(5分)。這也意味著,全球再無(wú)負(fù)利率(5分)。
再如,文章二的題目二,15款大模型全部得到滿分。
【問題2】日本央行的負(fù)利率是什么意思?負(fù)利率政策下,儲(chǔ)戶在銀行存錢還要倒貼錢給銀行嗎?
【答案】日本央行所謂的負(fù)利率,針對(duì)的是金融機(jī)構(gòu)準(zhǔn)備金賬戶中部分資金實(shí)行-0.1%的利率。(5分)也就是說,這個(gè)利率是日本央行跟商業(yè)銀行之間的利率,跟個(gè)人儲(chǔ)戶沒有直接關(guān)系,并不是儲(chǔ)戶在銀行存錢還要“倒貼銀行錢”。(5分)
各款大模型在文章一任務(wù)中的得分差距大,主要因?yàn)轭}目四。題目四的得分點(diǎn)分散,需要大模型從文章多處提取到相關(guān)信息并進(jìn)行歸納總結(jié)。對(duì)此,大多數(shù)模型的表現(xiàn)不理想,如字節(jié)豆包Doubao-pro-32k和Anthropic Claude 3.5 Sonnet。相比之下,昆侖天工SkyChat-3.0在第二次生成時(shí),給出了較為完整的答案。
【問題4】資本市場(chǎng)業(yè)內(nèi)認(rèn)為,前兩次“國(guó)九條”的重點(diǎn)分別是什么?
【答案】第一次“國(guó)九條”:重點(diǎn)是推進(jìn)資本市場(chǎng)改革開放。(1分)核心是擴(kuò)大直接融資、積極穩(wěn)妥解決股權(quán)分置問題。(2分)重在推動(dòng)資本市場(chǎng)發(fā)展。(1分)
第二次“國(guó)九條”:著眼于促進(jìn)資本市場(chǎng)健康發(fā)展。(1分)核心是擴(kuò)大市場(chǎng)雙向開放、鼓勵(lì)并購(gòu)重組、混合所有制、放松私募發(fā)行審批。(4分)重在保護(hù)中小投資者利益。(1分)
字節(jié)豆包Doubao-pro-32k答:
第一次“國(guó)九條”重點(diǎn)是推進(jìn)資本市場(chǎng)改革開放(1分);第二次“國(guó)九條”著眼于促進(jìn)資本市場(chǎng)健康發(fā)展(1分)。
Anthropic Claude 3.5 Sonnet答:
-2004年"國(guó)九條":推進(jìn)資本市場(chǎng)改革開放(1分)。
-2014年"國(guó)九條":促進(jìn)資本市場(chǎng)健康發(fā)展(1分)。
昆侖天工SkyChat-3.0答:
-**2004年“國(guó)九條”**:重點(diǎn)在于擴(kuò)大直接融資,積極穩(wěn)妥解決股權(quán)分置問題(2分),推動(dòng)資本市場(chǎng)改革開放(1分)。
-**2014年“國(guó)九條”**:核心在于擴(kuò)大市場(chǎng)雙向開放,鼓勵(lì)并購(gòu)重組、混合所有制、放松私募發(fā)行審批(4分),促進(jìn)資本市場(chǎng)健康發(fā)展(1分)。
三、本期評(píng)測(cè)總結(jié)
1、大模型之間差距明顯
本次評(píng)測(cè)結(jié)果顯示,幻方求索DeepSeek-V2(237.75分)、騰訊混元hunyuan-pro(237.08分)、Anthropic Claude 3.5 Sonnet(234.42分)、GPT-4o(231.25分)和商湯商量SenseChat V5.5(231.17分)構(gòu)成第一梯隊(duì)。值得注意的是,排名靠前的模型中,國(guó)產(chǎn)大模型表現(xiàn)突出,與頂級(jí)海外模型實(shí)力相當(dāng)。
然而,從第一名到第十五名,總分差距達(dá)到了近40分,反映出大模型間仍存在顯著差距。而在單個(gè)場(chǎng)景中,在財(cái)經(jīng)新聞閱讀任務(wù)中,第一名昆侖天工SkyChat-3.0(87.75分)與最后一名訊飛星火Spark 4.0 Ultra(66分)相差21.75分。
2、數(shù)學(xué)計(jì)算能力成普遍短板
各款大模型數(shù)學(xué)計(jì)算方面普遍存在不足。15款參評(píng)模型中,僅有4款模型得分超過60分,其中騰訊混元hunyuan-pro以78分位居榜首。即使是在其他場(chǎng)景表現(xiàn)出色的模型,如Anthropic Claude 3.5 Sonnet和GPT-4o,在此項(xiàng)測(cè)試中也僅得到59分。
3、國(guó)內(nèi)大模型需提高外語(yǔ)能力
在商務(wù)文本翻譯任務(wù)中,海外模型展現(xiàn)出明顯優(yōu)勢(shì)。Anthropic Claude 3.5 Sonnet、谷歌Gemini 1.5 Pro和GPT-4o在漢譯英任務(wù)中得分均超過90分。相比之下,國(guó)內(nèi)模型表現(xiàn)相對(duì)遜色,尤其是在處理法律文本和雙關(guān)語(yǔ)等需要深層語(yǔ)言理解的內(nèi)容時(shí)。例如,在翻譯“Decoding How the Generative AI Revolution BeGAN”這樣存在雙關(guān)表達(dá)的標(biāo)題時(shí),海外模型表現(xiàn)明顯優(yōu)于國(guó)內(nèi)模型。
4、通用大模型各項(xiàng)能力卻不均衡
第2期評(píng)測(cè)與第1期評(píng)測(cè)的場(chǎng)景、維度和標(biāo)準(zhǔn)不同,導(dǎo)致部分模型排名變化顯著。盡管都是通用大模型,但存在各項(xiàng)能力不均衡,“偏科”現(xiàn)象嚴(yán)重的情況。
比如,零一萬(wàn)物Yi-Large兩期評(píng)測(cè)的表現(xiàn)波動(dòng)較大。在第1期評(píng)測(cè)中,它以總分374.8分高居榜首,尤其在財(cái)務(wù)數(shù)據(jù)計(jì)算與分析任務(wù)中得到了126.4分的高分。然而在第2期評(píng)測(cè)中,其表現(xiàn)大幅下滑,特別是在金融數(shù)學(xué)計(jì)算任務(wù)中僅獲得50.5分,總排名也跌出了前五。
再如,昆侖天工SkyChat-3.0在財(cái)經(jīng)新聞閱讀中排名第一,但在金融數(shù)學(xué)計(jì)算中卻墊底(47.5分)。
騰訊混元hunyuan-pro的表現(xiàn)則展現(xiàn)了明顯的進(jìn)步。在第1期評(píng)測(cè)中,它的總分為298.5分,排名相對(duì)靠后。但在第2期評(píng)測(cè)中,騰訊混元hunyuan-pro以237.08分的總分位列第二,尤其在金融數(shù)學(xué)計(jì)算任務(wù)中以78分的成績(jī)領(lǐng)先其他模型。
相比之下,幻方求索DeepSeek-V2在兩次評(píng)測(cè)中都表現(xiàn)出色。在第1期評(píng)測(cè)中,它以總分335.2分排名第三;到第2期評(píng)測(cè),更是以237.75分的成績(jī)躍居榜首。特別是在客觀性較強(qiáng)的任務(wù)上,如第1期的財(cái)務(wù)數(shù)據(jù)計(jì)算與分析(133.4分)和第2期的金融數(shù)學(xué)計(jì)算(72.5分),幻方求索DeepSeek-V2都保持了較高水平。
海外大模型中,Anthropic公司的Claude在兩次評(píng)測(cè)中都表現(xiàn)不俗,但排名有所變動(dòng)。在第1期中,Anthropic Claude 3 Opus以361.2分排名第二;在第2期中,Anthropic Claude 3.5 Sonnet盡管在商務(wù)文本翻譯任務(wù)中表現(xiàn)出色(91.67分),但總體排名略有下降,以234.42分排在第三位。
每日經(jīng)濟(jì)新聞大模型評(píng)測(cè)小組
2024年9月
如需轉(zhuǎn)載請(qǐng)與《每日經(jīng)濟(jì)新聞》報(bào)社聯(lián)系。
未經(jīng)《每日經(jīng)濟(jì)新聞》報(bào)社授權(quán),嚴(yán)禁轉(zhuǎn)載或鏡像,違者必究。
讀者熱線:4008890008
特別提醒:如果我們使用了您的圖片,請(qǐng)作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站,可聯(lián)系我們要求撤下您的作品。
歡迎關(guān)注每日經(jīng)濟(jì)新聞APP