国产成人精品免费视,91天堂嫩模在线播放,国产免费小视频在线观看,久久免费公开视频,国产成人精品免费视频网页大全,日韩不卡在线视频,视频一区二区精品的福利

每日經(jīng)濟(jì)新聞
要聞

每經(jīng)網(wǎng)首頁(yè) > 要聞 > 正文

每日經(jīng)濟(jì)新聞大模型年度評(píng)測(cè)報(bào)告

每日經(jīng)濟(jì)新聞 2024-11-13 23:07:55

每經(jīng)記者 王嘉琦    每經(jīng)實(shí)習(xí)記者 宋欣悅    每經(jīng)編輯 蘭素英    


一、評(píng)測(cè)場(chǎng)景與參評(píng)模型概述

2024年6月25日,《每日經(jīng)濟(jì)新聞大模型評(píng)測(cè)報(bào)告》第1期發(fā)布,對(duì)15款市面主流大模型在“財(cái)經(jīng)新聞標(biāo)題創(chuàng)作”“微博新聞寫作”“文章差錯(cuò)校對(duì)”“財(cái)務(wù)數(shù)據(jù)計(jì)算與分析”四個(gè)新聞采編應(yīng)用場(chǎng)景的能力進(jìn)行了評(píng)測(cè)。

2024年9月6日,《每日經(jīng)濟(jì)新聞大模型評(píng)測(cè)報(bào)告》第2期發(fā)布,重點(diǎn)考察大模型在“金融數(shù)學(xué)計(jì)算”“商務(wù)文本翻譯”“財(cái)經(jīng)新聞閱讀”三個(gè)新聞采編應(yīng)用場(chǎng)景的能力。

與前兩期評(píng)測(cè)一樣,《每日經(jīng)濟(jì)新聞大模型年度評(píng)測(cè)報(bào)告》繼續(xù)以大模型在新聞采編場(chǎng)景的應(yīng)用能力為評(píng)測(cè)目標(biāo),但為了更精準(zhǔn)對(duì)接采編人員的實(shí)際需求,本次評(píng)測(cè)以“采寫編審和短視頻創(chuàng)作的新聞生產(chǎn)全流程”為場(chǎng)景,包括大模型設(shè)計(jì)采訪提綱——撰寫新聞稿件——校對(duì)稿件差錯(cuò)——提煉稿件標(biāo)題——改寫短視頻文本五個(gè)細(xì)分場(chǎng)景。通過(guò)大模型在新聞生產(chǎn)全流程的介入,評(píng)測(cè)出“誰(shuí)是新聞生產(chǎn)全流程的最優(yōu)秀大模型”,用直觀的評(píng)測(cè)結(jié)果,對(duì)采編人員在工作中選用適合的大模型工具提供實(shí)戰(zhàn)參考。

本次評(píng)測(cè)設(shè)置的五個(gè)細(xì)分應(yīng)用場(chǎng)景具體如下:

(1)設(shè)計(jì)采訪提綱:旨在考察大模型能否幫助記者擬定采訪提綱,輔助記者采訪工作。

(2)撰寫新聞稿件:旨在考察大模型圍繞既定的多份材料,能否創(chuàng)作一篇新聞稿件。

(3)校對(duì)稿件差錯(cuò):旨在考察大模型能否檢查出新聞稿件中的錯(cuò)別字,語(yǔ)法、數(shù)字、標(biāo)點(diǎn)符號(hào)等差錯(cuò)。

(4)提煉稿件標(biāo)題:旨在考察大模型能否根據(jù)稿件內(nèi)容,提煉新聞標(biāo)題,特別是制作適合在微信等新媒體平臺(tái)傳播的新媒體風(fēng)格標(biāo)題。

(5)改寫短視頻文本:旨在考察大模型能否根據(jù)一篇文字新聞稿件,改寫成適合短視頻發(fā)布的文案。

每經(jīng)大模型評(píng)測(cè)小組為五個(gè)細(xì)分場(chǎng)景制定了對(duì)應(yīng)的評(píng)價(jià)維度和評(píng)分指標(biāo)。每日經(jīng)濟(jì)新聞10余名首席、高級(jí)、資深記者編輯根據(jù)評(píng)價(jià)維度和評(píng)分指標(biāo),對(duì)各款大模型在五個(gè)細(xì)分場(chǎng)景中的表現(xiàn)進(jìn)行評(píng)分,匯總各場(chǎng)景得分,最終得到參評(píng)大模型總分。

需要指出的是,本期評(píng)測(cè)是通過(guò)各款大模型的API端口,并在默認(rèn)溫度下完成。與公眾用戶使用的大模型C端對(duì)話工具存在差異。但是評(píng)測(cè)結(jié)果對(duì)用戶在具體場(chǎng)景中選擇合適的大模型工具,依然具有重要參考價(jià)值。

本期評(píng)測(cè)均在“雨燕智宣AI創(chuàng)作+”測(cè)試臺(tái)上進(jìn)行,一共有12款國(guó)內(nèi)大模型參與。

評(píng)測(cè)時(shí)間為2024年10月18日,因此參評(píng)大模型均為截至10月18日的最新版本。

二、評(píng)測(cè)結(jié)果

評(píng)測(cè)結(jié)果顯示,騰訊混元hunyuan-turbo以379.53的總分位居榜首,緊隨其后的是智譜GLM-4-Plus獲得368.6分,字節(jié)跳動(dòng)doubao-pro-32k(240828版本)獲得363分。

在五個(gè)細(xì)分場(chǎng)景方面,各家模型展現(xiàn)出不同的優(yōu)勢(shì):

在設(shè)計(jì)采訪提綱場(chǎng)景中,騰訊混元hunyuan-turbo與昆侖萬(wàn)維天工SkyChat-3.0兩款模型均取得了93.33分的佳績(jī),并列第一。

在撰寫新聞稿件場(chǎng)景中,智譜GLM-4-Plus以98分的高分拔得頭籌。

在校對(duì)稿件差錯(cuò)場(chǎng)景中,智譜GLM-4-Plus以60分的成績(jī)位居首位。

在提煉稿件標(biāo)題方面,深度求索DeepSeek-V2.5模型以55.2分的成績(jī)領(lǐng)先其他模型。

在改寫短視頻文本場(chǎng)景中,騰訊混元hunyuan-turbo再次展現(xiàn)其強(qiáng)勁實(shí)力,以95分的成績(jī)位列第一。


1、評(píng)測(cè)場(chǎng)景一:設(shè)計(jì)采訪提綱

(1)評(píng)測(cè)任務(wù)

采訪是新聞生產(chǎn)的基礎(chǔ),需要記者進(jìn)行大量的前期準(zhǔn)備工作,包括收集采訪資料、確定采訪主題等。而設(shè)計(jì)采訪提綱是將各項(xiàng)準(zhǔn)備工作進(jìn)行“集合式”整理,是記者綜合能力和思考能力的體現(xiàn)。

本期評(píng)測(cè)的第一個(gè)場(chǎng)景“設(shè)計(jì)采訪提綱”旨在檢驗(yàn)各款大模型在構(gòu)建采訪結(jié)構(gòu),設(shè)計(jì)有深度的采訪問(wèn)題以及挖掘、分析信息方面的能力。

為此,評(píng)測(cè)小組首先針對(duì)采訪對(duì)象收集了詳盡的背景資料,接著要求大模型根據(jù)這些已有的背景資料,設(shè)計(jì)一份包含5個(gè)采訪問(wèn)題的采訪提綱。

(2)評(píng)測(cè)結(jié)果

(3)結(jié)果分析

從整體結(jié)果來(lái)看,參評(píng)大模型在“設(shè)計(jì)采訪提綱”場(chǎng)景中表現(xiàn)頗為出色。在12款大模型中,有8款模型的得分不低于80分,展現(xiàn)出較高的水平。

其中,騰訊混元hunyuan-turbo和昆侖萬(wàn)維天工SkyChat-3.0以93.33分的高分并列第一,零一萬(wàn)物Yi-Lightning、月之暗面moonshot-v1-8k、字節(jié)跳動(dòng)doubao-pro-32k(240828版本)緊隨其后,均展現(xiàn)出了不俗的實(shí)力。

然而,百度文心ERNIE-4.0-Turbo-8K-Latest在該場(chǎng)景下的表現(xiàn)則稍顯遜色,位于榜單的最末位。

2、評(píng)測(cè)場(chǎng)景二:撰寫新聞稿件

(1)評(píng)測(cè)任務(wù)

本次評(píng)測(cè)的第二個(gè)場(chǎng)景選擇了“撰寫新聞稿件”,旨在評(píng)估參評(píng)大模型是否能高效生成符合新聞專業(yè)標(biāo)準(zhǔn)的稿件內(nèi)容。

評(píng)測(cè)小組向大模型提供了新聞寫作主題、方向以及相關(guān)素材,并要求大模型根據(jù)要求和相關(guān)資料,撰寫一篇完整的新聞稿件。

(2)評(píng)測(cè)結(jié)果

(3)結(jié)果分析

在撰寫新聞稿件場(chǎng)景中,智譜GLM-4-Plus以總分98分的成績(jī)排名第一。騰訊混元hunyuan-turbo、字節(jié)跳動(dòng)doubao-pro-32k(240828版本)、深度求索DeepSeek-V2.5三款大模型緊隨其后。相比之下,昆侖萬(wàn)維天工SkyChat-3.0、月之暗面moonshot-v1-8k及MiniMax abab6.5s在此方面的表現(xiàn)則稍顯不足,分列該場(chǎng)景排名的后三位。

從各個(gè)維度綜合評(píng)估,大模型在“新聞要素完整”與“新聞結(jié)構(gòu)規(guī)范”兩大方面展現(xiàn)出了卓越的表現(xiàn),所有參與評(píng)測(cè)的12款大模型均在這兩項(xiàng)維度上表現(xiàn)優(yōu)異。

然而,真正使各款模型拉開分?jǐn)?shù)差距的,在于“新聞信息準(zhǔn)確”和“新聞要點(diǎn)全面”這兩個(gè)維度。

該場(chǎng)景的前兩名智譜GLM-4-Plus和騰訊混元hunyuan-turbo就在“新聞信息準(zhǔn)確”維度上,均獲得了滿分,彰顯其在信息篩選與核實(shí)上的高水準(zhǔn)。相反,“吊車尾”的昆侖萬(wàn)維天工SkyChat-3.0、月之暗面moonshot-v1-8k以及MiniMax abab6.5s在該維度上的表現(xiàn)不盡如人意,這在一定程度上反映了它們?cè)谛畔⑻幚砟芰ι系牟蛔恪?/p>

3、評(píng)測(cè)場(chǎng)景三:校對(duì)稿件差錯(cuò)

(1)評(píng)測(cè)任務(wù)

“校對(duì)稿件差錯(cuò)”需要對(duì)新聞事件進(jìn)行核實(shí),數(shù)據(jù)進(jìn)行校準(zhǔn),并對(duì)文字、標(biāo)點(diǎn)、語(yǔ)句等差錯(cuò)予以糾正,這是保證新聞稿件質(zhì)量,出版內(nèi)容準(zhǔn)確不可或缺的一環(huán),關(guān)系到新聞媒體的權(quán)威性以及公眾對(duì)媒體的信任度。

因此,評(píng)測(cè)小組選擇“校對(duì)稿件差錯(cuò)”作為本期評(píng)測(cè)的第三個(gè)場(chǎng)景,一方面考察大模型對(duì)細(xì)節(jié)的把控能力,另一方面也檢驗(yàn)大模型結(jié)合上下文的分析能力。

評(píng)測(cè)小組在新聞稿中設(shè)置了10處錯(cuò)誤,包括錯(cuò)別字、標(biāo)點(diǎn)符號(hào)使用不當(dāng)、事實(shí)和信息不準(zhǔn)確等錯(cuò)誤類型。

(2)評(píng)測(cè)結(jié)果

(3)結(jié)果分析

從本次評(píng)測(cè)的整體結(jié)果來(lái)看,“校對(duì)稿件差錯(cuò)”是本次五個(gè)評(píng)測(cè)場(chǎng)景中大模型表現(xiàn)最為薄弱的一環(huán),總體平均分僅為37.78分,遠(yuǎn)低于預(yù)期。

從本次評(píng)測(cè)的在參評(píng)的12款大模型中,僅有智譜GLM-4-Plus一款大模型得到了60分的及格線。而零一萬(wàn)物Yi-Lightning、深度求索DeepSeek-V2.5以及商湯日日新SenseChat-5(V5.5版本)則分列倒數(shù)三位。

從具體題目來(lái)看,對(duì)于錯(cuò)別字、語(yǔ)法、數(shù)據(jù)和單位等相對(duì)簡(jiǎn)單的差錯(cuò),多數(shù)大模型能夠校對(duì)出來(lái),并進(jìn)行相應(yīng)的糾正。但對(duì)于需要聯(lián)系上下文,進(jìn)行一定邏輯分析的新聞事實(shí)差錯(cuò),大模型的校對(duì)能力還要亟待提升

評(píng)測(cè)小組一共設(shè)置了3處事實(shí)和信息錯(cuò)誤,遺憾的是,其中有2處錯(cuò)誤讓12款大模型集體“翻車”。在這兩處錯(cuò)誤上,沒有一款大模型能夠成功校對(duì)并予以糾正。

另外,評(píng)測(cè)小組還發(fā)現(xiàn),參評(píng)大模型往往還會(huì)對(duì)一些原本正確的新聞內(nèi)容給出錯(cuò)誤的判斷。

4、評(píng)測(cè)場(chǎng)景四:提煉新聞標(biāo)題

(1)評(píng)測(cè)任務(wù)

新聞標(biāo)題通過(guò)精煉的文字和巧妙的修辭手法,吸引讀者眼球,激發(fā)閱讀興趣,是新聞傳播的關(guān)鍵。

本期評(píng)測(cè)的第四個(gè)場(chǎng)景“提煉新聞標(biāo)題”,旨在檢驗(yàn)大模型能否通過(guò)閱讀新聞稿件,準(zhǔn)確抓住新聞點(diǎn)和新聞核心內(nèi)容,并用簡(jiǎn)潔的語(yǔ)言,制作出精煉且富于感染力的標(biāo)題;同時(shí)還考察大模型的語(yǔ)言運(yùn)用能力,能否靈活運(yùn)用修辭手法和語(yǔ)法結(jié)構(gòu),保證標(biāo)題的邏輯性和準(zhǔn)確性。

為此,評(píng)測(cè)小組選取了每日經(jīng)濟(jì)新聞的稿件作為測(cè)試樣本,讓大模型圍繞稿件,提煉出符合新媒體傳播的微信標(biāo)題。

(2)評(píng)測(cè)結(jié)果

(3)結(jié)果分析

從整體結(jié)果來(lái)看,參評(píng)12款大模型中,沒有一款能夠達(dá)到60分的及格標(biāo)準(zhǔn),平均分僅為43.44分,整體水平有待提升。

其中,深度求索DeepSeek-V2.5以55.2分的成績(jī)位居榜首;百度文心ERNIE-4.0-Turbo-8K-Latest則以54.9分的微弱差距緊隨其后,位列第二。這兩款模型的表現(xiàn)相對(duì)突出,但仍未達(dá)到滿意的水平。

而排名后三位的大模型昆侖萬(wàn)維天工SkyChat-3.0、阿里巴巴通義千問(wèn)qwen-max-0919以及MiniMax abab6.5s表現(xiàn)則更加不盡如人意,得分分別為36.37分、32.87分和20.83分。

另外,值得注意的是,零一萬(wàn)物Yi-Lightning和昆侖萬(wàn)維天工SkyChat-3.0兩款大模型在生成微信新聞標(biāo)題時(shí)存在準(zhǔn)確性和穩(wěn)定性方面的問(wèn)題,需要進(jìn)一步優(yōu)化和改進(jìn)。在三次結(jié)果生成過(guò)程中,零一萬(wàn)物Yi-Lightning有兩次出現(xiàn)了新聞標(biāo)題的錯(cuò)誤,而昆侖萬(wàn)維天工SkyChat-3.0也出現(xiàn)了一次錯(cuò)誤。準(zhǔn)確性是新聞報(bào)道的基本原則,而標(biāo)題作為新聞稿件的“窗口”和“眼睛”更是不能出現(xiàn)任何差錯(cuò)。

評(píng)測(cè)小組發(fā)現(xiàn),大模型整體得分偏低的主要原因,在于其生成的標(biāo)題缺乏亮點(diǎn),未能有效抓住稿件的新聞點(diǎn)或稿件中最具吸引力的內(nèi)容,所以提煉的標(biāo)題難以吸引讀者眼球。此外,多個(gè)大模型生成的新聞標(biāo)題中頻繁出現(xiàn)一些過(guò)于“高大上”的抽象概念詞匯,這不僅使得標(biāo)題顯得空洞而寬泛,還無(wú)形中增加了與讀者之間的隔閡,進(jìn)而削弱了讀者閱讀稿件的興趣。

5、評(píng)測(cè)場(chǎng)景五:改寫短視頻文案

(1)評(píng)測(cè)任務(wù)

視頻文案無(wú)疑是短視頻的靈魂所在。好的短視頻文案,能夠通過(guò)精準(zhǔn)而富有吸引力的文字,迅速抓住觀眾的注意力,引導(dǎo)觀眾深入了解短視頻的詳細(xì)內(nèi)容,從而提升完播率。

本期評(píng)測(cè)的最后一個(gè)場(chǎng)景為“改寫短視頻文案”,這一場(chǎng)景旨在考察大模型在短視頻文案創(chuàng)作中對(duì)信息的快速提煉,以及適應(yīng)短視頻平臺(tái)風(fēng)格的能力。

評(píng)測(cè)小組要求各款大模型把一篇文字新聞稿件,改寫成語(yǔ)言精煉、觀點(diǎn)明確且吸引觀眾的短視頻文案。

(2)評(píng)測(cè)結(jié)果

(3)結(jié)果分析

從整體評(píng)測(cè)結(jié)果來(lái)看,“改寫短視頻文案”是五個(gè)評(píng)測(cè)場(chǎng)景中,大模型表現(xiàn)最為亮眼的一環(huán)。在這一場(chǎng)景中,所有參與評(píng)測(cè)的12款大模型均取得了超過(guò)80分的成績(jī),其中,有兩款大模型更是以卓越的表現(xiàn)突破了90分的高分。

具體而言,騰訊混元hunyuan-turbo憑借其出色的實(shí)力,以95分的優(yōu)異成績(jī)穩(wěn)居榜首;而字節(jié)跳動(dòng)doubao-pro-32k(240828版本)也不甘示弱,以92分的佳績(jī)緊隨其后,展現(xiàn)出強(qiáng)勁的競(jìng)爭(zhēng)實(shí)力。

騰訊混元hunyuan-turbo和字節(jié)跳動(dòng)doubao-pro-32k(240828版本)的優(yōu)異表現(xiàn)可能得益于騰訊和字節(jié)跳動(dòng)這兩大科技巨頭在短視頻領(lǐng)域的深厚積累。作為擁有自己短視頻產(chǎn)品的公司,它們旗下的大模型在改寫短視頻文本方面可能擁有更為豐富的語(yǔ)料訓(xùn)練和更強(qiáng)的技術(shù)能力。

三、評(píng)測(cè)總結(jié)

結(jié)論一:暫無(wú)一款大模型能高質(zhì)量完成采編全流程工作

截至目前,每日經(jīng)濟(jì)新聞一共推出三期大模型評(píng)測(cè)報(bào)告,覆蓋12項(xiàng)新聞采編應(yīng)用場(chǎng)景,但從結(jié)果來(lái)看,沒有一款大模型能在所有場(chǎng)景中均排名前列。

正如人類一樣,各款大模型的長(zhǎng)處與短板各不相同。比如,有的大模型擅長(zhǎng)財(cái)務(wù)數(shù)據(jù)計(jì)算,但在新聞標(biāo)題提煉中卻排名末尾;有的大模型擅長(zhǎng)英譯漢,卻在漢譯英方面能力平平。

在新聞生產(chǎn)的關(guān)鍵環(huán)節(jié),如本期評(píng)測(cè)中的“撰寫新聞稿件”“校對(duì)稿件差錯(cuò)”“提煉新聞標(biāo)題”、第一期評(píng)測(cè)中的“財(cái)務(wù)數(shù)據(jù)計(jì)算與分析”和第二期評(píng)測(cè)中的“金融數(shù)學(xué)計(jì)算”等應(yīng)用場(chǎng)景,多數(shù)大模型生成結(jié)果的差錯(cuò)頻出,要保證新聞稿件的高質(zhì)量、無(wú)差錯(cuò),還必須由人工審核、把關(guān)。

目前市面上還沒有一款大模型能夠高質(zhì)量、全流程完成新聞采編場(chǎng)景的所有工作,換句話說(shuō),世界上還沒有“AI記者”。

結(jié)論二:大模型“幻覺”未解,錯(cuò)誤更隱蔽

盡管各款大模型已經(jīng)多次迭代升級(jí),但依然解決不了“一本正經(jīng)地胡說(shuō)八道”的幻覺問(wèn)題。

最初的大模型“幻覺”問(wèn)題比較明顯。隨著產(chǎn)品不斷迭代,大模型生成文本質(zhì)量逐漸提升,但文本中的錯(cuò)誤也越發(fā)隱蔽。比如,在“撰寫新聞稿件”場(chǎng)景中,大模型會(huì)在不起眼處改變?nèi)宋锏穆毼换蛱摌?gòu)事件發(fā)生的時(shí)間。例如在本期評(píng)測(cè)中,部分大模型將9月24日“星巴克咖啡公司宣布調(diào)整其中國(guó)領(lǐng)導(dǎo)層結(jié)構(gòu)”的時(shí)間,誤寫成9月30日。再比如在第二期評(píng)測(cè)“金融數(shù)學(xué)計(jì)算”場(chǎng)景中,即便是得分第一的大模型也會(huì)在個(gè)別題目中給出了正確的計(jì)算公式,卻依然得出錯(cuò)誤的答案。

對(duì)于一篇高質(zhì)量新聞稿件來(lái)說(shuō),上述問(wèn)題都可能是“致命”的差錯(cuò)。目前,AI生成內(nèi)容已經(jīng)大規(guī)模出現(xiàn)在互聯(lián)網(wǎng)中。這就要求新聞媒體要進(jìn)一步完善新聞內(nèi)容真實(shí)性審核機(jī)制,更需要加強(qiáng)內(nèi)容把關(guān)。

結(jié)論三:“冷面”的大模型難判斷新聞價(jià)值

閱讀一篇稿件,挖掘出最重要的新聞點(diǎn),然后提煉和制作標(biāo)題,在這方面,大模型與經(jīng)驗(yàn)豐富的編輯相比,差距不小。

在本期評(píng)測(cè)的“提煉稿件標(biāo)題”場(chǎng)景中,大模型得分普遍偏低。其生成的標(biāo)題多顯得中規(guī)中矩。在本期評(píng)測(cè)的“提煉稿件標(biāo)題”場(chǎng)景中,大模型得分普遍偏低。其生成的標(biāo)題多顯得中規(guī)中矩。例如大模型提煉的《“星巴克中國(guó)新篇章:80后劉文娟接任CEO,引領(lǐng)咖啡巨頭迎挑戰(zhàn)”》《“星巴克中國(guó)換帥:80后劉文娟接棒CEO,直面市場(chǎng)挑戰(zhàn)與變革”》等標(biāo)題。

另外,評(píng)測(cè)中發(fā)現(xiàn),大模型提煉的新聞標(biāo)題,往往充斥著一些“高大上”的抽象概念詞匯,無(wú)法挖掘文章中最重要的新聞點(diǎn)和有價(jià)值的信息,文字空洞,很難吸引讀者的眼球。

此外,在“撰寫新聞稿件”場(chǎng)景中,模型生成的文本較為生硬,“機(jī)器痕跡”較明顯,缺乏情感和個(gè)性化的表達(dá)

從現(xiàn)階段來(lái)看,大模型在閱讀文章方面,難以具備對(duì)一篇稿件新聞點(diǎn)的準(zhǔn)確和深層次把握,容易停留在淺層次的理解。因此,新聞點(diǎn)和新聞價(jià)值的判斷,包括采寫有溫度、有故事、有人情味的厚重稿件,仍然離不開記者、編輯的人工介入和悉心打磨。

結(jié)論四:不同采編場(chǎng)景選擇最適合大模型

三期大模型評(píng)測(cè)的場(chǎng)景基本可以分為輔助性場(chǎng)景(如財(cái)經(jīng)新聞閱讀、文本翻譯、設(shè)計(jì)采訪提綱等)和關(guān)鍵性場(chǎng)景(如撰寫新聞稿件、校對(duì)稿件差錯(cuò)、提煉新聞標(biāo)題等)。

三期評(píng)測(cè)的結(jié)果表明,絕大部分大模型在設(shè)計(jì)采訪提綱、改寫短視頻文案、英漢翻譯、文章閱讀以及微博新聞寫作等輔助性場(chǎng)景中普遍表現(xiàn)良好。例如,“改寫短視頻文案”場(chǎng)景中,所有參與評(píng)測(cè)的12款大模型均取得超過(guò)80分的成績(jī);而“設(shè)計(jì)采訪提綱”場(chǎng)景中,有8款大模型的得分高于80分。在第二期評(píng)測(cè)的“商務(wù)本文翻譯”場(chǎng)景中,13款大模型得分都高于80分,在“財(cái)經(jīng)新聞閱讀”場(chǎng)景中,13款大模型得分高于70分。

在撰寫新聞稿件、校對(duì)稿件差錯(cuò)、提煉新聞標(biāo)題等新聞生產(chǎn)關(guān)鍵性場(chǎng)景的能力則明顯不足。比如,在“校對(duì)稿件差錯(cuò)”場(chǎng)景中,僅一款大模型得分達(dá)到60分。在“提煉新聞標(biāo)題”場(chǎng)景中,沒有一款大模型得分達(dá)到60分。

因此,記者、編輯可以根據(jù)采編工作的不同環(huán)節(jié),不同場(chǎng)景,選擇最適合的大模型,讓部分場(chǎng)景實(shí)現(xiàn)采編工作AI化,提升工作效率

結(jié)論五:新聞媒體主導(dǎo):打造垂直領(lǐng)域的“AI記者”

對(duì)比三期大模型評(píng)測(cè)結(jié)果不難發(fā)現(xiàn),國(guó)內(nèi)大模型通過(guò)持續(xù)迭代,能力穩(wěn)步提升。同時(shí),各家大模型之間的差距也在逐步縮小,每個(gè)模型都展現(xiàn)出獨(dú)特的優(yōu)勢(shì)。但這些大模型都屬于通用大模型,并非為新聞媒體、采編工作量身定制。

造成大模型“幻覺”問(wèn)題嚴(yán)重的一大原因,在于訓(xùn)練文本和數(shù)據(jù)質(zhì)量不高,其中包含不少信息錯(cuò)誤。而新聞工作對(duì)準(zhǔn)確性要求極高。這一短板直接限制了大模型在新聞?lì)I(lǐng)域的應(yīng)用。然而,新聞媒體在長(zhǎng)期的新聞報(bào)道中已經(jīng)積累的大量高質(zhì)量新聞稿件和數(shù)據(jù),這恰恰為研發(fā)適合新聞采編工作的大模型工具提供了得天獨(dú)厚的土壤。

因此,自主訓(xùn)練和主導(dǎo)研發(fā)大模型工具變得尤為重要,借此,新聞媒體不僅能夠最大限度地確保大模型訓(xùn)練數(shù)據(jù)的質(zhì)量和生成邏輯的準(zhǔn)確性,還能保證大模型生成內(nèi)容的可控性,使其更好地契合媒體自身的屬性和特色。

在研發(fā)方法上,可以將采編全流程拆分成數(shù)十個(gè)環(huán)節(jié),如采訪、翻譯、稿件寫作、提煉摘要和校對(duì)差錯(cuò)等。根據(jù)各環(huán)節(jié)的具體工作目標(biāo)、方法和要求,對(duì)大模型進(jìn)行專項(xiàng)訓(xùn)練,以形成一系列單任務(wù)或垂類AI工具。最終,將這些單任務(wù)AI工具打包匯集,則可以打造出一整套新聞采編AI工具。

每日經(jīng)濟(jì)新聞大模型評(píng)測(cè)小組

2024年11月

如需轉(zhuǎn)載請(qǐng)與《每日經(jīng)濟(jì)新聞》報(bào)社聯(lián)系。
未經(jīng)《每日經(jīng)濟(jì)新聞》報(bào)社授權(quán),嚴(yán)禁轉(zhuǎn)載或鏡像,違者必究。

讀者熱線:4008890008

特別提醒:如果我們使用了您的圖片,請(qǐng)作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站,可聯(lián)系我們要求撤下您的作品。

模型 大模型 經(jīng)濟(jì)

歡迎關(guān)注每日經(jīng)濟(jì)新聞APP

每經(jīng)經(jīng)濟(jì)新聞官方APP

0

0