国产成人精品免费视,91天堂嫩模在线播放,国产免费小视频在线观看,久久免费公开视频,国产成人精品免费视频网页大全,日韩不卡在线视频,视频一区二区精品的福利

每日經(jīng)濟新聞
AI快訊

每經(jīng)網(wǎng)首頁 > AI快訊 > 正文

中國銀河維持計算機推薦評級:國產(chǎn)開源MoE模型DeepSeek-V2性能媲美GPT-4,大模型價格戰(zhàn)拉開帷幕

每日經(jīng)濟新聞 2024-05-13 12:41:51

每經(jīng)AI快訊,中國銀河05月13日發(fā)布研報稱:維持計算機推薦(維持)評級。

事件:5月7日,知名私募巨頭幻方量化旗下的AI公司DeepSeek發(fā)布全新第二代MoE大模型DeepSeek-V2。

性能直逼GPT-4Turbo,綜合能力位于大模型第一梯隊:DeepSeek-V2是一個參數(shù)為2360億的MoE模型,每個token僅激活210億參數(shù),支持128K的上下文長度。1)縱向?qū)Ρ龋簩Ρ热ツ?1月發(fā)布的DeepSeek67B性能取得顯著提升,訓練成本節(jié)省了42.5%,KV緩存減少了93.3%,最大生成吞吐量提高到了5.76倍。2)橫向?qū)Ρ龋荷舷挛拈L度對標GPT-4Turbo(128K);中文綜合能力(AlignBench)超越Llama3,在開源模型中表現(xiàn)最強,與文心4.0等閉源模型在評測中處于同一梯隊,僅次于GPT-4Turbo;英文綜合能力(MT-Bench)與最強的開源模型LLaMA3-70B處于同一梯隊,超過MoE開源模型Mixtral8x22B。此外在知識、數(shù)學、推理、代碼等方面也有出色的性能。

DeepSeek-V2訓練計算量降低,推理能力表現(xiàn)高效:DeepSeek-V2訓練數(shù)據(jù)集是由8.1Ttoken的高質(zhì)量、多源預(yù)訓練語料庫組成,采用的Transformer架構(gòu)中由一個注意力模塊和一個前饋網(wǎng)絡(luò)(FFN)組成,并且在注意力機制和FFN方面采用了創(chuàng)新架構(gòu):一方面設(shè)計了MLA(Multi-headLatentAttention)利用低秩鍵值聯(lián)合壓縮來消除推理時鍵值緩存的瓶頸,DeepSeek-V2消耗的顯存(KVCache)只有同級別Dense模型的1/5-1/100,每token成本大幅降低;另一方面,F(xiàn)FN采用高性能MoE架構(gòu)DeepSeekMoE,以經(jīng)濟的成本訓練強大的模型。我們認為,DeepSeek-V2大幅提升訓練效率,訓練所需計算量約為GPT-4的1/20,但性能基本上相差無幾,目前來看參數(shù)是影響大模型性能的關(guān)鍵因素之一,除此之外,架構(gòu)優(yōu)化能有效提升降低訓練成本,提升訓練效率,將成為另一個影響大模型性能的關(guān)鍵因素。

API價格降至約GPT-4Turbo百分之一,大模型價格戰(zhàn)即將拉開帷幕,利好AI應(yīng)用層快速滲透:目前DeepSeek-V2API定價為每百萬token輸入1元、輸出2元(32K上下文),幾乎低于所有市面上主流大模型價格,約為GPT-4Turbo的1/100。我們認為,DeepSeek-V2提升數(shù)據(jù)集質(zhì)量及優(yōu)化架構(gòu),成本大幅降低,在價格方面提升競爭力,大模型將逐漸進入價格戰(zhàn)時期,AI應(yīng)用將快速滲透。

風險提示:技術(shù)研發(fā)進度不及預(yù)期風險;供應(yīng)鏈風險;政策推進不及預(yù)期風險;消費需求不及預(yù)期風險;行業(yè)競爭加劇風險。

每經(jīng)頭條(nbdtoutiao)——大手筆!接盤王健林的萬達電影后,知名80后富豪又出手收購字節(jié)游戲資產(chǎn)!背后是騰訊?

(記者 胡玲)

免責聲明:本文內(nèi)容與數(shù)據(jù)僅供參考,不構(gòu)成投資建議,使用前請核實。據(jù)此操作,風險自擔。

如需轉(zhuǎn)載請與《每日經(jīng)濟新聞》報社聯(lián)系。
未經(jīng)《每日經(jīng)濟新聞》報社授權(quán),嚴禁轉(zhuǎn)載或鏡像,違者必究。

讀者熱線:4008890008

特別提醒:如果我們使用了您的圖片,請作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站,可聯(lián)系我們要求撤下您的作品。

歡迎關(guān)注每日經(jīng)濟新聞APP

每經(jīng)經(jīng)濟新聞官方APP

0

0