每日經(jīng)濟(jì)新聞 2025-01-27 15:30:22
1月27日11點(diǎn)左右,DeepSeek官網(wǎng)一度顯示“DeepSeek網(wǎng)頁(yè)/API不可用”,此前它已“崩”過(guò)兩次。每經(jīng)記者聯(lián)系DeepSeek客服,對(duì)方未對(duì)服務(wù)器過(guò)載問(wèn)題給予答復(fù)。同時(shí),DeepSeek在海外掀起巨浪,超越ChatGPT登頂蘋果美區(qū)應(yīng)用商店免費(fèi)APP下載排行榜。然而,其背后團(tuán)隊(duì)和領(lǐng)頭人非常低調(diào)且神秘。據(jù)了解,DeepSeek團(tuán)隊(duì)規(guī)模不到140人,成員多來(lái)自清北等國(guó)內(nèi)頂尖高校,以應(yīng)屆生和在讀生為主。
每經(jīng)記者 高涵 宋欣悅 每經(jīng)編輯 蘭素英
巨量的關(guān)注再次“擠崩”DeepSeek。
1月27日11點(diǎn)左右,DeepSeek官網(wǎng)一度顯示“DeepSeek網(wǎng)頁(yè)/API不可用”,截至發(fā)稿,功能已恢復(fù)。而在昨日(26日),DeepSeek也“崩”了兩次。就此,《每日經(jīng)濟(jì)新聞》記者聯(lián)系了DeepSeek客服。客服人員回答稱:“稍后再試。”當(dāng)記者進(jìn)一步追問(wèn)是否由于服務(wù)器過(guò)載導(dǎo)致此次服務(wù)中斷時(shí),客服人員未給予答復(fù)。
與此同時(shí),DeepSeek在海外又一次掀起巨浪。1月27日早間,DeepSeek應(yīng)用登頂蘋果中國(guó)地區(qū)和美國(guó)地區(qū)應(yīng)用商店免費(fèi)APP下載排行榜,在美區(qū)下載榜上超越了ChatGPT。
近期,包括紐約時(shí)報(bào)、經(jīng)濟(jì)學(xué)人、華爾街日?qǐng)?bào)等在內(nèi)的多家英美主流媒體都報(bào)道了DeepSeek的研究進(jìn)展,高度贊揚(yáng)其模型的強(qiáng)大性能。
當(dāng)?shù)貢r(shí)間1月23日,一位德國(guó)頂尖的人工智能研發(fā)人員對(duì)《自然》評(píng)論說(shuō),比起OpenAI公司那些閉源的AI模型,DeepSeek的開源程度“相當(dāng)優(yōu)秀”?!都~約時(shí)報(bào)》引用一位在加拿大從事科技咨詢工作的人士的說(shuō)法稱,DeepSee-R1才是他們符合他們需求的工具,因?yàn)樾詢r(jià)比很高。
然而,DeepSeek背后的團(tuán)隊(duì)和領(lǐng)頭人卻非常低調(diào)且神秘,公司創(chuàng)始人梁文鋒在網(wǎng)上的公開采訪只有寥寥幾篇。每經(jīng)記者嘗試聯(lián)系到DeepSeek的一名員工,他表示,公司規(guī)定,不能夠?qū)ν饨邮懿稍L。
此外,每經(jīng)記者加入了DeepSeek的官方交流群。該群的群公告寫道,“暫不對(duì)外進(jìn)行項(xiàng)目合作,不提供私有化部署及相關(guān)支持服務(wù);DeepSeek將集中研發(fā)精力奉上更強(qiáng)的模型,敬請(qǐng)期待!”
每經(jīng)記者深入探究梁文鋒及其DeepSeek團(tuán)隊(duì)的核心成員,揭開它如何從一個(gè)默默無(wú)聞的小公司,一步步崛起成為震動(dòng)全球AI圈的“東方神秘力量”的背后故事。
創(chuàng)始人梁文鋒是浙江大學(xué)信息與通信工程專業(yè)的碩士,在他帶領(lǐng)下的DeepSeek對(duì)人才極其看重,不看經(jīng)驗(yàn),只看能力。據(jù)多位與DeepSeek有過(guò)接觸的行業(yè)人士表述,DeepSeek的優(yōu)勢(shì)之處就在于人才密度極高,且多來(lái)自于中國(guó)本土市場(chǎng)。DeepSeek團(tuán)隊(duì)規(guī)模并不大,不到140人,工程師和研發(fā)人員幾乎都來(lái)自清北等國(guó)內(nèi)頂尖高校,鮮有“海歸”,而且工作時(shí)間都不長(zhǎng),不少還是在讀博士。
在剛剛成立的一年多時(shí)間里,DeepSeek一直不聲不響,V2模型的發(fā)布成為其破圈的關(guān)鍵。2024年5月發(fā)布的DeepSeek V2提供了一種史無(wú)前例的性價(jià)比:推理成本被降到每百萬(wàn)token僅1塊錢,約等于Llama3 70B的七分之一,GPT-4 Turbo的七十分之一,DeepSeek因此被業(yè)內(nèi)戲稱為“AI屆拼多多”。此外,因?yàn)槠涞驼{(diào)的作風(fēng),DeepSeek又被稱“來(lái)自東方的神秘力量”。
這之后,DeepSeek也引發(fā)了硅谷的恐慌,OpenAI迎來(lái)一個(gè)最強(qiáng)勁的對(duì)手。實(shí)際上,DeepSeek背后并是不什么互聯(lián)網(wǎng)科技大廠,而是來(lái)自金融領(lǐng)域的頭部量化:幻方量化。
梁文鋒(右) 圖片來(lái)源:新聞截圖
2023年,全球AI熱潮爆發(fā),梁文鋒也來(lái)到了他創(chuàng)業(yè)之路的第十個(gè)年頭。當(dāng)年5月,38歲的梁文鋒宣布要做通用人工智能(AGI)。同年7月,杭州深度求索人工智能基礎(chǔ)技術(shù)研究有限公司(DeepSeek)成立,專注于AI大模型的研究與開發(fā)。梁文鋒也成為量化投資者投身AI創(chuàng)業(yè)的“第一人”。梁文鋒是幻方量化的實(shí)際控制人,天眼查信息顯示,他在DeepSeek最終受益的股份比例超80%。
圖片來(lái)源:天眼查
1985年,梁文鋒出生于廣東湛江的一個(gè)五線城市。其具體的童年成長(zhǎng)軌跡已不可考,從公開信息唯一可知的是,梁文鋒有在采訪中提到過(guò)自己的父親是一名小學(xué)老師。
2002年,17歲的梁文鋒憑借優(yōu)異成績(jī)考入浙江大學(xué)電子信息工程專業(yè)。2007年,22歲的梁文鋒又考上了浙江大學(xué)信息與通信工程專業(yè)碩士,師從項(xiàng)志宇,主要做機(jī)器視覺(jué)研究。
2008年,在浙大讀書期間,23歲的梁文鋒與同學(xué)一起組團(tuán)隊(duì)開始積累市場(chǎng)行情數(shù)據(jù)、金融市場(chǎng)其他相關(guān)數(shù)據(jù)以及宏觀經(jīng)濟(jì)等數(shù)據(jù)。
2010年6月,25歲的梁文鋒從浙江大學(xué)信息與通信工程專業(yè)碩士畢業(yè),其畢業(yè)論文題目為《一種魯棒的PTZ攝像機(jī)目標(biāo)跟蹤算法》。
畢業(yè)后,他沒(méi)有像周圍人一樣去大廠做個(gè)程序員,而是躲在成都的廉價(jià)出租屋里,不停接受進(jìn)入諸多場(chǎng)景中嘗試的挫敗,最終切入了最復(fù)雜場(chǎng)景之一的金融,并成立了幻方量化。
他主導(dǎo)的幻方量化在2016年首次上線AI策略,并于2017年實(shí)現(xiàn)投資策略全面AI化,成為量化投資領(lǐng)域的創(chuàng)新先鋒。幻方量化成立僅6年,管理規(guī)模曾達(dá)到千億,被稱為“量化四大天王”之一。它也是國(guó)內(nèi)唯一公開宣稱有擁有萬(wàn)張英偉達(dá)A100顯卡的企業(yè),其算力儲(chǔ)備量就算是在一眾互聯(lián)網(wǎng)公司科技公司里,也豪不遜色。
在此前接受媒體采訪時(shí),梁文鋒表示,幻方量化進(jìn)入AI領(lǐng)域并非偶然,而是源于對(duì)AI的深厚興趣與堅(jiān)定信念。早在浙江大學(xué)攻讀AI時(shí),梁文鋒就堅(jiān)信“AI一定會(huì)改變世界”,盡管當(dāng)時(shí)這一觀點(diǎn)并不被廣泛認(rèn)同。
梁文鋒強(qiáng)調(diào),幻方量化進(jìn)入AI領(lǐng)域并非為了復(fù)刻ChatGPT,而是希望通過(guò)研究和探索,解開AGI的更多未知之謎。他們將從語(yǔ)言大模型入手,逐步拓展到視覺(jué)等領(lǐng)域,致力于打造真正人類級(jí)別的AI。
梁文鋒告訴媒體,“我們要做的是通用人工智能,也就是AGI。語(yǔ)言大模型可能是通往AGI的必經(jīng)之路,并且初步具備了AGI的特征,所以我們會(huì)從這里開始,后邊也會(huì)有視覺(jué)等。”
時(shí)至今日,梁文鋒的日常依舊是看論文、寫代碼、參與小組討論,是少有的能堪比一線研究員能力的公司掌舵者。一位AI創(chuàng)業(yè)者在社交媒體上爆料稱,他去年問(wèn)過(guò)DeepSeek團(tuán)隊(duì)的一名成員:“為什么你們的AI表現(xiàn)這么好?”那位成員回答:“因?yàn)槲覀兊腃EO自己讀論文、寫代碼、招募人才。”
便宜!開源!好用!
憑借集齊這三大優(yōu)勢(shì)的AI大模型,DeepSeek一飛沖天,成為了全球AI圈熱議的對(duì)象。
據(jù)多位與DeepSeek有過(guò)接觸的行業(yè)人士表述,DeepSeek的優(yōu)勢(shì)之處就在于人才密度極高,且多來(lái)自于中國(guó)本土市場(chǎng)。另一位與DeepSeek有過(guò)接觸的行業(yè)人士稱,“DeepSeek給出的薪酬待遇非常具有競(jìng)爭(zhēng)力,這讓其一直對(duì)人才有很強(qiáng)的吸引力”。
在接受媒體采訪時(shí),梁文鋒認(rèn)為,如果追求短期目標(biāo),找現(xiàn)成有經(jīng)驗(yàn)的人是對(duì)的。但如果看長(zhǎng)遠(yuǎn),經(jīng)驗(yàn)就沒(méi)那么重要,基礎(chǔ)能力、創(chuàng)造性、熱愛(ài)等更重要。從這個(gè)角度看,國(guó)內(nèi)合適的候選人就不少。“不一定是做過(guò)這件事的人才能做這件事。我們招人有條原則是,看能力,而不是看經(jīng)驗(yàn)。我們的核心技術(shù)崗位,基本以應(yīng)屆和畢業(yè)一兩年的人為主。”
這一原則貫穿到了DeepSeek的團(tuán)隊(duì)組成中,最大的特點(diǎn)就是年輕。應(yīng)屆生、在讀生,特別是來(lái)自清北的應(yīng)屆生在其中非?;钴S。
“只招1%的天才,去做99%中國(guó)公司做不到的事情。”面試過(guò)DeepSeek的應(yīng)屆生這樣評(píng)價(jià)其招聘風(fēng)格。這也使得DeepSeek全員上下,都保持著極致的創(chuàng)新動(dòng)力。
DeepSeek團(tuán)隊(duì)規(guī)模并不大,不到140人,工程師和研發(fā)人員幾乎都來(lái)自清華大學(xué)、北京大學(xué)、中山大學(xué)、北京郵電大學(xué)等國(guó)內(nèi)頂尖高校,鮮有“海歸”,而且工作時(shí)間都不長(zhǎng),不少還是在讀博士。即便是團(tuán)隊(duì)的管理者,也非常年輕。
梁文鋒曾說(shuō)過(guò),“V2模型沒(méi)有海外回來(lái)的人,都是本土的。前50名頂尖人才可能不在中國(guó),但也許我們能自己打造這樣的人。”
讓DeepSeek破圈的V2模型最重要的創(chuàng)新是提出了一種新型注意力,在Transformer架構(gòu)的基礎(chǔ)上,用MLA(Multi-head Latent Attention)替代了傳統(tǒng)的多頭注意力,大幅減少了計(jì)算量和推理顯存。
在一眾貢獻(xiàn)者中,高華佐和曾旺丁為MLA架構(gòu)做出了關(guān)鍵創(chuàng)新,兩人都剛從學(xué)校出來(lái)沒(méi)幾年。高華佐非常低調(diào),目前只知道是北大物理系畢業(yè);曾旺丁來(lái)自北京郵電大學(xué),研究生導(dǎo)師是北京郵電大學(xué)人工智能與網(wǎng)絡(luò)搜索教研中心主任張洪剛。
DeepSeek大模型的另一大突破,是通過(guò)一種名為GRPO的算法,創(chuàng)新訓(xùn)練方法,大大降低了成本。
核心成員之一邵智宏此前是清華大學(xué)交互式人工智能(CoAI)課題組博士生,主要研究自然語(yǔ)言處理、深度學(xué)習(xí),對(duì)構(gòu)建穩(wěn)健且可擴(kuò)展的AI系統(tǒng)有著獨(dú)特見(jiàn)解。他曾服務(wù)于微軟研究院,加入DeepSeek團(tuán)隊(duì)之后,參與了多個(gè)重要項(xiàng)目的研發(fā),包括DeepSeek-Math、DeepSeek-Prover和DeepSeek-Coder-v2等。
朱琪豪 圖片來(lái)源:北京大學(xué)程序設(shè)計(jì)語(yǔ)言研究室網(wǎng)站截圖
GRPO算法創(chuàng)新的另一重要貢獻(xiàn)者是朱琪豪,是北京大學(xué)計(jì)算機(jī)學(xué)院2024屆的博士畢業(yè)生,專注于深度代碼學(xué)習(xí)研究。
他的同學(xué)代達(dá)勱則在更早的時(shí)候加入這個(gè)團(tuán)隊(duì),參與了DeepSeek大模型從V1到V3每一代的研發(fā),已經(jīng)是元老級(jí)研發(fā)人員,也在學(xué)生時(shí)代獲得多項(xiàng)論文獎(jiǎng)。
負(fù)責(zé)DeepSeek大模型訓(xùn)練及推理基礎(chǔ)架構(gòu)的,是同樣剛畢業(yè)的工程師趙成鋼。加入DeepSeek之前,他曾在英偉達(dá)公司實(shí)習(xí)。
DeepSeek團(tuán)隊(duì)中其他核心人員還包括:Peiyi Wang(北大博士生)、王炳宣(清華博士生)、吳作凡(中山大學(xué)博士生)、任之洲(中山大學(xué)博士生)、周雨楊(中山大學(xué)博士生)和羅翔煜(中山大學(xué)博士生)等。
這些一邊搞研發(fā)一邊寫論文的年輕人,也一次又一次帶給梁文鋒驚喜。
如需轉(zhuǎn)載請(qǐng)與《每日經(jīng)濟(jì)新聞》報(bào)社聯(lián)系。
未經(jīng)《每日經(jīng)濟(jì)新聞》報(bào)社授權(quán),嚴(yán)禁轉(zhuǎn)載或鏡像,違者必究。
讀者熱線:4008890008
特別提醒:如果我們使用了您的圖片,請(qǐng)作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站,可聯(lián)系我們要求撤下您的作品。
歡迎關(guān)注每日經(jīng)濟(jì)新聞APP