每日經(jīng)濟(jì)新聞 2024-03-22 17:40:23
每經(jīng)記者 姚亞楠 每經(jīng)編輯 彭水萍
“百模大戰(zhàn)”進(jìn)入下半場(chǎng),在大模型底座的國產(chǎn)化浪潮和應(yīng)用層的火熱之外,一些原本并不起眼的中間層公司開始走入公眾視野。
一個(gè)被反復(fù)提及的例子是,大洋彼岸一家名為Scale AI的數(shù)據(jù)服務(wù)公司被爆2023年年化收入運(yùn)行率(annualized revenue run-rate)達(dá)到7.5億美元,猛增3倍,一躍成為當(dāng)前收入最高的AI初創(chuàng)公司之一,比肩OpenAI。
事實(shí)上,在底層大模型和最上層是各類應(yīng)用之外,還有大量的中間環(huán)節(jié),包括數(shù)據(jù)處理、模型訓(xùn)練、工具開發(fā)等等,海外新興的大模型創(chuàng)業(yè)公司也大多集中在中間層和應(yīng)用層。
“當(dāng)所有人都在掘金時(shí),你就應(yīng)該賣鏟子”,如今國內(nèi)“百模大戰(zhàn)”鏖戰(zhàn)正酣,這些提供基礎(chǔ)設(shè)施服務(wù)的“賣水人”過得如何?近日,《每日經(jīng)濟(jì)新聞》記者進(jìn)行了多方采訪。
章磊此前在海外從事算法工作,深知數(shù)據(jù)的重要性,2017年回國后,他發(fā)現(xiàn)國內(nèi)市場(chǎng)在數(shù)據(jù)基礎(chǔ)設(shè)施方面存在缺失,于是著手創(chuàng)立了星塵數(shù)據(jù)。
訓(xùn)練一個(gè)大模型,數(shù)據(jù)處理工作就要占到60%,對(duì)于ChatGPT引爆的這一輪AIGC創(chuàng)業(yè)潮,星塵數(shù)據(jù)的感受很直觀。“我們接到大模型和數(shù)據(jù)管理的訂單明顯增多,這類業(yè)務(wù)目前在公司占比有三成左右”,章磊向《每日經(jīng)濟(jì)新聞》記者介紹稱,這一年來,隨著技術(shù)的演進(jìn)和應(yīng)用的深入,大模型公司的數(shù)據(jù)處理需求復(fù)雜度也隨之攀升:從最初的獲取基座模型預(yù)訓(xùn)練的數(shù)據(jù)集,到對(duì)模型進(jìn)行SFT(supervised fine-tuning)調(diào)整,進(jìn)一步地,隨著行業(yè)應(yīng)用的深入,出現(xiàn)了對(duì)特定垂直領(lǐng)域的定制化和專業(yè)化數(shù)據(jù)需求,以及對(duì)大模型能力進(jìn)行評(píng)估的benchmark評(píng)測(cè),數(shù)據(jù)處理的難度不斷加大。此外,在數(shù)據(jù)模態(tài)的演進(jìn)過程中,客戶需求也從處理單一模態(tài)數(shù)據(jù)轉(zhuǎn)變?yōu)樘幚矶嗄B(tài)數(shù)據(jù)集,模型的訓(xùn)練過程也由靜態(tài)的數(shù)據(jù)處理轉(zhuǎn)向了動(dòng)態(tài)的交互式人類反饋。
得益于大模型的火熱,大洋彼岸一家名為Scale AI的數(shù)據(jù)服務(wù)公司2023年?duì)I收增長(zhǎng)迅猛,一躍成為收入比肩OpenAI的AI初創(chuàng)公司之一,引發(fā)市場(chǎng)對(duì)數(shù)據(jù)服務(wù)的關(guān)注。在國內(nèi),雖然底層大模型掀起國產(chǎn)化浪潮,應(yīng)用層生態(tài)迎來百花齊放,但章磊說,數(shù)據(jù)服務(wù)公司還沒有如愿迎來悶聲賺大錢的舒服日子;恰恰相反,隨著大模型客戶對(duì)數(shù)據(jù)服務(wù)要求的進(jìn)一步提高,行業(yè)淘汰賽提前拉開帷幕,很多單純依靠廉價(jià)勞動(dòng)力做純手工數(shù)據(jù)標(biāo)注的公司已經(jīng)倒下。
“大模型公司對(duì)于高質(zhì)量標(biāo)注數(shù)據(jù)有著持續(xù)強(qiáng)烈的需求,但單純拼低價(jià)人力的數(shù)據(jù)標(biāo)注商無法提供與之匹配的服務(wù)。此外,國內(nèi)以自動(dòng)駕駛公司為代表的客戶不僅回款慢,并且其采購體系存在一定問題,這使得國內(nèi)數(shù)據(jù)標(biāo)注行業(yè)很難以最高效率運(yùn)行,不少公司直接被拖垮了”,章磊向記者分析稱。
不過,市場(chǎng)需求仍在加速釋放,隨著科技大廠、算法公司等更多玩家參與其中,自動(dòng)化標(biāo)注及更智能的數(shù)據(jù)閉環(huán)產(chǎn)品涌現(xiàn),整個(gè)行業(yè)正從勞動(dòng)密集型向技術(shù)密集型轉(zhuǎn)變,新興的數(shù)據(jù)服務(wù)公司需要開拓出屬于自己的成長(zhǎng)空間。
章磊告訴記者,在AI數(shù)據(jù)的整個(gè)生命周期當(dāng)中,數(shù)據(jù)標(biāo)注只是其中非常小的一部分,星塵數(shù)據(jù)的應(yīng)對(duì)策略是,從數(shù)據(jù)標(biāo)注向搭建數(shù)據(jù)基礎(chǔ)設(shè)施進(jìn)化,培養(yǎng)經(jīng)驗(yàn)豐富的數(shù)據(jù)策略專家,推出AI全生命周期數(shù)據(jù)管理平臺(tái)MorningStar,幫助客戶建立高效的數(shù)據(jù)閉環(huán)系統(tǒng),實(shí)現(xiàn)數(shù)據(jù)價(jià)值最大化和模型效果最優(yōu)化。
Scale AI如今估值超70億美元,背后有Y Combinator、Tiger Globa等諸多知名機(jī)構(gòu)支持,國內(nèi)投資人如何看待這波“賣水人”的機(jī)遇?
創(chuàng)世伙伴資本合伙人聶冬辰長(zhǎng)期關(guān)注AI領(lǐng)域的早期投資機(jī)遇,過去一年,圍繞著AIGC這座金礦,以及金礦邊的“賣水人”,聶冬辰看過很多項(xiàng)目,他看好包括數(shù)據(jù)處理、模型訓(xùn)練、工具開發(fā)在內(nèi)的中間環(huán)節(jié)短期內(nèi)存在一定的創(chuàng)業(yè)與投資機(jī)遇。
“AIGC這個(gè)產(chǎn)業(yè)鏈上,最賺錢的環(huán)節(jié)要么是大模型底座,要么是離用戶更近的上層應(yīng)用,中間環(huán)節(jié)相比上下游來看,天花板和價(jià)值可能相對(duì)偏低一些”,聶冬辰表示。
九合創(chuàng)投創(chuàng)始人王嘯也認(rèn)可中間環(huán)節(jié)的價(jià)值,“大模型部署到業(yè)務(wù)流程中,有適配的成本,使用大模型有訓(xùn)練和推理成本,中間層可以幫助使用大模型的企業(yè)降本增效”。不過,當(dāng)前大模型公司的主要目標(biāo)是交付更高水平的大模型,到實(shí)現(xiàn)商業(yè)化還有一段距離。長(zhǎng)期來看,大模型公司需要找到商業(yè)化的路徑,王嘯擔(dān)心這個(gè)過程可能會(huì)擠壓“賣水人”的利潤(rùn),因此,現(xiàn)階段他更關(guān)注應(yīng)用層的機(jī)會(huì)。
王嘯向記者舉例稱,九合創(chuàng)投在國內(nèi)也看到過類似Scale AI的項(xiàng)目,“但國內(nèi)和國外的商業(yè)環(huán)境不同,國內(nèi)的AI公司更關(guān)注數(shù)據(jù)能否和模型業(yè)務(wù)更好的貼合,大多傾向于在公司內(nèi)部處理數(shù)據(jù),以更好的控制數(shù)據(jù)質(zhì)量”。
不過,上述擔(dān)憂并非無解,聶冬辰認(rèn)為,對(duì)于這類公司而言,出海是一個(gè)很好的選擇。海外市場(chǎng)產(chǎn)業(yè)鏈分工更清晰明確,企業(yè)付費(fèi)意識(shí)普遍更強(qiáng),這些公司面臨上下游公司的擠壓會(huì)少一些,“如果產(chǎn)品能力足夠強(qiáng),有能力進(jìn)入到海外巨大的市場(chǎng),那么企業(yè)的成長(zhǎng)空間還是足夠大的”。
在近來與創(chuàng)業(yè)者的接觸中,聶冬辰明顯感覺到創(chuàng)始人的心態(tài)有了很大變化,“去年大模型剛誕生時(shí),我們接觸到的創(chuàng)業(yè)者大多斗志昂揚(yáng),充滿期待憧憬,摩拳擦掌想要做出點(diǎn)什么來。但今年以來,尤其是文生視頻大模型Sora橫空出世,很多創(chuàng)業(yè)者的感受是無奈”,聶冬辰說,OpenAI的一次產(chǎn)品迭代可能就瞬間抹掉了部分創(chuàng)業(yè)者一年來的技術(shù)積累和優(yōu)勢(shì),游戲規(guī)則頃刻改變。
不過,即便在大模型在以“日更”進(jìn)展的當(dāng)下,聶冬辰認(rèn)為,部分領(lǐng)域依然存在機(jī)會(huì),值得創(chuàng)業(yè)者努力。首先是垂直領(lǐng)域模型,這些行業(yè)由于其數(shù)據(jù)的獨(dú)特性和封閉性,往往難以被OpenAI或大型科技公司的通用模型所充分覆蓋,創(chuàng)業(yè)者如果專注于這些數(shù)據(jù)壁壘較高的領(lǐng)域,利用對(duì)行業(yè)深入的理解和專業(yè)知識(shí),可以開發(fā)出針對(duì)這些行業(yè)的定制化模型。
其次是硬件領(lǐng)域,OpenAI作為一家以軟件為核心的公司,未來會(huì)持續(xù)提升其模型的性能,同時(shí)積極尋找市場(chǎng)上的新興應(yīng)用,整合到其基礎(chǔ)功能中以擴(kuò)展軟件的覆蓋范圍,但是對(duì)于與硬件直接相關(guān)的領(lǐng)域,OpenAI可能不會(huì)親自投入太多精力,中國公司在智能硬件制造方面有很強(qiáng)的實(shí)力,大模型與智能硬件的結(jié)合是他今年重點(diǎn)關(guān)注的方向。
“今年我們對(duì)大模型項(xiàng)目是否有造血能力的考察比重繼續(xù)在增加”,王嘯告訴《每日經(jīng)濟(jì)新聞》記者,在大模型訓(xùn)練成本普遍較高的情況下,創(chuàng)業(yè)公司要更加關(guān)注變現(xiàn),在當(dāng)前的環(huán)境下如果自身造血能力短期內(nèi)無法跟上,會(huì)非常考驗(yàn)團(tuán)隊(duì)的融資能力。今年他將對(duì)大模型應(yīng)用層的機(jī)會(huì)持續(xù)保持關(guān)注,包括多模態(tài)的發(fā)展、具身智能、垂直行業(yè)AI應(yīng)用、To C應(yīng)用場(chǎng)景等。
封面圖片來源:視覺中國-VCG41N1408722861
如需轉(zhuǎn)載請(qǐng)與《每日經(jīng)濟(jì)新聞》報(bào)社聯(lián)系。
未經(jīng)《每日經(jīng)濟(jì)新聞》報(bào)社授權(quán),嚴(yán)禁轉(zhuǎn)載或鏡像,違者必究。
讀者熱線:4008890008
特別提醒:如果我們使用了您的圖片,請(qǐng)作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站,可聯(lián)系我們要求撤下您的作品。
歡迎關(guān)注每日經(jīng)濟(jì)新聞APP