每日經(jīng)濟新聞 2023-07-11 19:05:52
◎海天瑞聲是國內(nèi)最早投入AI訓練數(shù)據(jù)的專業(yè)服務(wù)商之一,2023年,不斷翻涌的大模型浪潮將這家公司推至資本市場的聚光燈下。
◎“數(shù)據(jù)的清洗和標注流程對于模型的質(zhì)量至關(guān)重要,它們可以提高數(shù)據(jù)的質(zhì)量和準確性,幫助模型更好地去學習,也為模型的評估奠定了一個很好的基礎(chǔ)。”賀琳表示。
每經(jīng)記者 可楊 每經(jīng)編輯 董興生
■相關(guān)公司:海天瑞聲(SH688787,股價92.15元,市值56億元)
■核心競爭力:具備標準化數(shù)據(jù)集產(chǎn)品規(guī)模化生產(chǎn)能力,累計完成超過1300個自有知識產(chǎn)權(quán)的訓練數(shù)據(jù)標準化產(chǎn)品的建設(shè),在全球企業(yè)中穩(wěn)居前列。較早地布局并建立了多語種能力。
■機構(gòu)眼中的公司:國內(nèi)AI訓練數(shù)據(jù)龍頭提供商,自動駕駛業(yè)務(wù)打開成長空間
■所屬概念:數(shù)據(jù)服務(wù) 人工智能 AIGC
11.2公里/秒,是火箭能夠成功擺脫地球引力束縛,飛離地球的速度。而瞬間的燃料燃燒所提供的推動力,是幫助火箭一次又一次加速直至進入外太空的助力。
與《每經(jīng)人物•專訪董事長》記者交流時,海天瑞聲董事長賀琳覺得,作為一切人工智能技術(shù)最上游的數(shù)據(jù),就是人工智能這艘火箭的“燃料”。海天瑞聲正是一家生成“燃料”的公司。
海天瑞聲是國內(nèi)最早投入AI訓練數(shù)據(jù)的專業(yè)服務(wù)商之一,2023年,不斷翻涌的大模型浪潮將這家公司推至資本市場的聚光燈下。而身處潮水之中,賀琳對未來的思考依舊謹慎。
2023年初,賀琳在海天瑞聲公司年會上的發(fā)言稿,80%由ChatGPT完成。
“非常的驚艷,有點不(敢)相信。”這是賀琳對ChatGPT的初印象,“當然,也有不盡如人意的地方,我覺得這才是我們要努力的方向。”ChatGPT的出現(xiàn),讓這家數(shù)據(jù)公司突然站到了資本市場舞臺中央。
2023年開年以來,海天瑞聲股價一路走高,3月一度漲至191.96元/股,較其2021年8月上市時翻了一番。而海天瑞聲方面,則已多次在投資者互動平臺發(fā)布提示,稱公司與OpenAI沒有合作,也尚不能預(yù)期大模型業(yè)務(wù)將帶來多少收入。
“年初,我們還在仔細觀察、論證這個技術(shù)到底對數(shù)據(jù)有什么樣的需求。”賀琳認為,合適的入局時機應(yīng)該是當這項技術(shù)能夠真正在行業(yè)中落地的時候,這意味著其有真正的應(yīng)用場景,而非偽場景。“我們要確定這個需求是真的,且有人會為這個需求買單,這才是一個正常的商業(yè)邏輯。”
同時,當行業(yè)落地時刻到來,數(shù)據(jù)的需求量也會迎來大規(guī)模提升。“這給公司帶來的上升空間,我認為是非常樂觀的,(目前)我們還是抱著樂觀審慎的態(tài)度去看、去跟蹤、去研究這項技術(shù)。”
“判斷一個行業(yè),我們會更深刻地去想這個行業(yè)到底需要什么樣的數(shù)據(jù),只有想清楚這件事,我們才會走過去,我們當初對自動駕駛領(lǐng)域的布局就遵循了這個邏輯。”賀琳介紹。
布局自動駕駛行業(yè)是海天瑞聲在2021年定下的戰(zhàn)略方向,在賀琳看來,自動駕駛賽道已經(jīng)符合這個判斷邏輯。從L2到L4,自動駕駛已經(jīng)有相當多的應(yīng)用落地,同時,自動駕駛的數(shù)據(jù)需求量十分巨大。
她判斷,自動駕駛是一個人命關(guān)天、對安全要求非常高的技術(shù),它需要大量數(shù)據(jù)來打磨,去覆蓋各個不常見的場景來保證安全性,因為任何極端天氣或極端場景都可能導致誤判。“怎么避免?就需要大量的數(shù)據(jù)去訓練,讓模型接觸到更多長尾的場景來提高它的安全性。”
今年4月18日,海天瑞聲正式推出其專為自動駕駛場景設(shè)計的全棧式數(shù)據(jù)標注平臺“DOTS-AD自動駕駛標注平臺”。
賀琳曾就職于中國科學院聲學研究所,從事語音識別、語音合成、漢語語言理解、語音心理測試等方面的研究工作。
成立于2005年的海天瑞聲,最初誕生于賀琳在這份工作中捕捉到的行業(yè)痛點。“我們當時在課題組其實也會遇到(缺少)數(shù)據(jù)的問題,解決辦法就是工作人員,加上研究生、博士生,自己來做數(shù)據(jù)。”盡管彼時實驗室的數(shù)據(jù)量相對較少,但也已經(jīng)算是一項繁瑣的工作。
隨著技術(shù)的發(fā)展,智能語音從實驗室走向大規(guī)模應(yīng)用階段,更多場景的覆蓋需求,意味著數(shù)據(jù)需求隨之大規(guī)模增加。與此同時,在與一些就職于大型企業(yè)或研究機構(gòu)的前同事交流時,賀琳發(fā)現(xiàn),大家都在關(guān)注數(shù)據(jù)的問題。“(大家)認為數(shù)據(jù)是一個非常大的瓶頸,阻礙他們技術(shù)的落地。所以我就在想,那是不是可以由我出來做這件事情,幫助大家解決這個困難。”
時至今日,賀琳覺得,彼時促使她創(chuàng)業(yè)的瓶頸依舊存在。
在她看來,數(shù)據(jù)的需求是跟著技術(shù)的發(fā)展而變化的,隨著技術(shù)在各個行業(yè)中落地,就會有更多的數(shù)據(jù)需求爆發(fā)。“像現(xiàn)在大模型起來,很多人都認為,數(shù)據(jù)差距是一個造成系統(tǒng)性差距的非常重要的原因,所以大家認為數(shù)據(jù)還是很重要的要素,這個瓶頸依然存在。”
不同的是,賀琳創(chuàng)業(yè)之初,國內(nèi)競爭對手少,海天瑞聲得以在市場快速突圍。而如今,國內(nèi)已經(jīng)出現(xiàn)一批新的數(shù)據(jù)公司,先發(fā)優(yōu)勢成為當下數(shù)據(jù)公司核心競爭力的基礎(chǔ)。“其實,這個行業(yè)有很多的技術(shù)壁壘和‘know-how’,也是需要不斷打磨項目,才能去沉淀自己的技術(shù)、學會各類‘know-how’的,這是靠項目積累出來的,而不是短期能很快積累起來的過程。”
海量數(shù)據(jù)如何最終成功支撐起龐大參數(shù)的大模型運行?需要首選了解一個概念——數(shù)據(jù)集。
賀琳介紹,數(shù)據(jù)集的產(chǎn)生是一個非常復雜的過程,其中包括設(shè)計階段、采集階段、處理階段以及最后的質(zhì)檢階段。
在設(shè)計環(huán)節(jié),需要先去了解數(shù)據(jù)集是為了解決哪個問題,這個問題需要什么樣的數(shù)據(jù),需要多大的量,需要什么樣的場景,以及采集的樣本、規(guī)模、內(nèi)容,包括采集的設(shè)備、標注的規(guī)范等等;采集環(huán)節(jié)則是按照設(shè)計的方案,到大千世界采集,有可能是聲音,有可能是圖像、圖片,又或是手寫的字、道路的場景。采集完成后則需要進入清洗、標注環(huán)節(jié)。最后生產(chǎn)出的數(shù)據(jù)集需要通過雙層的質(zhì)檢流程,最終才能生產(chǎn)出一個合格的數(shù)據(jù)集。
這其中,清洗規(guī)則的好壞、標注的準確性都會極大地影響數(shù)據(jù)集的質(zhì)量,進而影響模型的效果。
海天瑞聲人工智能基礎(chǔ)數(shù)據(jù)創(chuàng)新服務(wù)基地 圖片來源:公司供圖
賀琳舉例說,海天瑞聲的大模型數(shù)據(jù)清洗率是5%,即清洗出來正確的數(shù)據(jù)僅僅占原數(shù)據(jù)的5%,這也印證了數(shù)據(jù)清洗環(huán)節(jié)的重要性。而標注的流程則主要是解決準確性和一致性問題,“我們通常說95%、98%或者是99%,不同的準確率對模型訓練的結(jié)果有非常大的影響”。
“數(shù)據(jù)的清洗和標注流程對于模型的質(zhì)量至關(guān)重要,它們可以提高數(shù)據(jù)的質(zhì)量和準確性,幫助模型更好地去學習,也為模型的評估奠定了一個很好的基礎(chǔ)。”賀琳表示。
賀琳認為,高質(zhì)量的數(shù)據(jù)包括了數(shù)據(jù)的豐富度,場景的豐富度,數(shù)據(jù)的準確性、一致性等,這都是衡量高質(zhì)量數(shù)據(jù)的標準。她也認同,高質(zhì)量數(shù)據(jù)的提供,需要高質(zhì)量人工的支持。
“有一些高質(zhì)量的數(shù)據(jù),尤其是行業(yè)數(shù)據(jù),確實需要更高層次的人去處理。因為我們也了解到,像OpenAI這樣的公司,它背后也有一個很強大的數(shù)據(jù)處理團隊,他們要把對行業(yè)的‘know-how’或者是更高層的一些知識灌輸?shù)綌?shù)據(jù)里。”她表示。
“有多少智能,就有多少人工。”這句話依舊得到大部分人的認同。
在海天瑞聲這家“燃料”制造商,優(yōu)質(zhì)“燃料”的誕生,同樣需要最了解“火箭”的人來把控。
賀琳介紹,海天瑞聲的管理層除擁有比較好的學術(shù)背景外,也都有在外企或大廠等機構(gòu)的工作、管理經(jīng)驗。“他們以前是數(shù)據(jù)的使用者,加入公司以后,他們非常知道數(shù)據(jù)的使用者需要什么樣的數(shù)據(jù),這可以讓他們更快速地對市場有預(yù)判,也會更好地跟業(yè)界交流。”
她同時坦言,為不同行業(yè)提供的數(shù)據(jù),需要具備不同行業(yè)專業(yè)知識的人來處理。“至少在初期包括規(guī)則探討、打磨標簽、尺度和標準的把握階段需要有專業(yè)的人,但把規(guī)則定下后,可能通過一些訓練,讓基礎(chǔ)的人員能具備這樣的訓練能力。”
但是,在賀琳看來,“有多少智能就有多少人工”是一個誤解。“確實,這個行業(yè)有很多的人力,但人力是在技術(shù)的支撐下做這些事,沒有技術(shù)支撐,可能人力需要現(xiàn)在的10倍都不止。所以,我們這種綜合性的數(shù)據(jù)服務(wù)商一直都在追求用更自動、更智能的方式來完成數(shù)據(jù)的任務(wù),不斷解放人力。”
圖片來源:公司供圖
賀琳希望,能一步步減少人工對人工智能的參與,大模型的浪潮,正在加速實現(xiàn)這個目標。“讓計算機自動處理數(shù)據(jù),永遠都是我們的追求。”
據(jù)她介紹,公司也在探討未來的兩大工作方向,一個是打造一批針對通用領(lǐng)域、垂直領(lǐng)域,且具備單模態(tài)和多模態(tài)屬性的、供給大模型使用的數(shù)據(jù)集產(chǎn)品。另外,海天瑞聲也在計劃啟動數(shù)據(jù)生產(chǎn)垂直大模型的研發(fā)項目,希望用大模型技術(shù)來支撐數(shù)據(jù)的生產(chǎn)。“大家都說大模型將給眾多垂直行業(yè)帶來重大積極影響,其實數(shù)據(jù)處理本身也是一個垂直行業(yè),我們希望用大模型的能力來更自動化地把數(shù)據(jù)處理這件事情做好。”
“人工智能的背后是人工”也是有可能發(fā)生改變的。“現(xiàn)在背后依然確實需要很多的人工,但是我們一直在盡量想辦法減少人工。包括加入很多算法,提高對數(shù)據(jù)做預(yù)標注的準確率,準確率越高,人工參與的程度越低。”
但賀琳也坦言,這件事并不容易。“其實,如果真的把這個事都做成了,人工智能就完成了。因為不需要人的介入,相當于它處理的東西都跟人想的是一樣的。”但另一方面,當技術(shù)達到一定突破后,倫理、法規(guī)、安全等問題就會出現(xiàn),如何解決這些問題,也是今后整個人工智能行業(yè)面臨的難題。
每一次的火箭升空,都需要大量的燃料助推。
賀琳認為,當人工智能技術(shù)迎來新的變革時,對數(shù)據(jù)提供商來說就是一次契機。“我覺得可能也是根據(jù)一些需求,比如像蘋果手機的siri出來以后,大家就會認為在語音上有一些突破,這些數(shù)據(jù)的需求就會暴增。”
賀琳覺得,在整個人工智能行業(yè),數(shù)據(jù)就像人類學習知識時使用的教科書,“你的教科書越全面,信息越準確,學習的結(jié)果就會越好,其實機器也是一樣的”。她認為,數(shù)據(jù)集本質(zhì)上就是人類把自己對大千世界、萬事萬物的一些認知和判斷方法加載到數(shù)據(jù)上,然后讓機器去學習,使機器得出來的對事物的判斷結(jié)果更加趨近于人類。在她看來,這就是數(shù)據(jù)公司的價值。
而在大模型的熱潮之下,多模態(tài)的能力成為一個關(guān)鍵詞。賀琳表示,多模態(tài)數(shù)據(jù)是未來的一個方向。“多模態(tài)的數(shù)據(jù)里蘊含了更多更豐富的信息,對機器做判斷也會提供更多的信息來源,但多模態(tài)的數(shù)據(jù)(獲?。┑碾y度也非常大。”
她進一步介紹,首先,多模態(tài)數(shù)據(jù)要求的量很大,合規(guī)取得這些數(shù)據(jù)的難度就會更大;其次,多模態(tài)數(shù)據(jù)采集的設(shè)備也非常昂貴,對數(shù)據(jù)公司的財務(wù)能力是一種考量。此外,多模態(tài)數(shù)據(jù)對齊的問題、對齊的標準等,都是多模態(tài)數(shù)據(jù)的難點。
圖片來源:公司官網(wǎng)
賀琳認同一點,多模態(tài)能力會導致數(shù)據(jù)公司的入門門檻提高。“包括我們可能還要去做一些數(shù)據(jù)生成技術(shù),用我們的一些單一形態(tài)的數(shù)據(jù)來合成多模態(tài)的數(shù)據(jù),這都要求公司有更高維度的研發(fā)能力。”
目前,賀琳依舊認為,數(shù)據(jù)這個方向是海天瑞聲未來的定位,因為這個領(lǐng)域要做的事情太多了。“隨著技術(shù)的發(fā)展進入千行百業(yè),每一個行業(yè)都需要認真地去了解這個行業(yè)的‘know-how’是什么、如何解決這個行業(yè)的一些關(guān)鍵痛點。那么多行業(yè)呢,我們有足夠大的空間去拓展。”
而深入行業(yè),則需要公司本身有一定的研發(fā)能力,同時,在進入行業(yè)時,需要有行業(yè)專家的參與,通過真實的項目打磨,進而逐漸積累。“這不是個一蹴而就的事情,需要一個長期持續(xù)的過程。”她表示。
賀琳相信,通用人工智能終將有一天會實現(xiàn),但這也需要一個過程,即便技術(shù)達到了,還有倫理的問題、安全的問題、合規(guī)的問題。這些都解決了之后,如何解決行業(yè)的問題,也有很長的一段路要走。
而在這條路上,她認為,數(shù)據(jù)公司將會扮演越來越重要的角色。在這個過程中,算法可能會相對趨于穩(wěn)定,但仍需大量的、類型迥異的數(shù)據(jù)對算法進行訓練,才能解決行業(yè)的問題。
如需轉(zhuǎn)載請與《每日經(jīng)濟新聞》報社聯(lián)系。
未經(jīng)《每日經(jīng)濟新聞》報社授權(quán),嚴禁轉(zhuǎn)載或鏡像,違者必究。
讀者熱線:4008890008
特別提醒:如果我們使用了您的圖片,請作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站,可聯(lián)系我們要求撤下您的作品。
歡迎關(guān)注每日經(jīng)濟新聞APP