每日經(jīng)濟新聞 2023-07-05 18:45:30
◎“如果你看好AI,那你就可以看好向量數(shù)據(jù)庫?!?月4日,騰訊云正式發(fā)布AI原生(AI Native)向量數(shù)據(jù)庫,騰訊云數(shù)據(jù)庫副總經(jīng)理羅云在會后接受采訪如是表示。
◎《每日經(jīng)濟新聞》記者了解到,目前騰訊云的向量數(shù)據(jù)庫主要在騰訊內(nèi)部產(chǎn)品進行探索應用。經(jīng)過騰訊內(nèi)部海量場景的實踐,數(shù)據(jù)接入AI的效率也比傳統(tǒng)方案提升10倍,運行穩(wěn)定性高達99.99%。不過,從騰訊內(nèi)部探索,到外部實際的商業(yè)化落地,尚需時間。
每經(jīng)記者 王帆 每經(jīng)編輯 楊夏
ChatGPT引發(fā)的大模型浪潮,催生了數(shù)據(jù)存儲、檢索需求。傳統(tǒng)關(guān)系型數(shù)據(jù)庫難以處理大規(guī)模數(shù)據(jù)、低時延高并發(fā)查詢、模糊匹配等需求,但向量數(shù)據(jù)庫能夠有效解決這些痛點,因此受到業(yè)界青睞。今年5月前后的一個月內(nèi),全球有4家向量數(shù)據(jù)庫創(chuàng)業(yè)公司獲得新融資,國內(nèi)的相關(guān)概念股股價紛紛上漲。
“如果你看好AI,那你就可以看好向量數(shù)據(jù)庫。”7月4日,騰訊云正式發(fā)布AI原生(AI Native)向量數(shù)據(jù)庫,騰訊云數(shù)據(jù)庫副總經(jīng)理羅云在會后接受采訪如是表示。羅云認為,向量數(shù)據(jù)庫是大模型和企業(yè)數(shù)據(jù)之間的橋梁,可以打破大模型訓練的時空限制,能夠被廣泛應用于大模型的訓練、推理和知識庫補充等場景。
《每日經(jīng)濟新聞》記者了解到,目前騰訊云的向量數(shù)據(jù)庫主要在騰訊內(nèi)部產(chǎn)品進行探索應用。經(jīng)過騰訊內(nèi)部海量場景的實踐,數(shù)據(jù)接入AI的效率也比傳統(tǒng)方案提升10倍,運行穩(wěn)定性高達99.99%。不過,從騰訊內(nèi)部探索,到外部實際的商業(yè)化落地,尚需時間。
圖片來源:視覺中國(圖文無關(guān))
向量數(shù)據(jù)庫專門用于存儲和查詢向量數(shù)據(jù),業(yè)界稱之為大模型的“海馬體”。
西南證券今年6月發(fā)布的研報指出,與傳統(tǒng)數(shù)據(jù)庫相比,向量數(shù)據(jù)庫使用向量化計算,能夠高速地處理大規(guī)模的復雜數(shù)據(jù);并可以處理高維數(shù)據(jù),例如圖像、音頻和視頻等,解決傳統(tǒng)關(guān)系型數(shù)據(jù)庫中的痛點;同時,向量數(shù)據(jù)庫支持復雜的查詢操作,也可以輕松地擴展到多個節(jié)點,以處理更大規(guī)模的數(shù)據(jù)。
7月4日,騰訊云正式發(fā)布AI原生(AI Native)向量數(shù)據(jù)庫Tencent Cloud VectorDB。在發(fā)布會上,騰訊方面表示,騰訊云向量數(shù)據(jù)庫最高支持10億級向量檢索規(guī)模,延遲控制在毫秒級,相比傳統(tǒng)單機插件式數(shù)據(jù)庫檢索規(guī)模提升10倍,同時具備百萬級每秒查詢(QPS)的峰值能力、向量數(shù)據(jù)庫能解決大模型預訓練成本高、沒有“長期記憶”、知識更新不足、提示詞工程復雜等問題,突破大模型在時間和空間上的限制,加速大模型落地行業(yè)場景。
發(fā)布會后,騰訊云數(shù)據(jù)庫副總經(jīng)理羅云在接受包括《每日經(jīng)濟新聞》記者在內(nèi)的媒體采訪時表示:“模型的訓練有時間和空間兩個限制。在時間上,訓練一次大模型可能耗時數(shù)月,耗費上千萬美金,成本高昂,但(由于預訓練的模式)很難把最新的數(shù)據(jù)灌注到大模型里,而客戶有時需要使用最新的數(shù)據(jù);在空間上,客戶有很多私域的數(shù)據(jù),(出于對安全的顧慮)客戶往往不愿意放在公開的場合讓大模型進行訓練,甚至連微調(diào)都不愿意把數(shù)據(jù)給到大模型的廠商。向量數(shù)據(jù)庫則很好地打破了這兩個限制。”
統(tǒng)計顯示,將騰訊云向量數(shù)據(jù)庫用于大模型預訓練數(shù)據(jù)的分類、去重和清洗相比傳統(tǒng)方式可以實現(xiàn)10倍效率的提升,如果將向量數(shù)據(jù)庫作為外部知識庫用于模型推理,則可以將成本降低2-4個數(shù)量級。
騰訊云推出向量數(shù)據(jù)庫的背后,是大模型訓練對數(shù)據(jù)的強大需求。羅云表示:“隨著大模型的成熟,未來我們可能不再需要雇傭那么多資深的軟硬件工程師,企業(yè)或許能夠更好地享受到大模型抹平技術(shù)差異帶來的紅利。因此,我們認為企業(yè)和企業(yè)之間在未來很長的一段時間的競爭會在數(shù)據(jù)上,誰能夠更好地利用數(shù)據(jù),誰能夠更好地把數(shù)據(jù)沉淀到自己的工程里面,更好地讓數(shù)據(jù)接入到大模型和整個AI體系,誰可能就會贏在將來。”
今年5月前后的一個月內(nèi),全球有4家向量數(shù)據(jù)庫創(chuàng)業(yè)公司獲得新融資,其中,Pinecone完成1億美元B輪融資,WeaviateBV獲得5000萬美元B輪融資,Chroma獲得1800萬美元種子輪融資,Qdrant獲750萬美元種子融資。在國內(nèi)A股市場,今年3月以來,云創(chuàng)數(shù)據(jù)(BJ835305,股價18.84元,市值25億元)、星環(huán)科技(SH688031,股價139.76元,市值169億元)、拓爾思(300229.SZ,股價25.79元,市值205.11億元)等多個向量數(shù)據(jù)庫概念股迎來股價上漲。
“很多客戶和我們提需求,基本上每天不止1到2個客戶前來咨詢向量數(shù)據(jù)庫什么時候能夠給他們使用。整體來講,大家的關(guān)注度,對向量數(shù)據(jù)庫需求的迫切度都很高。”羅云說道。
一邊是概念火熱和需求高漲,一邊是商業(yè)化進程有待成熟。西南證券研報指出,目前整個向量數(shù)據(jù)庫的賽道仍處于培育階段,受AI大模型熱潮催化,向量數(shù)據(jù)庫剛剛引起國內(nèi)市場的關(guān)注,目前主要使用者是互聯(lián)網(wǎng)巨頭公司。賽道目前處于群雄并起的階段,從融資、技術(shù)的角度上來講,目前尚未有寡頭角色出現(xiàn)。
而對于騰訊而言,騰訊云向量數(shù)據(jù)庫目前已在騰訊內(nèi)部產(chǎn)品進行探索應用,如騰訊視頻、QQ瀏覽器、QQ音樂等30多款國民級產(chǎn)品。以騰訊視頻的應用為例,視頻庫中的圖片、音頻、標題文本等內(nèi)容使用騰訊云向量數(shù)據(jù)庫,月均完成的檢索和計算量高達200億次,有效滿足了版權(quán)保護、原創(chuàng)識別、相似性檢索等場景需求。此外,使用騰訊云向量數(shù)據(jù)庫后,QQ音樂人均聽歌時長提升3.2%、騰訊視頻有效曝光人均時長提升1.74%、QQ瀏覽器成本降低37.9%。
“現(xiàn)在向量數(shù)據(jù)庫是跟著AI的浪潮來走,我們的判斷是向量數(shù)據(jù)庫本身能力已經(jīng)比較能夠適應客戶的訴求,但大家對于怎么去用好AI、國內(nèi)大模型發(fā)展的時間點這些都還需要一個時間周期,這是外部的市場環(huán)境導致的。隨著AI進一步滲透到各行各業(yè),我相信向量數(shù)據(jù)庫的發(fā)展會來得很快了。”羅云最后表示。
封面圖片來源:視覺中國-VCG41N1369014355
如需轉(zhuǎn)載請與《每日經(jīng)濟新聞》報社聯(lián)系。
未經(jīng)《每日經(jīng)濟新聞》報社授權(quán),嚴禁轉(zhuǎn)載或鏡像,違者必究。
讀者熱線:4008890008
特別提醒:如果我們使用了您的圖片,請作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站,可聯(lián)系我們要求撤下您的作品。
歡迎關(guān)注每日經(jīng)濟新聞APP