每日經(jīng)濟(jì)新聞 2023-07-28 13:03:12
每經(jīng)記者 可楊 每經(jīng)編輯 文多
7月27日,海天瑞聲宣布正式推出「中文千萬輪對話語料庫DOTS-NLP-216」。
海天瑞聲方面分析認(rèn)為,當(dāng)前在中文對話領(lǐng)域,公開的數(shù)據(jù)集往往量少、分布有偏、價(jià)格昂貴甚至不能商用。導(dǎo)致一些大模型在中文對話方面的能力,相比英文對話略遜一籌。尤其是在一些需要比較深的中文語言理解能力的對話場景,無論開源的還是閉源的大模型,都往往表現(xiàn)不佳。
海天瑞聲方面表示,真實(shí)場景采集,符合中文表達(dá)習(xí)慣的自然對話數(shù)據(jù),將為中文大語言模型(LLM)帶來新動(dòng)能。
據(jù)海天瑞聲方面介紹,此次發(fā)布的數(shù)據(jù)集,是一個(gè)符合中國人表達(dá)習(xí)慣的自然對話數(shù)據(jù)集,共計(jì)約1000萬輪,上億級token(標(biāo)記)。
此前,海天瑞聲發(fā)布公告稱,擬定增募資不超過7.9億元,其中,3.83億元計(jì)劃用于“AI大模型訓(xùn)練數(shù)據(jù)集建設(shè)項(xiàng)目”,4.07億元計(jì)劃投向“數(shù)據(jù)生產(chǎn)垂直大模型研發(fā)項(xiàng)目”。
海天瑞聲在公告中表示,在人工智能產(chǎn)業(yè)進(jìn)入以大模型為代表的新的發(fā)展時(shí)期,通過本次募投項(xiàng)目的實(shí)施,公司將建設(shè)一批適用性較強(qiáng)的大模型訓(xùn)練數(shù)據(jù)集,拓展?jié)撛诟咴鲩L價(jià)值的新型業(yè)務(wù)板塊,并藉此進(jìn)一步擴(kuò)大公司業(yè)務(wù)規(guī)模;同時(shí),以研發(fā)海天瑞聲數(shù)據(jù)生產(chǎn)垂直大模型為核心,升級海天瑞聲一體化技術(shù)支撐平臺,研發(fā)并引入多項(xiàng)新興技術(shù),促進(jìn)公司科技創(chuàng)新水平的不斷提升,鞏固公司的核心技術(shù)壁壘,構(gòu)建長期技術(shù)實(shí)力支撐,從而進(jìn)一步增強(qiáng)公司核心競爭力。
如需轉(zhuǎn)載請與《每日經(jīng)濟(jì)新聞》報(bào)社聯(lián)系。
未經(jīng)《每日經(jīng)濟(jì)新聞》報(bào)社授權(quán),嚴(yán)禁轉(zhuǎn)載或鏡像,違者必究。
讀者熱線:4008890008
特別提醒:如果我們使用了您的圖片,請作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站,可聯(lián)系我們要求撤下您的作品。
歡迎關(guān)注每日經(jīng)濟(jì)新聞APP