每日經濟新聞 2024-06-27 11:34:31
每經記者 王帆 每經編輯 文多
6月26日,《每日經濟新聞》記者獲悉,新一代實時語音編碼行業(yè)標準AVS3P10即將正式發(fā)布。這是一項基于AI神經網絡等技術的全新行業(yè)標準,解決的是弱網環(huán)境下的語音通信質量問題。該標準由騰訊提議啟動、推進和維護,經AVS(數字音視頻編解碼技術標準工作組)多家成員單位共同貢獻。
過往的音頻傳輸場景中,在有限的帶寬條件下,想要將聲音高質量傳遞到接收方,關鍵在于壓縮原始數據、去除冗余信息的語音編碼技術。然而,基于EVS、OPUS等現有主流音頻編解碼標準,當碼率降低到10kbps以下時,語音質量下降明顯,影響用戶體驗。這也造成了在電梯、地庫、隧道等弱網環(huán)境下實時語音通話不暢的難題。
而本次制定的新標準AVS3P10,解決上述痛點的技術路徑是:首先通過建立語音信號處理和深度神經網絡,捕捉音頻的核心特征,實現大幅度壓縮、降低傳輸的數據量;再借助深度學習網絡,重建語音信號,恢復出高質量的聲音。在保持高清音質的同時,大幅降低了音頻傳輸的帶寬需求,讓用戶在各種場景下都能享受到既清晰又省流量的音頻體驗。
《每日經濟新聞》記者注意到,AI技術此前在實時語音傳輸領域已有語音增強、回聲消除、降噪、變聲、語音識別與合成等研究和應用。例如,字節(jié)跳動火山引擎流媒體音頻團隊曾發(fā)布包括語音增強、基于AI編解碼、回聲消除、無監(jiān)督自適應語音增強等方面的相關研究成果;阿里巴巴釘釘蜂鳴鳥音頻實驗室提出了一種基于頻—時調制譜的改進型窄帶濾波網絡(STSubNet)和“一模型,多任務”方案,聯合消除實時語音通信中常見的三種干擾音(回聲,噪音和混響)。
而騰訊上述標準和技術的發(fā)布,意味著AI在實時語音傳輸新增了一個應用場景和技術路徑。
值得一提的是,這一標準以騰訊首款神經網絡語音編解碼器Penguins為原型,該技術在2021年起逐步落地到騰訊會議車載模式、弱網模式、QQ語音通話等多個產品場景中。那么,為何騰訊會選擇推動一項自研技術成為行業(yè)標準,并把關鍵核心技術開放出來?
在6月26日的媒體群訪中,騰訊云副總裁、騰訊會議天籟實驗室主任商世東回應記者稱:“這一標準的制定和技術的開放,能推動整個實時語音通信行業(yè)為用戶提供更好的技術和產品。”商世東認為,騰訊不怕開放技術,因為技術在具體產品里面怎么使用,以及怎么做到效果和體驗最好,取決于很多技術開發(fā)細節(jié),這不是拿到開放的源代碼就能輕易做到的。“對于同行來說,他們看到這個技術的領先性后,最快在市場上推出產品的方法就是和騰訊一起合作,實現一加一大于二的效果。”他表示。
騰訊標準化高級工程師張亞軍認為:“標準化是行業(yè)達成共識的形式和方法,也能解決產品設備互聯互通的問題。制定標準的過程需要產業(yè)鏈上的各個廠商都加入討論,比如芯片廠商、終端廠商、互聯網APP廠商。并不是說某一家企業(yè)技術足夠厲害,它就可以吃得下整個‘蛋糕’。標準化可以讓大家一起做大‘蛋糕’,一起來推動我們行業(yè)的發(fā)展。”他還表示,另一方面,雖然標準是開放的,但標準里的技術方案是有相應的專利和IP保護的,因此開放對于騰訊來說并沒有太大顧慮。
封面圖片來源:視覺中國
如需轉載請與《每日經濟新聞》報社聯系。
未經《每日經濟新聞》報社授權,嚴禁轉載或鏡像,違者必究。
讀者熱線:4008890008
特別提醒:如果我們使用了您的圖片,請作者與本站聯系索取稿酬。如您不希望作品出現在本站,可聯系我們要求撤下您的作品。
歡迎關注每日經濟新聞APP