每日經(jīng)濟(jì)新聞 2024-05-21 14:22:24
每經(jīng)編輯 杜宇 每經(jīng)實(shí)習(xí)編輯 宋欣悅
5月21日,著名影星斯嘉麗·約翰遜(Scarlett Johansson)指控OpenAI的ChatGPT,非法使用其聲音并要求下架,表示對(duì)OpenAI的行為感到“震驚”和“憤怒”。對(duì)此,OpenAI回應(yīng)稱,將暫停使用“Sky”模式的聲音,并詳細(xì)介紹了語音選擇的創(chuàng)作流程,強(qiáng)調(diào)所有配音均來自專業(yè)演員。
此前,OpenAI推出新旗艦?zāi)P虶PT-4o,該模型在保留了之前的五種語音模式的基礎(chǔ)上,大大提升了圖像和音頻理解方面的能力,能夠進(jìn)行實(shí)時(shí)語音通信,可以識(shí)別音調(diào)、說話的人和背景噪音,甚至可以輸出笑聲、歌唱聲和表達(dá)情感。
圖片來源:X
5月21日,斯嘉麗·約翰遜在社交平臺(tái)發(fā)長(zhǎng)文指控OpenAI非法使用她的聲音,要求下架“Sky”模式。她表示,這種行為不僅侵犯了她的權(quán)利,還引發(fā)了公眾對(duì)AI技術(shù)濫用的擔(dān)憂。
斯嘉麗在其長(zhǎng)文中透露,早在2023年9月,OpenAI曾聯(lián)系她,希望她為ChatGPT的語音模式配音,但因個(gè)人原因她拒絕了這個(gè)邀請(qǐng)。就在產(chǎn)品發(fā)布會(huì)前兩天,OpenAI再次嘗試說服她配音,依舊遭到拒絕。然而,斯嘉麗在最終發(fā)布的產(chǎn)品中發(fā)現(xiàn)“Sky”模式的聲音與她本人非常相似。她表示,自己聽到演示后,感到震驚、憤怒和難以置信,無法相信OpenAI竟會(huì)使用一個(gè)如此像她的聲音,連她的親密朋友和新聞媒體都分辨不出Sky和她本人聲音的差別。
圖片來源:X
此外,斯嘉麗提到,OpenAI首席執(zhí)行官薩姆·阿爾特曼(Sam Altman)在GPT-4o發(fā)布時(shí),在社交平臺(tái)上只發(fā)了一個(gè)詞“Her”,不禁讓人聯(lián)想到,斯嘉麗在2013年科幻AI電影《Her》中為女主AI配音的經(jīng)歷,是否在暗示這種相似是故意為之?
圖片來源:X
斯嘉麗強(qiáng)調(diào),“在這個(gè)我們都在努力應(yīng)對(duì)深度偽造,保護(hù)自身形象、作品和身份的時(shí)代,我認(rèn)為這些問題需要得到絕對(duì)的明確。我期待通過透明度和立法來解決這些問題,以確保個(gè)人權(quán)利得到保護(hù)。”
面對(duì)指控,OpenAI迅速做出反應(yīng),宣布暫停使用“Sky”模式的聲音。他們?cè)诠倬W(wǎng)上詳細(xì)介紹了ChatGPT語音模式的創(chuàng)作流程,強(qiáng)調(diào)所有聲音都是從400多名專業(yè)配音演員中挑選出來的,并經(jīng)過嚴(yán)格的審核。
OpenAI的官方聲明中提到:“我們收到了關(guān)于ChatGPT選取聲音方式的一些質(zhì)疑,尤其是針對(duì)“Sky”。目前,我們正積極采取措施,暫停“Sky”的使用,以解決這些問題。”
此前,ChatGPT的語音模式包括Breeze、Cove、Ember、Juniper和Sky五種聲音。這些聲音是經(jīng)過精心挑選,以滿足用戶的多樣化需求。每種聲音都擁有獨(dú)特的情感和聲音特質(zhì),為用戶提供了更加豐富的交互體驗(yàn)。
而最新發(fā)布的GPT-4o版本不僅保留了之前的五種語音模式,還進(jìn)一步提升了語音交互的自然度和情感表達(dá)能力。GPT-4o在語音識(shí)別和生成方面進(jìn)行了多項(xiàng)改進(jìn),使得AI助手更加智能和人性化。
據(jù)介紹,新模型使ChatGPT能夠處理50種不同的語言,同時(shí)提高了速度和質(zhì)量。
GPT-4o是邁向更自然人機(jī)交互的一步,它可以接受文本、音頻和圖像三者組合作為輸入,并生成文本、音頻和圖像的任意組合輸出,“與現(xiàn)有模型相比,GPT-4o在圖像和音頻理解方面尤其出色。”
在GPT-4o之前,用戶使用語音模式與ChatGPT對(duì)話時(shí),GPT-3.5的平均延遲為2.8秒,GPT-4為5.4秒,音頻在輸入時(shí)還會(huì)由于處理方式丟失大量信息,讓GPT-4無法直接觀察音調(diào)、說話的人和背景噪音,也無法輸出笑聲、歌唱聲和表達(dá)情感。
與之相比,GPT-4o可以在232毫秒內(nèi)對(duì)音頻輸入做出反應(yīng),與人類在對(duì)話中的反應(yīng)時(shí)間相近。在錄播視頻中,兩位高管做出了演示:機(jī)器人能夠從急促的喘氣聲中理解“緊張”的含義,并且指導(dǎo)他進(jìn)行深呼吸,還可以根據(jù)用戶要求變換語調(diào)。
圖片來源:截圖于Youtube
圖像輸入方面,演示視頻顯示,OpenAI高管啟動(dòng)攝像頭要求實(shí)時(shí)完成一個(gè)一元方程題,ChatGPT輕松完成了任務(wù);另外,高管還展示了ChatGPT桌面版對(duì)代碼和電腦桌面(一張氣溫圖表)進(jìn)行實(shí)時(shí)解讀的能力。
圖片來源:截圖于Youtube
OpenAI稱,“我們跨文本、視覺和音頻端到端地訓(xùn)練了一個(gè)新模型,這意味著所有輸入和輸出都由同一神經(jīng)網(wǎng)絡(luò)處理。由于GPT-4o是我們第一個(gè)結(jié)合所有這些模式的模型,因此我們?nèi)匀恢皇菧\嘗輒止地探索該模型的功能及其局限性。”
如需轉(zhuǎn)載請(qǐng)與《每日經(jīng)濟(jì)新聞》報(bào)社聯(lián)系。
未經(jīng)《每日經(jīng)濟(jì)新聞》報(bào)社授權(quán),嚴(yán)禁轉(zhuǎn)載或鏡像,違者必究。
讀者熱線:4008890008
特別提醒:如果我們使用了您的圖片,請(qǐng)作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站,可聯(lián)系我們要求撤下您的作品。
歡迎關(guān)注每日經(jīng)濟(jì)新聞APP