每日經(jīng)濟(jì)新聞 2024-06-21 19:06:33
每經(jīng)編輯 張錦河
開欄語:《AIGC行業(yè)周報》梳理AIGC行業(yè)一周內(nèi)發(fā)生的重要動態(tài),產(chǎn)品發(fā)布和業(yè)內(nèi)大咖的最新觀點。
圖片來源:每經(jīng)制圖
(一)前OpenAI聯(lián)合創(chuàng)始人Ilya Sutskever成立新公司
OpenAI聯(lián)合創(chuàng)始人Ilya Sutskever宣布成立Safe Superintelligence Inc.(SSI),專注于開發(fā)安全超級智能。
SSI致力于實現(xiàn)“核能級別”的安全超級智能,不受短期商業(yè)壓力影響,專注于安全性和AI能力的提升。
擁有強(qiáng)大的資金、算力和人才支持,包括與Eric Schmidt的合作和Daniel Gross的天使投資經(jīng)驗,以及在硅谷和以色列特拉維夫的人才網(wǎng)絡(luò)。
(二)2024,有分析稱英偉達(dá)要花68億美元買芯片
預(yù)計2024年全球HBM芯片總產(chǎn)能約為5600萬顆,英偉達(dá)的需求量預(yù)計為2700萬顆,基于單顆250美元的成本測算,意味著英偉達(dá)全年采購HBM芯片的費用可以預(yù)測到68億美元,遠(yuǎn)超此前媒體披露的13億美元預(yù)算。
CoWoS封裝技術(shù)是GPU-HBM芯片的關(guān)鍵,臺積電和Amkor為主要供應(yīng)商。
(一)ShareGPT4Video系列發(fā)布
由中國科學(xué)技術(shù)大學(xué)、北京大學(xué)等研究人員推出的ShareGPT4Video系列,包含4萬條高質(zhì)量視頻-字幕數(shù)據(jù),旨在提升視頻理解和生成能力。
通過差分滑窗視頻描述策略,創(chuàng)建了能夠為任意視頻生成詳細(xì)描述的模型,有助于提高視頻語言模型的性能。
數(shù)據(jù)集在多個長視頻理解基準(zhǔn)上帶來性能增益,同時在視頻生成任務(wù)中,使用該數(shù)據(jù)集訓(xùn)練的模型展現(xiàn)出更好的鏡頭和語義控制能力。
(二)AI視頻巨頭Runway深夜發(fā)布Gen-3
AI視頻制作公司Runway推出了新一代視頻生成模型Gen-3 Alpha,其在細(xì)節(jié)、一致性和動作表現(xiàn)上進(jìn)行了顯著改進(jìn),達(dá)到電影級畫質(zhì)。
Gen-3 Alpha支持文本到視頻、圖像到視頻等多種功能,被認(rèn)為將挑戰(zhàn)現(xiàn)有的AI視頻生成技術(shù),包括Sora。
Runway計劃提供定制版本,并宣布了新的安全功能,Gen-3 Alpha即將向付費訂閱者開放。
(三)開源版Sora:單鏡頭16秒720p高清視頻一鍵生成
潞晨團(tuán)隊Open-Sora項目在720p高清視頻質(zhì)量和生成時長上取得顯著進(jìn)展,支持一鍵生成16秒的任意風(fēng)格高質(zhì)量視頻,并且宣布全部開源。
引入視頻壓縮網(wǎng)絡(luò)和優(yōu)化的擴(kuò)散模型算法,發(fā)布了1.1B的擴(kuò)散生成模型,實現(xiàn)了成本與生成質(zhì)量的平衡,提供了訓(xùn)練和推理的高效解決方案。
Open-Sora的開源為視頻內(nèi)容創(chuàng)作者提供了豐富的創(chuàng)作工具,使用戶從消費者轉(zhuǎn)變?yōu)閯?chuàng)造者。
(四)Google DeepMind 最新研究:為AI視頻生成創(chuàng)建逼真的背景聲音
DeepMind開發(fā)了V2A技術(shù),將視頻像素與自然語言文本相結(jié)合,生成與視頻動作同步的逼真音效。
V2A技術(shù)能夠為無聲視頻添加相應(yīng)的背景聲音或?qū)υ挘嵘曨l的真實感和用戶體驗,同時支持對生成音效的創(chuàng)意控制。
V2A基于擴(kuò)散模型,通過編碼視頻輸入、迭代改進(jìn)音頻并解碼生成波形實現(xiàn)同步生成,但仍在改進(jìn)中,如提高音頻質(zhì)量和唇語同步的準(zhǔn)確性。
(五)ChatGPT最新定價體系
OpenAI的ChatGPT提供多種訂閱計劃,滿足從個人到企業(yè)的各類需求,包括免費版、ChatGPT Plus、團(tuán)隊版、企業(yè)版、教育版本和非營利組織版本。
免費版用戶可訪問GPT-4o模型和GPT Store,但有日容量限制;ChatGPT Plus提供更高容量和高級數(shù)據(jù)分析功能;團(tuán)隊版和企業(yè)版提供協(xié)作工具、定制應(yīng)用程序和增強(qiáng)的管理控制。
ChatGPT Edu專為教育機(jī)構(gòu)設(shè)計,提供額外的SCIM支持;非營利組織可獲得ChatGPT團(tuán)隊和企業(yè)版的折扣價格。
(六)DreamTech 推出全球首個原生 3D-DiT 大模型 Direct3D
通過3D Diffusion Transformer技術(shù),實現(xiàn)高質(zhì)量3D內(nèi)容生成。
解決了傳統(tǒng)2D-to-3D升維技術(shù)中的多個問題,如多頭多面、空腔、遮擋等,滿足商業(yè)應(yīng)用需求。
推出面向C端用戶產(chǎn)品,可將圖片/文字轉(zhuǎn)換為二次元3D人物形象,以及面向創(chuàng)作者的3D內(nèi)容創(chuàng)作平臺,大幅簡化3D模型獲取流程。
(七)英偉達(dá)開源Nemotron-4 340B模型
英偉達(dá)發(fā)布了一個包含3400億參數(shù)的開源模型家族,包括基礎(chǔ)模型、指令模型和獎勵模型,采用NVIDIA Open Model License Agreement,允許分布、修改和使用模型及其輸出。
模型訓(xùn)練使用了超過98%的合成數(shù)據(jù),展示了在生成合成數(shù)據(jù)方面的能力,有助于訓(xùn)練更小的語言模型,同時開源了合成數(shù)據(jù)生成流程。
Nemotron-4 340B性能在多個基準(zhǔn)測試中與GPT-4o等專有模型競爭,支持多種語言和編程語言,對商用友好的許可協(xié)議,可能對醫(yī)療、金融、制造業(yè)和零售業(yè)等行業(yè)產(chǎn)生重大影響。
(一)馬斯克最新專訪:我沒投資任何永生技術(shù),活太久會對社會產(chǎn)生負(fù)面影響
人工智能很快會改變一切,最早明年就能帶來顯著改變,五年內(nèi)將帶來激進(jìn)變化。
馬斯克認(rèn)為,人工智能將在搜索領(lǐng)域超越谷歌,提供更為精準(zhǔn)、個性化的搜索結(jié)果。
馬斯克透露,SpaceX的最終使命是將生命拓展至多個行星,以擴(kuò)展人類的意識邊界。
馬斯克的腦機(jī)接口公司Neuralink正研究大腦芯片,致力于創(chuàng)造人類與人工智能的共生關(guān)系。
馬斯克預(yù)測,將來每個人至少會擁有一個機(jī)器人。全球?qū)⒂?00億臺類似擎天柱的人形機(jī)器人。
(二)奧特曼談AI的機(jī)遇、挑戰(zhàn)與人類自我反思:中國將擁有獨特的大語言模型
認(rèn)為AI在提升生產(chǎn)力方面已顯現(xiàn)積極作用,但網(wǎng)絡(luò)安全等問題也隨之而來。
GPT-4o能覆蓋97%人群的母語,奧特曼承諾將持續(xù)改進(jìn),解決語言公平性問題。
面對AI治理的挑戰(zhàn),OpenAI成立安全委員會,奧特曼強(qiáng)調(diào)安全與效率并重。
奧特曼預(yù)測在眾多大語言模型,少數(shù)將會勝出;中國將會擁有自己獨特的大語言模型。
奧特曼認(rèn)為AI可能使人類更謙卑,促使我們重新認(rèn)識自身在宇宙中的位置。
來源:每經(jīng)科技提供
如需轉(zhuǎn)載請與《每日經(jīng)濟(jì)新聞》報社聯(lián)系。
未經(jīng)《每日經(jīng)濟(jì)新聞》報社授權(quán),嚴(yán)禁轉(zhuǎn)載或鏡像,違者必究。
讀者熱線:4008890008
特別提醒:如果我們使用了您的圖片,請作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站,可聯(lián)系我們要求撤下您的作品。
歡迎關(guān)注每日經(jīng)濟(jì)新聞APP