每日經(jīng)濟(jì)新聞 2024-05-15 12:41:16
每經(jīng)編輯 程鵬 杜宇
雖然被OpenAI搶在前面發(fā)布了重磅新品演示,但谷歌后發(fā)制人,做到了OpenAI還沒(méi)能做到的事,率先發(fā)布人工智能(AI)搜索引擎,捍衛(wèi)搜索領(lǐng)域的王者地位,同時(shí)對(duì)壘OpenAI新發(fā)布的旗艦?zāi)P虶PT-4o,以升級(jí)版的最強(qiáng)大AI模型Gemini迎戰(zhàn)。
從北京時(shí)間5月15日凌晨1點(diǎn)開(kāi)始,谷歌在山景城總部附近的海岸線(xiàn)圓形劇場(chǎng),召開(kāi)了長(zhǎng)達(dá)兩個(gè)小時(shí)的年度I/O開(kāi)發(fā)者大會(huì)Keynote演講。
與預(yù)期一致,谷歌的這場(chǎng)發(fā)布會(huì)基本都是在談AI、AI、AI、AI和AI。根據(jù)發(fā)布會(huì)最后的官方統(tǒng)計(jì),整場(chǎng)Keynote的演講稿里總共提了120次AI。
谷歌CEO Sundar Pichai表示,谷歌所有的工作都圍繞生成式AI模型Gemini來(lái)做,“我們希望每個(gè)人都能從Gemini所做的事中受益。”AI搜索正是Pichai提到的Gemini融入谷歌多種服務(wù)之一。
同時(shí)谷歌搜索也將具備多步驟推理能力,可以一次性處理帶有多個(gè)限制條件的長(zhǎng)問(wèn)題,并支持“拍視頻”搜索解決方案的新搜索形式。
另外以上下文窗口“長(zhǎng)”聞名的Gemini 1.5 Pro大模型,在今年晚些時(shí)候?qū)?huì)把100萬(wàn)Tokens的窗口,進(jìn)一步擴(kuò)大至200萬(wàn)Tokens,拓展同步處理多模態(tài)信息的邊界。而對(duì)于一些需要快速響應(yīng)的場(chǎng)景,谷歌也推出了Gemini 1.5 Flash模型。今年2月剛剛問(wèn)世的Gemma開(kāi)源模型,也將在下個(gè)月迎來(lái)參數(shù)量更大的Gemma 2。在多模態(tài)領(lǐng)域,谷歌也發(fā)布了文生圖工具Imagen 3、與Youtube&音樂(lè)家合作的“AI音樂(lè)沙盒”,以及最新的視頻生成模型Veo。而多模態(tài)Gemini Nano模型也將在今年晚些時(shí)候登陸Pixel手機(jī),這是在本地運(yùn)行的機(jī)載模型。
值得注意的是,谷歌的發(fā)布會(huì)上也有一些與昨日OpenAI發(fā)布會(huì)“雷同”的地方——實(shí)時(shí)AI助手。從今年夏天開(kāi)始,Gemini也將支持語(yǔ)音實(shí)時(shí)交互,同時(shí)今年晚些時(shí)候還將上線(xiàn)實(shí)時(shí)視頻交互。未來(lái)幾個(gè)月內(nèi),谷歌也將推出類(lèi)似于GPTs的自定義AI助手功能,叫做Gems,能夠與整套“谷歌全家桶”聯(lián)動(dòng)。
硬件方面,谷歌宣布了第六代TPU芯片Trillium,并透露能夠在明年初用上英偉達(dá)最新的Blackwell架構(gòu)GPU。另外,液冷、光纜等中國(guó)股民可能會(huì)感興趣的題材也在發(fā)布會(huì)上出現(xiàn)。
Gemini 1.5 Pro上下文窗口200萬(wàn)token?
全球最長(zhǎng)
谷歌稱(chēng),推出號(hào)稱(chēng)有史以來(lái)最強(qiáng)大AI模型Gemini Advanced三個(gè)月內(nèi)。從本周二起,谷歌在Gemini Advanced中加入新模型成員Gemini 1.5 Pro,稱(chēng)它擁有的上下文窗口在全球消費(fèi)類(lèi)聊天機(jī)器人中最長(zhǎng),窗口起始就有100萬(wàn)個(gè)token。Gemini 1.5 Pro將向150 多個(gè)國(guó)家地區(qū)的Gemini Advanced訂閱者提供,支持超過(guò)35 種語(yǔ)言。
Pichai稱(chēng),Gemini 1.5 Pro“提供了迄今為止所有基礎(chǔ)模型中最長(zhǎng)的上下文窗口。” 他介紹,Gemini 1.5 Pro將擁有200 萬(wàn)個(gè)token的上下文窗口,是當(dāng)前模型100萬(wàn)個(gè)token窗口的兩倍。
Gemini新語(yǔ)音對(duì)話(huà)功能Live定制版Gemini谷歌稱(chēng),今年夏季將擴(kuò)展 Gemini 的多模態(tài)功能,包括增加用語(yǔ)音進(jìn)行深入雙向?qū)υ?huà)的能力,該功能被稱(chēng)為 Live。通過(guò) Gemini Live,用戶(hù)可以與 Gemini 交談,并可以從各種自然的聲音中選擇它回應(yīng)的聲音。用戶(hù)甚至可以按照自己的節(jié)奏說(shuō)話(huà),或者在回答過(guò)程中打斷并澄清問(wèn)題,就像在任何人類(lèi)對(duì)話(huà)中一樣。
谷歌稱(chēng),今年夏季,將在Gemini Advanced 中添加新的旅行規(guī)劃功能。借助考慮時(shí)間和空間方面物流的先進(jìn)推理,Gemini將能夠創(chuàng)建個(gè)性化的行程,節(jié)省用戶(hù)的工作時(shí)間。
未來(lái)幾周,谷歌將在Gemini Advanced中添加新的數(shù)據(jù)分析功能。用戶(hù)只需上傳電子表格,Gemini 就可以分析數(shù)據(jù)、制作圖表,并更快地發(fā)掘見(jiàn)解。
谷歌將推出被稱(chēng)為Gem的Gemini的定制版本。Gemini Advanced 訂閱者將很快可以獲得更個(gè)性化的體驗(yàn),根據(jù)自己的需要?jiǎng)?chuàng)建Gemini,只需描述用戶(hù)希望 Gem 做什么以及希望它如何響應(yīng),就可以讓它化身健身伙伴、主廚幫手、編代碼的拍檔或者創(chuàng)意寫(xiě)作指南。
Project Astra回答手機(jī)所拍物問(wèn)題 安卓端側(cè)Gemini增加多模態(tài)功能谷歌官宣推出新的多模態(tài)AI項(xiàng)目Project Astra,它可以為用戶(hù)解釋智能手機(jī)拍到的東西。在谷歌展示的視頻中,只要將手機(jī)攝像頭對(duì)準(zhǔn)某個(gè)物體,Gemini就可以識(shí)別它,比如一個(gè)紅蘋(píng)果,還可以回答諸如鏡頭中什么東西是可以發(fā)聲的這種問(wèn)題。
谷歌稱(chēng),將很快為模型Gemini Nano添加多模式功能。這意味著,用戶(hù)的手機(jī)可以通過(guò)文本、圖像、聲音和口語(yǔ),按照用戶(hù)理解的方式理解世界。
谷歌稱(chēng),端側(cè)安卓系統(tǒng)手機(jī)版的Gemini Nano將更有幫助,更有上下文的意識(shí)。今年,安卓手機(jī)的用戶(hù)將可以將生成的圖像拖放到Google Messages 和 Gmail 中,并可以直接在手機(jī)上提出有關(guān)YouTube視頻和 PDF文件的問(wèn)題,得到解答。
谷歌稱(chēng),今年晚些時(shí)候,Gemini Nano的輔助功能TalkBack將增強(qiáng)。圖像描述將更加清晰和豐富,幫助弱視用戶(hù)和盲人用戶(hù)通過(guò)語(yǔ)音反饋,更好地指示他們的手機(jī)。
全場(chǎng)發(fā)布會(huì)回顧
發(fā)布會(huì)開(kāi)始,Alphabet&谷歌CEO桑達(dá)爾·皮查伊登上舞臺(tái)。
皮查伊表示,現(xiàn)在已經(jīng)有超過(guò)150萬(wàn)開(kāi)發(fā)者正在使用谷歌的人工智能Gemini,今天將展示一系列有關(guān)搜索、圖片、工作套件、安卓系統(tǒng)等等與人工智能有關(guān)的案例。
皮查伊宣布,能夠總結(jié)谷歌搜索引擎結(jié)果的“AI概覽”(AI Overviews)功能,將于本周在美國(guó)推出。
---基于Gemini支持,谷歌圖片(Google Photos)將支持用戶(hù)存儲(chǔ)圖片的AI搜索,例如“告訴我,我的車(chē)牌號(hào)碼是多少?”——這個(gè)名為Ask Photos的功能將于今年夏天推出。
皮查伊宣布,最新版本的Gemini 1.5 Pro(在多項(xiàng)核心功能方面均較最初發(fā)布版本有所提高)現(xiàn)在向全球所有開(kāi)發(fā)者開(kāi)放。從今天開(kāi)始,支持100萬(wàn)tokens上下文窗口的Gemini 1.5 Pro將在Gemini Advanced功能下向用戶(hù)開(kāi)放,支持35種語(yǔ)言。
谷歌同時(shí)面向開(kāi)發(fā)者推出支持200萬(wàn)tokens的Gemini 1.5 Pro模型的預(yù)覽,并表示最終的目標(biāo)將是“無(wú)限上下文”。
谷歌AI業(yè)務(wù)總負(fù)責(zé)人、DeepMind的首席執(zhí)行官杰米斯·哈薩比斯登臺(tái),宣布推出Gemini 1.5 Flash大模型。這個(gè)模型兼具速度與效率,和多模態(tài)推理能力,以及長(zhǎng)達(dá)100萬(wàn)tokens的上下文窗口。開(kāi)發(fā)者將能夠申請(qǐng)?bào)w驗(yàn)200萬(wàn)tokens的上下文窗口的Gemini 1.5 Flash。
谷歌展示“未來(lái)的人工智能助手”——名為“Astra”的項(xiàng)目。哈薩比斯表示,這樣的AI助手需要像人類(lèi)一樣理解這個(gè)動(dòng)態(tài)且復(fù)雜的世界。需要記得住它看到的東西,這樣才能理解對(duì)話(huà)并付諸于行動(dòng)。同時(shí)它也得能積極主動(dòng)接受教導(dǎo),以及自然、無(wú)延遲地進(jìn)行交流。在演示視頻中,谷歌的AI助手能夠通過(guò)攝像頭視頻,識(shí)別“什么東西能發(fā)出聲音”、“現(xiàn)在身處何地”等指令。
谷歌宣布了一系列與圖像、音樂(lè)、視頻有關(guān)的生成式AI工具。包括文生圖工具Imagen 3、與Youtube以及音樂(lè)家合作的“AI音樂(lè)沙盒”,以及最新的視頻生成模型Veo。
其中最受關(guān)注的視頻生成模型Veo,能夠根據(jù)文字、圖片和視頻的提示,生成高質(zhì)量1080p視頻。
哈薩比斯離場(chǎng),皮查伊重回舞臺(tái),發(fā)布第六代TPU芯片Trillium,較上一代芯片的算力表現(xiàn)翻4.7倍,云用戶(hù)從今年下半年開(kāi)始可以用上新芯片。同時(shí)谷歌云將在2025年初,用上英偉達(dá)的最新Blackwell架構(gòu)GPU。
皮查伊開(kāi)始介紹自家的AI超級(jí)計(jì)算機(jī),比起用戶(hù)自己買(mǎi)相同的硬件和芯片,谷歌的架構(gòu)能使得效能翻倍,其中有部分功勞來(lái)自于液冷系統(tǒng)。皮查伊表示,谷歌部署液冷系統(tǒng)的數(shù)據(jù)中心已經(jīng)達(dá)到1GW,而且還在不斷增長(zhǎng)中。
皮查伊表示,谷歌投資了200萬(wàn)英里的地面和海底光纖,比第二名的云服務(wù)商翻了十倍。液冷、光纜,應(yīng)該都是股民們會(huì)感興趣的東西。
谷歌搜索業(yè)務(wù)負(fù)責(zé)人Liz Reid開(kāi)始具體介紹AI Overviews功能。Reid表示,在進(jìn)行搜索時(shí),搜素引擎具備多步驟推理的能力,例如尋找一個(gè)瑜伽教室,同時(shí)展示新手優(yōu)惠報(bào)價(jià),和距離特定位置的步行時(shí)間。這個(gè)AI搜索引擎助手,還能介紹食譜、安排行程,以及接受視頻形式的提問(wèn)(例如視頻中的相機(jī)怎么使用)。
在辦公套件Workspace方面,谷歌將逐步推出總結(jié)、郵件Q&A,以及智能回復(fù)等功能。
谷歌Gemini總經(jīng)理Sissie Hsiao介紹了Gemini App的更新。與周一的OpenAI一樣,從今年夏天開(kāi)始,Gemini也將支持語(yǔ)音實(shí)時(shí)交互,同時(shí)今年晚些時(shí)候還將上線(xiàn)實(shí)時(shí)視頻交互功能。未來(lái)幾個(gè)月內(nèi),谷歌也將推出類(lèi)似于GPTs的自定義AI助手功能,叫做Gems。這個(gè)AI助手的亮點(diǎn),將是能與“谷歌全家桶”進(jìn)行交互。
Hsiao再次強(qiáng)調(diào)了Gemini的長(zhǎng)上下文窗口——能夠一次性處理整整1500頁(yè)的文件,或3萬(wàn)行代碼、1小時(shí)視頻。不同的載體也能混同一起提交給聊天機(jī)器人。她再次強(qiáng)調(diào),今年晚些時(shí)候上下文窗口將翻倍至200萬(wàn)Tokens。
安卓生態(tài)系統(tǒng)的負(fù)責(zé)人Sameer Samat登臺(tái),他將討論今年安卓系統(tǒng)實(shí)現(xiàn)的“三大突破”,分別是“畫(huà)圈圈搜索”、Gemini手機(jī)AI助手,第三是在手機(jī)本地運(yùn)行的AI。
谷歌表示,今年晚些時(shí)候,能夠在本地運(yùn)行的多模態(tài)Gemini Nano模型將登陸Pixel手機(jī),意味著手機(jī)將能通過(guò)文字、圖片、視頻、音頻,理解用戶(hù)的世界。舉例而言,在聽(tīng)到“幫你把錢(qián)轉(zhuǎn)到安全賬戶(hù)”這樣的詐騙電話(huà)時(shí),手機(jī)會(huì)自動(dòng)彈出詐騙警告。整個(gè)過(guò)程都是在本地運(yùn)行,不會(huì)引發(fā)隱私泄露。
谷歌披露大模型API的最新定價(jià),其中Gemini 1.5 Pro定價(jià)為7美元/100萬(wàn)Tokens,12.8K上下文窗口的版本定價(jià)為3.5美元/100萬(wàn)Tokens;而Gemini 1.5的起售價(jià)為0.35美元/100萬(wàn)Tokens。
對(duì)于在今年二月剛剛推出的輕量級(jí)開(kāi)源模型Gemma,谷歌宣布推出視頻語(yǔ)言模型PaliGemma,并將會(huì)在6月推出Gemma 2。相較于第一代模型只有20億和70億的參數(shù)量,第二代開(kāi)源Gemma的參數(shù)量能達(dá)到270億。
作為發(fā)布會(huì)最后的彩蛋,谷歌CEO皮查伊最后用Gemini總結(jié)了今天的發(fā)布會(huì)稿子里總共提了多少次AI——120次。當(dāng)然,這并不包括皮查伊問(wèn)完這個(gè)問(wèn)題后,又喚了幾遍AI。
截至當(dāng)?shù)貢r(shí)間5月14日收盤(pán),谷歌報(bào)171.93美元,漲幅0.6%,市值2.1萬(wàn)億美元。
免責(zé)聲明:本文內(nèi)容與數(shù)據(jù)僅供參考,不構(gòu)成投資建議,使用前請(qǐng)核實(shí)。據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。
編輯|程鵬?杜宇?杜恒峰
校對(duì)|何小桃
每日經(jīng)濟(jì)新聞綜合公開(kāi)資料
如需轉(zhuǎn)載請(qǐng)與《每日經(jīng)濟(jì)新聞》報(bào)社聯(lián)系。
未經(jīng)《每日經(jīng)濟(jì)新聞》報(bào)社授權(quán),嚴(yán)禁轉(zhuǎn)載或鏡像,違者必究。
讀者熱線(xiàn):4008890008
特別提醒:如果我們使用了您的圖片,請(qǐng)作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站,可聯(lián)系我們要求撤下您的作品。
歡迎關(guān)注每日經(jīng)濟(jì)新聞APP