鈦媒體 2024-02-22 10:32:19
就在剛剛,谷歌扔下“震撼彈”。
北京時(shí)間2月21日晚21點(diǎn),美國(guó)科技巨頭谷歌(Google)宣布推出全球性能最強(qiáng)大、輕量級(jí)的開(kāi)源模型系列Gemma,分為2B(20億參數(shù))和7B(70億)兩種尺寸版本,2B版本甚至可直接在筆記本電腦上運(yùn)行。
谷歌表示,Gemma采用與 Gemini 模型相同的研究和技術(shù),由Google DeepMind 和谷歌其他團(tuán)隊(duì)開(kāi)發(fā),專(zhuān)為負(fù)責(zé)任的 AI開(kāi)發(fā)而打造。谷歌聲稱(chēng),Gemma 模型18個(gè)語(yǔ)言理解、推理、數(shù)學(xué)等關(guān)鍵基準(zhǔn)測(cè)試中,有11個(gè)測(cè)試分?jǐn)?shù)超越了Meta Llama-2等更大參數(shù)的開(kāi)源模型。
平均分?jǐn)?shù)方面,Gemma -7B 的基準(zhǔn)測(cè)試平均分高達(dá)56.4,遠(yuǎn)超過(guò)Llama-13B(52.2)、Mistral-7B(54.0),成為目前全球最強(qiáng)大的開(kāi)源模型。
谷歌和Alphabet公司CEO 桑達(dá)爾·皮查伊(Sundar Pichai)表示,Gemma展示了強(qiáng)大的性能,從今天開(kāi)始,該模型將在全球范圍內(nèi)提供,并可在筆記本電腦、工作站或谷歌云上運(yùn)行。
Google DeepMind CEO Demis Hassabis表示,輕量開(kāi)源的Gemma是同類(lèi)尺寸中性能最佳的模型。
如今,谷歌不僅將對(duì)手瞄向OpenAI,而且打算占據(jù)一切,新模型將比扎克伯格的Llama-2“遙遙領(lǐng)先”。
圖片來(lái)源:每經(jīng)記者 鄭雨航 攝
自Gemini發(fā)布至今,谷歌持續(xù)在 AI 方面“狂飆”。
2023年12月,谷歌推出全球最強(qiáng)大、最通用的多模態(tài)通用大模型:Gemini,中文稱(chēng)“雙子座”,共包括三個(gè)不同尺寸版本:Ultra(超大杯)、Pro(大杯)和Nano(中杯),全面內(nèi)置最新、最強(qiáng)大的自研 AI 超算芯片Cloud TPU v5p。
谷歌表示,在六項(xiàng)基準(zhǔn)測(cè)試中,Gemini Pro性能表現(xiàn)優(yōu)于GPT-3.5;而在30項(xiàng)性能基準(zhǔn)測(cè)試中,Gemini Ultra超越了目前最強(qiáng)模型GPT-4,甚至在數(shù)學(xué)、物理、法律等57個(gè)領(lǐng)域測(cè)試中成為全球第一個(gè)超越人類(lèi)專(zhuān)家水平的 AI 模型。
如此強(qiáng)大的 AI 技術(shù),谷歌必然要持續(xù)推進(jìn)。
所以,谷歌不僅統(tǒng)一了 AI 人才和算力資源,而且全力投資Gemini。今年1月,谷歌宣布全球一項(xiàng)大模型基準(zhǔn)測(cè)試中Gemini超越GPT-4;2月,谷歌宣布對(duì)標(biāo)ChatGPT的 AI 聊天機(jī)器人平臺(tái)Google Bard更名為Gemini,并推出安卓版本的獨(dú)立App,以及發(fā)布史上性能和功能最強(qiáng)大的Gemini Ultra 1.0模型等。
然而,2月中旬Gemini 1.5發(fā)布的同時(shí),OpenAI全新視頻生成模型Sora突然亮相,一經(jīng)面世瞬間成為頂流,話題熱度只增不減。所有人都在討論Sora為行業(yè)帶來(lái)的改變,但這讓谷歌在 AI 領(lǐng)域的努力一下子“黯然失色”。
僅過(guò)了不到半個(gè)月,如今,谷歌卷土重來(lái),正式推出全球最強(qiáng)大的開(kāi)源模型Gemma。
相比ChaGPT和Gemini,Gemma可能更適合較小規(guī)模的任務(wù),例如簡(jiǎn)單的 AI 聊天或摘要。
谷歌表示,Gemma其靈感來(lái)自于此前谷歌發(fā)布的Gemini大模型,名字在拉丁語(yǔ)中意為“寶石”。
具體來(lái)說(shuō),谷歌此次主要展示Gemma模型架構(gòu)、性能表現(xiàn)、自研芯片、訓(xùn)練基礎(chǔ)設(shè)施、軟件工具、碳減排、安全和評(píng)估、負(fù)責(zé)任等多個(gè)方面的努力。
其中,模型架構(gòu)方面,Gemma基于谷歌Gemini模型以及Transformer自注意力機(jī)制的深度學(xué)習(xí)技術(shù)研發(fā),Gemma 2B 和 7B 分別針對(duì)來(lái)自網(wǎng)絡(luò)文檔、數(shù)學(xué)和代碼的 2T 和 6T 規(guī)模英文標(biāo)注數(shù)據(jù)進(jìn)行訓(xùn)練。與Gemini 不同,這些模型不是多模式的,也沒(méi)有針對(duì)多語(yǔ)言任務(wù)的最先進(jìn)性能進(jìn)行訓(xùn)練。
不僅如此,Gemma還使用了改進(jìn)后的多頭注意力、RoPE嵌入、GeGLU激活函數(shù)等新的技術(shù),旨在文本領(lǐng)域?qū)崿F(xiàn)通用能力,同時(shí)具備最先進(jìn)的理解和推理技能。
性能表現(xiàn)方面,根據(jù)技術(shù)文件,Gemma在MMLU、MBPP等18個(gè)基準(zhǔn)測(cè)試中,有11個(gè)測(cè)試結(jié)果超越了Llama-13B或Mistral-7B等模型。
自研芯片方面,谷歌Gemma使用自研 AI 加速芯片TPUv5e進(jìn)行訓(xùn)練。其中7B模型在16個(gè)Pods上訓(xùn)練,2B模型在2個(gè)Pods上訓(xùn)練,每個(gè) Pod 可占用的 256 個(gè)芯片更少,v5e 經(jīng)過(guò)優(yōu)化,可以成為轉(zhuǎn)換器、文本到圖像和卷積神經(jīng)網(wǎng)絡(luò) (CNN) 訓(xùn)練、微調(diào)和服務(wù)的最大價(jià)值產(chǎn)品。
而通過(guò)TPUv5e,Gemma模型可在文本領(lǐng)域?qū)崿F(xiàn)強(qiáng)大的通用能力,同時(shí)具備最先進(jìn)的理解和推理技能。
值得一提的是,谷歌今天還宣布與英偉達(dá)(NVIDIA)展開(kāi)合作。這意味著,Gemma不止使用TPUv5e芯片,而且使用NVIDIA GPU 來(lái)優(yōu)化 Gemma 模型。
軟件工具層面,谷歌發(fā)布了全新 AI 軟件工具包,名為Responsible Generative AI Toolkit,從而幫助開(kāi)發(fā)者和研究人員優(yōu)先構(gòu)建安全和負(fù)責(zé)任的 AI 應(yīng)用。此外,Gemma 提供 Keras 3.0、原生 PyTorch、JAX 和 Hugging Face Transformers 多個(gè)框架工具,并支持基于 Google Cloud 的優(yōu)化,以及在筆記本電腦、臺(tái)式機(jī)、物聯(lián)網(wǎng)、移動(dòng)設(shè)備和云端等多個(gè)跨設(shè)備中兼容,從而讓Gemma實(shí)現(xiàn)推理和微調(diào)。
除了上述提及的層面,谷歌還在碳減排、安全和評(píng)估、負(fù)責(zé)任等方面有新的進(jìn)展。其中,預(yù)訓(xùn)練Gemma模型的碳排放量大大減少,約為131000噸二氧化碳;同時(shí)Gemma使用過(guò)濾后的預(yù)訓(xùn)練數(shù)據(jù)集,以減少不安全內(nèi)容的風(fēng)險(xiǎn);以及通過(guò)監(jiān)督式微調(diào)和基于人類(lèi)反饋的強(qiáng)化學(xué)習(xí)(RLHF)進(jìn)行微調(diào)。
谷歌表示,在人類(lèi)偏好評(píng)估中,Gemma在遵循指令和基本安全協(xié)議方面的表現(xiàn)優(yōu)于Mistral v0.2 7B Instruct模型。
另外,Google DeepMind采取結(jié)構(gòu)化的方法來(lái)確保模型的負(fù)責(zé)任開(kāi)發(fā)和部署,包括評(píng)估潛在的社會(huì)影響。
谷歌 DeepMind 產(chǎn)品管理總監(jiān) Tris Warkentin 表示,由于擔(dān)心開(kāi)放模型存在部分風(fēng)險(xiǎn),該公司“對(duì) Gemma 進(jìn)行了更廣泛的紅隊(duì)(專(zhuān)家、開(kāi)發(fā)者等內(nèi)部對(duì)抗性測(cè)試的外部團(tuán)隊(duì))”,從而提前挖掘出了更多 AI 系統(tǒng)存在的缺陷和風(fēng)險(xiǎn)。
圖片來(lái)源:每經(jīng)記者 鄭雨航 攝
技術(shù)論文顯示,此次參與谷歌Gemma開(kāi)源模型的研發(fā)人員數(shù)量高達(dá)57位。
其中包括核心貢獻(xiàn)者(Core Contributors)14人,參與者(Contributors)達(dá)35人,產(chǎn)品管理(Product Management)2人,項(xiàng)目管理(Program Management)1人,執(zhí)行贊助人(Executive Sponsors)5人。此外,谷歌還對(duì)內(nèi)部其他多個(gè)團(tuán)隊(duì)進(jìn)行感謝。
據(jù)鈦媒體AGI通過(guò)Kimi Chat提供的信息、研發(fā)者名字進(jìn)行梳理和猜測(cè),此次參與Gemma模型研發(fā)的57人中,可能有大約一半以上(31人)的開(kāi)發(fā)者來(lái)自亞洲,或與華人或具有華人血統(tǒng)的個(gè)人有關(guān)。
例如,谷歌Gemma團(tuán)隊(duì)當(dāng)中的Le Hou(侯樂(lè))博士,曾是谷歌FLAN-T5技術(shù)的作者。
在加入谷歌之前,侯樂(lè)在紐約州立大學(xué)石溪分校獲得了博士學(xué)位。博士在讀期間,他專(zhuān)注于分析高分辨率圖像,如衛(wèi)星和醫(yī)學(xué)圖像。
侯樂(lè)在谷歌的研究主要集中于NLP方面,包括高效的語(yǔ)言模型訓(xùn)練、指令微調(diào)和提示工程等,核心能力是通過(guò)更好的微調(diào)和提示工程來(lái)提高最先進(jìn)語(yǔ)言模型的推理能力。
而谷歌Gemma團(tuán)隊(duì)另一位華人Geng Yan,也是 AI 領(lǐng)域大神級(jí)人物。他畢業(yè)于浙江大學(xué)計(jì)算機(jī)科學(xué)系,隨后在美國(guó)美國(guó)卡內(nèi)基梅隆大學(xué)完成計(jì)算機(jī)視覺(jué)專(zhuān)業(yè)的碩士學(xué)位。
Geng Yan曾在商湯、亞馬遜等公司任職過(guò),主要研究 AI 機(jī)器算法技術(shù)。2022年,他曾在谷歌參與研發(fā)追蹤面部的 AI 模型Google Facemesh,并在谷歌相機(jī)自拍、谷歌Pay等多個(gè)場(chǎng)景產(chǎn)品中發(fā)揮更大作用。
事實(shí)上,據(jù)The Information報(bào)道稱(chēng),目前谷歌公布的最新論文中,Gemini的研發(fā)團(tuán)隊(duì)超過(guò)800人。因此,參與Gemma研發(fā)人員占比可能只有Gemini團(tuán)隊(duì)的7.1%。
人員少,但Gemma性能和效果毫不遜色。
然而,谷歌也在技術(shù)報(bào)告中坦言,盡管Gemma模型在性能、安全性和負(fù)責(zé)任開(kāi)發(fā)方面實(shí)現(xiàn)了突飛猛進(jìn)的進(jìn)展,但谷歌承認(rèn)“此發(fā)布是不可逆轉(zhuǎn)的“,并且開(kāi)放模型造成的危害尚未明確定義。谷歌仍需要進(jìn)一步研究來(lái)創(chuàng)建可靠、按預(yù)期執(zhí)行的穩(wěn)健、安全的模型。
“因此我們將繼續(xù)采取與這些模型的潛在風(fēng)險(xiǎn)相稱(chēng)的評(píng)估和安全緩解措施。”谷歌表示,Gemma在6個(gè)安全基準(zhǔn)以及人類(lèi)并行評(píng)估方面均優(yōu)于競(jìng)爭(zhēng)對(duì)手。
Warkentin 表示,Gemma模型目前先適配了英語(yǔ)這一廣泛語(yǔ)言,但他也指出,未來(lái)谷歌團(tuán)隊(duì)也“希望能夠與社區(qū)共同努力,滿足英語(yǔ)任務(wù)之外的市場(chǎng)需求。”
目前,開(kāi)發(fā)者可以在 Kaggle 中免費(fèi)使用 Gemma,首次使用 Google Cloud 的用戶將獲得 300 美元的積分,并可申請(qǐng)高達(dá) 50 萬(wàn)美元的Google Cloud積分來(lái)使用這些模型。
具體可通過(guò)ai.google.dev/gemma進(jìn)行查詢。
另外,谷歌方面今晨還宣布,Google One AI Premium正在將Gemini整合到谷歌Gmail、Docs、Sheets、Slides和Meet當(dāng)中,提供書(shū)寫(xiě)、校對(duì)和生成圖像等 AI 增強(qiáng)功能。而作為賬戶付費(fèi)產(chǎn)品,前兩個(gè)月免費(fèi)使用,之后每月19.99美元。
三個(gè)月發(fā)布三款大模型系列,谷歌 AI 技術(shù)的更新迭代之快,讓人始料未及。
OpenAI CEO奧爾特曼(Sam Altman)曾私下表示,與谷歌相比,OpenAI在算力上處于劣勢(shì)。
在 AI 三要素中,谷歌在算力、算法、數(shù)據(jù)方面都具有很明顯的技術(shù)領(lǐng)先優(yōu)勢(shì)。那么如今,谷歌連續(xù)發(fā)布Gemini、Gemma模型,全面覆蓋開(kāi)源和閉源方向,希望成為“AI 行業(yè)王者”的野心暴露無(wú)遺。
我們預(yù)計(jì),接下來(lái)Gemma將成為開(kāi)源社區(qū)的關(guān)注焦點(diǎn)。
谷歌開(kāi)發(fā)者 X 副總裁兼總經(jīng)理、谷歌開(kāi)發(fā)者關(guān)系主管 Jeanine Banks 認(rèn)為,Gemma 模型“感覺(jué)像是谷歌從TensorFlow 等工具開(kāi)源 AI 開(kāi)發(fā)技術(shù)的歷史的延續(xù)”的最新 AI 系統(tǒng),從PaLM2、AlphaFold到Gemini,最后形成了Gemma。
“我們認(rèn)為,如果谷歌能夠成為 API 和開(kāi)放模型的唯一提供商,為社區(qū)提供最廣泛的功能集,那就完美了。”Jeanine Banks表示。
接下來(lái),我們就看“跌落神壇”的開(kāi)源模型Meta Llama如何再接招了。
(作者:林志佳)
封面圖片來(lái)源:每經(jīng)記者 鄭雨航 攝
特別提醒:如果我們使用了您的圖片,請(qǐng)作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站,可聯(lián)系我們要求撤下您的作品。
歡迎關(guān)注每日經(jīng)濟(jì)新聞APP