DoNews8月18日消息,為了趕超 OpenAI 及其他競爭對(duì)手,Google 的 CEO 桑達(dá)爾·皮查伊(Sundar Pichai)于 4 月合并了兩個(gè)具有不同文化和代碼的大型人工智能團(tuán)隊(duì)——「Google Brain」和「DeepMind」。
據(jù) The Information,新合并的「AI SWAT」團(tuán)隊(duì)計(jì)劃于秋天發(fā)布一組大型機(jī)器學(xué)習(xí)模型「Gemini」,據(jù)開發(fā)人員透露,Gemini 預(yù)計(jì)將使Google 能夠制造出競爭對(duì)手無法制造的產(chǎn)品。
彭博社風(fēng)投分支 Bloomberg Beta 的 AI 初創(chuàng)公司投資人詹姆斯·錢匹(James Chami)表示:「似乎終于有模型能與 GPT-4 旗鼓相當(dāng)了」。
Gemini 開發(fā)人員表示,Gemini 不僅能像 GPT-4 一樣可以進(jìn)行文本對(duì)話,還融合了 Midjourney 和 Stable Diffusion 的能力,能夠生成圖像。Gemini 的圖像能力此前還從未有過報(bào)道。
另外,它還能提供分析圖表、創(chuàng)建帶有文本描述的圖形、使用文本或語音命令控制軟件。
Google 把重注押在了 Gemini 身上,Gemini 會(huì)為 Bard 聊天機(jī)器人提供動(dòng)力、推動(dòng) Google Docs、Slides 等企業(yè)級(jí)應(yīng)用。
谷歌還希望通過云服務(wù)器租賃服務(wù),向開發(fā)者收取訪問 Gemini 的費(fèi)用。
據(jù)報(bào)道,Google 對(duì) Gemini 進(jìn)行了大量 YouTube 視頻的訓(xùn)練。Gemini 還可以把音頻和視頻集成到模型本身,形成多模態(tài)能力,許多研究人員認(rèn)為這是 AI 的下一個(gè)前沿領(lǐng)域。
使用 YouTube 內(nèi)容,還可以幫助 Google 開發(fā)更先進(jìn)的文本轉(zhuǎn)視頻軟件,根據(jù)用戶想看的內(nèi)容描述,自動(dòng)生成詳細(xì)的視頻。
這類似于 Google 支持的初創(chuàng)公司 RunwayML 正在開發(fā)的技術(shù),好萊塢和內(nèi)容創(chuàng)作者正在密切關(guān)注此類軟件的發(fā)展。
Google Brain 和 DeepMind 的合并,令一些參與 Gemini 的工程師感到驚訝。合并后的團(tuán)隊(duì)由 DeepMind 首席執(zhí)行官戴密斯·哈薩比斯(Demis Hassabis)領(lǐng)導(dǎo)。
知情人士稱,DeepMind 的兩位高管奧里奧爾·溫亞爾斯( Oriol Vinyals)和 Koray Kavukcuoglu 與前谷歌大腦負(fù)責(zé)人杰夫?迪恩(Jeff Dean)一起負(fù)責(zé) Gemini 的開發(fā)。他們將監(jiān)督數(shù)百名參與 Gemini 開發(fā)的員工。
組織合并后,除了人員安排問題, Gemini 團(tuán)隊(duì)在開發(fā)過程中還面臨著巨大的挑戰(zhàn),如確定可以使用哪些數(shù)據(jù)來訓(xùn)練模型。
盡管如此,谷歌前高管、風(fēng)險(xiǎn)投資公司法利思投資創(chuàng)始人艾丁·森庫特( Aydin Senkut)表示,Gemini的發(fā)布表明,Google 決心再次走在最前沿,而不是極度保守。他說,「這是正確的方向,終于,他們有了火」。