撰文 | 雁? 秋
編輯 | 李信馬
題圖 | 騰訊
前兩年,關(guān)于具身智能的聲音寥寥無幾,大模型還處在“百模大戰(zhàn)”的階段。而今年的世界人工智能大會(WAIC)上,各種「張牙舞爪」的機器人被觀眾圍得水泄不通,大模型也呈現(xiàn)出一條非常清晰的產(chǎn)業(yè)路徑:聚焦深度落地。
如果說過去談的是怎么訓(xùn)練、怎么降本、怎么提速,那么,接下來誰能先把大模型真正裝進用戶的日常里,誰才是贏家。
作為連續(xù)八年參加WAIC的老牌大廠,騰訊發(fā)布了混元3D世界模型、具身智能開放平臺Tairos(鈦螺絲)等AI最新成果,并帶來了智能體開發(fā)平臺等產(chǎn)品的全新升級。
這是騰訊首次向外界展示以「1+3+N」架構(gòu)建立的AI應(yīng)用全景圖:
這套“1+3+N”全景體系,以騰訊自研混元大模型為核心引擎,構(gòu)建了涵蓋平臺能力與多元應(yīng)用的完整架構(gòu),覆蓋從面向B、C端的智能體開發(fā)平臺,到面向機器人領(lǐng)域的騰訊具身智能開放平臺,以及分布在多個行業(yè)場景中的豐富AI應(yīng)用與智能體產(chǎn)品矩陣。
騰訊目的是打造“好用的AI”,讓AI真正“觸手可及”——不僅服務(wù)于B端企業(yè)的效率提升,更成為C端用戶的“數(shù)字好友”。
01、一句話、一張圖生成3D世界模型?
自2023年9月首次發(fā)布以來,目前騰訊混元大模型已經(jīng)從語言模型迅速擴展到多模態(tài)、具身智能。
在WAIC2025,混元多模態(tài)AI模型矩陣集中亮相。另外,DoNews記者看到有各個年齡段的觀眾體驗騰訊元寶視頻聊天、選擇兩個關(guān)鍵詞就能創(chuàng)作三維模,數(shù)字飛行模擬艙的門前總是圍滿了小朋友。
騰訊發(fā)布并開源的混元3D世界模型1.0成為焦點,該模型加入了全景視覺生成與分層3D重建等技術(shù),一句話或一張圖就能生成可360°漫游、交互、仿真的虛擬世界。
官方展示了幾個例子,比如,上傳一張畫著一棵樹、一艘船以及幾棟建筑的原始圖片,就能夠快速生成一個包含小樹、大海、藍(lán)天白云、城鎮(zhèn)等豐富要素的海濱小鎮(zhèn)。
DoNews記者嘗試體驗了一把,比如輸入「全息廣告牌映照著濕漉漉的街道,遠(yuǎn)處巨大的數(shù)字鯨魚在游動」, 就會生成如下效果如。無論是作為主體的廣告牌、鯨魚,還是周圍的光線、環(huán)境等元素,構(gòu)筑得都較為完整。
360°全景效果圖
若輸入「金紅色的楓葉飄落在鏡面般的湖水上,倒映著遠(yuǎn)處的雪山」,一張包括雪山、湖水、楓葉元素的效果圖就出來了:
360°全景效果圖
按照騰訊官方的說法,混元3D世界模型能實現(xiàn)上述效果,核心在于其創(chuàng)新的「語意層次化3D場景表征及生成算法」。就算你是不會建模的普通用戶,也可用混元3D創(chuàng)作引擎快速生成360°沉浸式視覺空間,然后直接導(dǎo)入主流的VR虛擬頭顯設(shè)備內(nèi),能大幅縮短內(nèi)容生產(chǎn)周期。
據(jù)介紹,目前,騰訊混元大模型已實現(xiàn)圖像、視頻、3D、文本等在內(nèi)的全模態(tài)開源,圖像、視頻衍生模型數(shù)量分別達到1400個和1600個,混元3D系列模型社區(qū)下載量超過230萬,已成為全球最受歡迎的3D開源模型。
02、國內(nèi)首個“模塊化”具身智能平臺
“你能不能把筆記本遞到我手里?”
“抱歉,我現(xiàn)在的雙手是假的,是一幅手套,無法幫您完成這個任務(wù)?!?/span>
?
“晚上我們能不能一起喝一杯,慶祝一下?”
“我晚上還要加班呢,不聊不聊!”
在2015WAIC騰訊論壇上,騰訊首席科學(xué)家、Robotics X實驗室主任張正友和宇樹機器人G1的對話引起現(xiàn)場觀眾陣陣歡笑。最直觀的感覺是,臺上這位機器人可以自然流暢地向人一樣地說話、交流,甚至還有自己的想法。
據(jù)了解,G1的回答是即興生成,并非預(yù)設(shè)程序。原因在于其搭載了騰訊Robotics X最新發(fā)布的具身智能平臺Tairos(鈦螺絲),有語音對話、環(huán)境感知和行動決策能力。
除了宇樹機器人之外,越疆科技、樂聚機器人、帕西尼感知科技等也成為首批接入Tairos的廠商。在本次WAIC,DoNews看到宇樹人形機器人G1可以給到場觀眾當(dāng)“導(dǎo)游”;人居環(huán)境機器人“小五”不僅可以聽懂人類的語言,還能跟現(xiàn)場觀眾擁抱;越疆的機械臂X-Trainer通“動動嘴就讓機器人給你做好飯”。
據(jù)了解,騰訊從2024年年底開始規(guī)劃Tairos,團隊認(rèn)真調(diào)研了行業(yè),接觸過60多家機器人企業(yè)后發(fā)現(xiàn),中國大量的機器人企業(yè)可以把硬件做得很好,但在軟件能力上還需要補齊。
市場需求讓騰訊看到了機會,這也是Tairos誕生的初衷。Tairos成為了國內(nèi)首個以模塊化的方式提供大模型、開發(fā)工具和數(shù)據(jù)服務(wù)的具身智能軟件平臺。
所謂模塊化,即可以根據(jù)自身需求,選用感知模型模塊或規(guī)劃大模型。換句話理解,Tairos對于機器人就如同手機對于鴻蒙,開發(fā)者可以在這個平臺上自由組合創(chuàng)新。
騰訊對Tairos的定位是,為機器人本體開發(fā)商與應(yīng)用開發(fā)商補齊關(guān)鍵的軟件能力。騰訊希望成為所有機器人廠商的合作伙伴,而不是取而代之做硬件。
03、智能體與大模型并非“非此即彼”
隨著基礎(chǔ)大模型“推理能力”的質(zhì)變,今年年初起,Agent(智能體)從概念空降到產(chǎn)業(yè)。
相比依賴單一的模型,越來越多的企業(yè)更偏向構(gòu)建擁有多種能力的智能體,一個模型不僅能夠生成文本,還能理解圖像,甚至生成圖像,或者處理音頻等。
到目前為止,打造一個Agent對于很多頭部科技公司已經(jīng)不是問題,但要打造出一個既實用又能高效解決業(yè)務(wù)流中問題的智能體,依舊需要深入探討。
在平臺工具與生態(tài)建設(shè)上,騰訊選擇了覆蓋B端與C端的“雙平臺”智能體體系。
騰訊云副總裁、騰訊云智能負(fù)責(zé)人、騰訊優(yōu)圖實驗室負(fù)責(zé)人吳運聲接受采訪時表示,B端需要企業(yè)級的保障,會更嚴(yán)謹(jǐn),C端則更注重用戶生態(tài)搭建,“這兩套產(chǎn)品雖面向不同人群,但底層共享同一個平臺能力棧,實現(xiàn)了開發(fā)、運行、分發(fā)的一體化協(xié)同?!?/p>
面向B端企業(yè),“騰訊云智能體開發(fā)平臺”支持零代碼構(gòu)建與數(shù)據(jù)庫對接,實現(xiàn)多Agent協(xié)同執(zhí)行。面向C端用戶,“騰訊元器”也做出了升級,可接入公眾號、微信生態(tài)與文檔資源,支持矩陣號分發(fā)。
鵝廠的企業(yè)級AI產(chǎn)品體系正在變得越來越完整,這些更新也意味著騰訊的產(chǎn)品能力被進一步補齊。
不過,智能體以極快的速度成為標(biāo)配,大模型的風(fēng)頭似乎要被取代。針對外界關(guān)注的“智能體是否會取代行業(yè)大模型”這一問題,吳運聲在接受采訪時明確表示,技術(shù)的演進并非“非此即彼”的替代關(guān)系,而是服務(wù)于產(chǎn)業(yè)需求的持續(xù)迭代與深化。
比起智能體數(shù)量的增長,騰訊更關(guān)注的是如何將大模型、智能體技術(shù)真正融入企業(yè)的業(yè)務(wù)流程,以滿足企業(yè)的真實業(yè)務(wù)需求。