国产一区高清|日韩精品一区人妻|曰夲AV一区二区|美日韩一区二区三区|国产喷水在线观看|狼友网站成人大全|欧美日韩制服中文视频在线|久草加勒比手机在线|婷婷色综合无码专区|japanese 精品视频在线观看

“稚暉君”的機(jī)器人長(zhǎng)腦子了

撰文 | 雁? 秋

編輯 | 李信馬

題圖 | 智元機(jī)器人官網(wǎng)

今年「兩會(huì)」,“具身智能”首次被寫入政府工作報(bào)告。這也就意味著,機(jī)器人走入工廠、車間、超市、甚至尋常百姓家的進(jìn)程,都被按下了加速鍵。

相關(guān)賽道被持續(xù)關(guān)注和推動(dòng),一位90后在這幾天冒出了尖兒。

3月10日,智元機(jī)器人聯(lián)合創(chuàng)始人稚暉君(彭志輝)在社交平臺(tái)公布其團(tuán)隊(duì)最新研究成果——首個(gè)通用具身基座模型:智元啟元大模型(Genie Operator-1,下文簡(jiǎn)稱 GO-1)。

這是全球第一個(gè)基于大規(guī)模、高質(zhì)量自有數(shù)據(jù),基于自有機(jī)器人本體訓(xùn)練并部署的機(jī)器人基座模型。

11日,靈犀X2發(fā)布,這是可以支持高自由度能力且搭載情感計(jì)算引擎的機(jī)器人,不僅能回答稚暉君提出的各種問(wèn)題,還可以精準(zhǔn)判斷晚上該喝牛奶還是咖啡。

業(yè)內(nèi)人士認(rèn)為,智元機(jī)器人在人形機(jī)器人領(lǐng)域即將迎來(lái)重大技術(shù)或產(chǎn)品突破。正如稚暉君在預(yù)熱視頻中所說(shuō):“我們不是在制造工具,而是在創(chuàng)造新物種。”

當(dāng)前機(jī)器人技術(shù)面臨很多困境,IDC中國(guó)研究經(jīng)理李君蘭接受DoNews采訪時(shí)談到,硬件維度的優(yōu)化、機(jī)器人行動(dòng)控制協(xié)調(diào)能力,以及場(chǎng)景遷移泛化、高計(jì)算資源消耗等等,都亟需一一解決。稚暉君的這個(gè)“新物種”,能成為機(jī)器人的對(duì)癥之藥嗎?

1、機(jī)器人即將擁有“人腦”

行業(yè)對(duì)于機(jī)器人寄予厚望,它們的外形不僅要像人,“大腦”也要像人腦一樣,具備學(xué)習(xí)思考的能力,要越學(xué)越聰明。

GO-1的作用就是幫助機(jī)器人大腦進(jìn)化,其開(kāi)創(chuàng)提出了ViLLA架構(gòu),該架構(gòu)由VLM(多模態(tài)大模型) + MoE(混合專家)組成。

  • VLM,借助海量互聯(lián)網(wǎng)圖文數(shù)據(jù)獲得通用場(chǎng)景感知和語(yǔ)言理解能力;
  • MoE,包括「隱式規(guī)劃器」和「動(dòng)作專家」。前者借助大量跨本體和人類操作視頻數(shù)據(jù),獲得通用的動(dòng)作理解能力;后者借助百萬(wàn)真機(jī)數(shù)據(jù),獲得精細(xì)的動(dòng)作執(zhí)行能力。

簡(jiǎn)單理解就是,當(dāng)相機(jī)的視覺(jué)信號(hào)加上人類的語(yǔ)言指令,通過(guò)ViLLA框架,便能輸出機(jī)器人的動(dòng)作執(zhí)行。

具身智能模型的四類訓(xùn)練數(shù)據(jù) 圖源:智元機(jī)器人

從官方的解讀看,GO-1除了拓展機(jī)器人的運(yùn)動(dòng)能力,更重要的是加強(qiáng)了其AI能力,可以總結(jié)為幾大特點(diǎn):

1、人類視頻學(xué)習(xí),結(jié)合互聯(lián)網(wǎng)視頻和真實(shí)人類示范進(jìn)行學(xué)習(xí),增強(qiáng)模型對(duì)人類行為的理解(學(xué)習(xí)人類倒水,即使隨意移動(dòng)水杯位置)。

2、小樣本快速泛化?:GO-1具有強(qiáng)大的泛化能力,使得后訓(xùn)練成本非常低,能夠在極少數(shù)據(jù)甚至零樣本下泛化到新場(chǎng)景、新任務(wù)(除了倒水,還能烤面包、抹果醬,這些是之前沒(méi)有學(xué)過(guò)的場(chǎng)景)。

圖源:智元

3、一腦多形?:GO-1能夠在不同機(jī)器人形態(tài)之間遷移,快速適配到不同本體(多個(gè)機(jī)器人共同協(xié)作完成復(fù)雜任務(wù))。

4、持續(xù)進(jìn)化?:GO-1搭配智元一整套數(shù)據(jù)回流系統(tǒng),可以從實(shí)際執(zhí)行遇到的問(wèn)題數(shù)據(jù)中持續(xù)進(jìn)化學(xué)習(xí)(對(duì)機(jī)器人放咖啡杯時(shí)出現(xiàn)的失誤進(jìn)行優(yōu)化)。

智元發(fā)布的實(shí)驗(yàn)數(shù)據(jù)顯示,相比已有的最優(yōu)模型,GO-1的平均成功率提從46%提升至78%。部分業(yè)內(nèi)人士認(rèn)為,GO-1的這個(gè)模型架構(gòu)很簡(jiǎn)單,創(chuàng)新之處并不多,主要是對(duì)已有工作、數(shù)據(jù)和訓(xùn)練方式做了大幅整合。

除了GO-1之外,智元還發(fā)布了機(jī)器人本體:靈犀 X2,它重達(dá)33.8千克,全身有28個(gè)自由度,沒(méi)有使用任何一個(gè)并聯(lián)結(jié)構(gòu)。

在視頻展示中,它能夠0幀起手快速讀取藥品說(shuō)明書(shū),可以駕駛滑板車和平衡車,還能用針縫葡萄。

它還很有人情味,在問(wèn)它:“與狗落水先救誰(shuí)” 的倫理問(wèn)題時(shí),也能給出符合人類價(jià)值觀的回答。

圖源:“稚暉君”微博

據(jù)彭志輝介紹,智元為靈犀X2開(kāi)發(fā)出一套基于Diffusion(擴(kuò)散模型)的生成式動(dòng)作引擎。這使得機(jī)器人不僅四肢發(fā)達(dá),頭腦也并不簡(jiǎn)單。隨著機(jī)器人具身大腦的持續(xù)迭代,未來(lái)智元會(huì)賦予機(jī)器人更多復(fù)雜作業(yè)的能力。

02、建廠訓(xùn)練,開(kāi)源降本

過(guò)去一年,具身智能、人形機(jī)器人的關(guān)注度持續(xù)上升,但擺在從業(yè)者面前的困境卻是復(fù)雜又現(xiàn)實(shí)的。

機(jī)器人要想成功商業(yè)化,實(shí)訓(xùn)是最重要的一步,而獲取并訓(xùn)練真實(shí)場(chǎng)景內(nèi)的數(shù)據(jù),通常是最困難的。

與大語(yǔ)言模型不同,機(jī)器人“大腦”的訓(xùn)練需要更多來(lái)自物理世界即真實(shí)世界動(dòng)態(tài)環(huán)境中的交互數(shù)據(jù),且需要大量的設(shè)備、時(shí)間進(jìn)行采集。如何獲取、怎么獲取,以及對(duì)已有數(shù)據(jù)的標(biāo)準(zhǔn)化,成為人形機(jī)器人技術(shù)演進(jìn)路上的最大難題。

DoNews記者了解到,目前人形機(jī)器人獲取數(shù)據(jù)的方法,主要包括遙操作機(jī)器人數(shù)據(jù)、人類動(dòng)作捕捉數(shù)據(jù)、仿真合成數(shù)據(jù)以及一些特定的技術(shù)和框架。

圖源:DoNews整理

智元機(jī)器人是怎么解決數(shù)據(jù)問(wèn)題的呢?他們選擇建廠實(shí)操。

在上海,智元建了一座“數(shù)據(jù)采集工廠”,占地約3000平米,里面分布著多個(gè)不同主題的房間,每個(gè)房間都還原了現(xiàn)實(shí)生活的物件布局,機(jī)器人就在當(dāng)中學(xué)習(xí)不同的技能:疊衣服、整理餐桌、打餐、掃碼收銀......

智元甚至為機(jī)器人安排了“一對(duì)一教學(xué)”,數(shù)據(jù)采集員手把手地控制機(jī)器人完成抓、握、放等動(dòng)作,以求更精準(zhǔn)地讓機(jī)器人模仿學(xué)習(xí)。每完成一個(gè)動(dòng)作,就相當(dāng)于收集了一條數(shù)據(jù),智元據(jù)此進(jìn)一步訓(xùn)練機(jī)器人的大模型,這也是GO-1之所以推出的基礎(chǔ)底座。

2024年底,智元將數(shù)據(jù)集開(kāi)源,這個(gè)AgiBot World(智元世界)匯集了百萬(wàn)真實(shí)機(jī)器人的數(shù)據(jù),復(fù)刻了家居、餐飲、工業(yè)、商超和辦公五大核心場(chǎng)景。部分業(yè)內(nèi)人士認(rèn)為,這不僅能降低訓(xùn)練成本,也會(huì)非常有利于行業(yè)統(tǒng)一標(biāo)準(zhǔn),減少重復(fù)無(wú)用功。

開(kāi)源是一種思路,但也不是說(shuō)機(jī)器人企業(yè)都會(huì)選擇開(kāi)源,宇樹(shù)機(jī)器人就一直保持不開(kāi)源的發(fā)展策略,目前已經(jīng)成為全球機(jī)器人生產(chǎn)企業(yè)中的頂流。

說(shuō)到底,核心的問(wèn)題還是在于機(jī)器人能否滿足人們的要求。一位關(guān)注具身智能賽道的人向DoNew表示,數(shù)據(jù)集的推動(dòng)作用有多大,還需要在投入實(shí)際訓(xùn)練后再進(jìn)行判斷。

“人形機(jī)器人,本質(zhì)上就是要它要面對(duì)各種各樣的場(chǎng)景,最好是什么都能做。當(dāng)某個(gè)場(chǎng)景變了,機(jī)器人是不是依舊可以準(zhǔn)確做出判斷?比如倒水,我換一個(gè)場(chǎng)景,又要怎么抓?背后可能又需要幾萬(wàn)甚至上億的數(shù)據(jù)。未來(lái)5到10年能不能滿足這個(gè)條件,現(xiàn)在還不好說(shuō)。”

03、“好東西”能支撐未來(lái)嗎?

智元機(jī)器人之所以受到業(yè)內(nèi)如此高的關(guān)注,一大原因是創(chuàng)始人、CTO、首席架構(gòu)師「稚暉君」彭志輝。

彭志輝是B站“年度百大UP主”,還是華為的“天才少年”,得到過(guò)任正非的稱贊。

2022年12月,他在微博上正式宣布自己離開(kāi)華為,去追求自己夢(mèng)想和熱愛(ài)的事業(yè),“如果程序員是數(shù)字世界的上帝的話,那親手給機(jī)器人以身形,再用AI賦其靈魂,這就是真極客的浪漫??!”

2023年,彭志輝創(chuàng)立智元機(jī)器人,僅用18個(gè)月完成從概念到量產(chǎn)的技術(shù)跨越。截止2025年3月,智元機(jī)器人至少完成了8輪融資(A輪),發(fā)布了5款人形機(jī)器人,1000多臺(tái)產(chǎn)品在臨港新片區(qū)量產(chǎn)下線。

智元機(jī)器人再度將具身智能推向臺(tái)前,但也引發(fā)了相關(guān)思考。

首先是,大模型真的能完美賦能機(jī)器人嗎?智元官方稱,“對(duì)機(jī)器人公司來(lái)說(shuō),如果不做大模型,那是屬于沒(méi)有未來(lái)的機(jī)器人。”

但另一家頭部公司卻不這么看。去年8月,宇樹(shù)科技創(chuàng)始人王興興向媒體表示,具身智能大模型的研發(fā)太燒錢,而且技術(shù)路線目前仍不像大語(yǔ)言模型那么清晰,宇樹(shù)科技對(duì)此選擇謹(jǐn)慎投入。

目前的問(wèn)題是,大預(yù)言模型都暫未解決「幻覺(jué)」問(wèn)題,機(jī)器人又缺乏高質(zhì)量數(shù)據(jù),能否做到零失誤?

據(jù)相關(guān)報(bào)道,許多機(jī)器人廠商在demo里展示某個(gè)動(dòng)作足夠酷炫,背后實(shí)則經(jīng)歷了一天的拍攝。2024年的機(jī)器人大會(huì)上,多個(gè)機(jī)器人在參展時(shí)就曾出現(xiàn)Bug、失誤的問(wèn)題。比如完成一個(gè)只需要移動(dòng)20厘米的抓取動(dòng)作,需要近40秒,或者將炒好的菜在眾目睽睽之下倒在了桌子上。

再有就是商業(yè)化問(wèn)題。落地能力是判斷一家機(jī)器人公司是否靠譜的重要指標(biāo),智元機(jī)器人的商業(yè)模式只是初步得到驗(yàn)證,至于規(guī)?;瘮U(kuò)張、擴(kuò)大市場(chǎng)份額等前景還不明顯。

更需要重視的是隱私安全,GO-1里所謂人類視頻學(xué)習(xí)功能,會(huì)涉及到大量非授權(quán)數(shù)據(jù)采集。盡管智元承諾模糊人臉與敏感信息,但如何界定“合理使用”邊界仍是法律空白。

尾聲

從DeepSeek刷屏,到Manus突擊,再到機(jī)器人大模型,2025開(kāi)局不到3個(gè)月,人們就被創(chuàng)新者們「激進(jìn)」的步伐一次次震撼。智元的“好東西”具體有多少落地的可能,我們暫時(shí)先打個(gè)問(wèn)號(hào),但有一點(diǎn)可以確定:AI就快要幫助人類做大事了。

標(biāo)簽: 機(jī)器人
“稚暉君”的機(jī)器人長(zhǎng)腦子了
掃描二維碼查看原文
分享自DoNews
Copyright ? DoNews 2000-2025 All Rights Reserved
蜀ICP備2024059877號(hào)-1