亚洲自国产拍揄拍综合2区男男,日韩精品无码一本二本三本色

DoNews > 專欄 > AI視頻“入駐”手機(jī)，多模態(tài)成智能終端的新戰(zhàn)場(chǎng)

AI視頻“入駐”手機(jī)，多模態(tài)成智能終端的新戰(zhàn)場(chǎng)

光錐智能 2025-06-03 13:55:40

199026

分享到

文｜樂樂

今天，無(wú)線藍(lán)牙耳機(jī)（TWS）已經(jīng)成為人人都用得起的產(chǎn)品。?

但退回到9年前，蘋果AirPods是全球第一款真正意義上的無(wú)線藍(lán)牙耳機(jī)?？恐匝胁⑸暾?qǐng)專利的Snoop監(jiān)聽技術(shù)，蘋果解決了藍(lán)牙耳機(jī)左右延時(shí)和能耗不一的問題。由此，AirPods吃下了2016-2018年的大部分市場(chǎng)，直到兩年后其它廠商才學(xué)會(huì)類似技術(shù)。

靠技術(shù)紅利獲勝，是蘋果的經(jīng)典操作，也是今天的手機(jī)廠商們?cè)谔O果身上學(xué)到的重要一課。

對(duì)于近兩年的手機(jī)市場(chǎng)來(lái)說(shuō)，AI無(wú)疑就是攪動(dòng)手機(jī)市場(chǎng)的關(guān)鍵技術(shù)變量。

為了找到AI技術(shù)落地的殺手級(jí)功能，從Agent、AI修圖到AI問答，智能終端在做的事情就是在AI生態(tài)上盡可能做各種各樣的加法。

在高度同質(zhì)化的AI手機(jī)賽道，手機(jī)廠商們亟需找到創(chuàng)新的AI技術(shù)落地功能。而榮耀，正在悄悄拿下多個(gè)首發(fā)優(yōu)勢(shì)。

在近期榮耀400的發(fā)布會(huì)現(xiàn)場(chǎng)，圖生視頻成了榮耀“吃螃蟹”的又一首發(fā)功能，這背后是合作方生數(shù)科技旗下的AI視頻大模型在移動(dòng)端的首次規(guī)?；涞?。

聯(lián)手生數(shù)科技Vidu，榮耀突破了三大難關(guān)——保持風(fēng)格一致性、對(duì)物理世界的理解、端側(cè)成本壓縮，讓用戶免費(fèi)體驗(yàn)“老照片復(fù)活術(shù)”。

而就在兩個(gè)月前，生數(shù)科技?Vidu Q1模型剛以VBench雙榜第一的成績(jī)碾壓Sora與Runway，如今就悄然鉆進(jìn)千萬(wàn)用戶的口袋。

這場(chǎng)合作背后，一場(chǎng)更深層的變革正在發(fā)酵。

當(dāng)前，多模態(tài)正在重構(gòu)智能終端的交互體驗(yàn)，手機(jī)正成為圖生視頻技術(shù)普惠的戰(zhàn)場(chǎng)之一。當(dāng)大模型的技術(shù)競(jìng)賽從語(yǔ)言模型延伸到多模態(tài)，“讓記憶重獲生命”的圖生視頻，或許正是打開大眾市場(chǎng)的第一把鑰匙。

當(dāng)圖生視頻在手機(jī)上跑起來(lái)

一張由AI制作的“Live Photo”，成為了榮耀發(fā)布會(huì)現(xiàn)場(chǎng)眾人討論的焦點(diǎn)。?

照片中，一個(gè)小孩抱著窗簾看向鏡頭微笑。經(jīng)由圖生視頻功能加工后，小孩抓著窗簾向一邊搖晃，頭部也隨著晃動(dòng)方向微微傾斜，臉上掛著的笑容變成了動(dòng)態(tài)，能看到嘴角咧起的弧度和鼓起的臉頰。

在榮耀產(chǎn)品線總裁方飛的演示中，只需要點(diǎn)擊“AI生圖”功能，選定相應(yīng)照片和生成的視頻時(shí)長(zhǎng)（3秒/5秒），AI就能根據(jù)圖片場(chǎng)景生成一段流暢的視頻。上述案例就是由該功能生成。

早在3月宣布向AI終端生態(tài)公司轉(zhuǎn)型的榮耀，在數(shù)字系列榮耀400上落地了一系列AI能力。光是照片一項(xiàng)，榮耀就上線了AI圖生視頻、AI去褶皺、AI去眼鏡反光、AI去玻璃反光、圖生視頻等優(yōu)化功能。

看起來(lái)簡(jiǎn)單的視頻演示，背后是圖生視頻技術(shù)落地智能終端的一大步：攻克了技術(shù)難點(diǎn)，才能讓AI視頻看起來(lái)無(wú)限趨近于真實(shí)。

首先，要想讓視頻動(dòng)起來(lái)的效果符合真實(shí)世界的運(yùn)行規(guī)律，就是視頻生成模型們?cè)缙诘耐ú?。比如提示詞設(shè)定成兩個(gè)人打羽毛球，交給AI來(lái)做，球可能會(huì)出現(xiàn)憑空飛起或者不按照球拍擊打軌跡飛行等問題，導(dǎo)致生成出來(lái)的作品無(wú)法使用。

當(dāng)下，如何更好地模擬物理世界規(guī)律，也成了大模型們面前的難關(guān)。就在3月份，生數(shù)科技發(fā)布的模型Vidu Q1，在VBench-1.0的視頻質(zhì)量、視頻語(yǔ)義一致性和 VBench-2.0的常識(shí)推理、物理理解等綜合維度上達(dá)到SOTA水平。靠著對(duì)提示詞的理解力增強(qiáng)，Vidu能自動(dòng)識(shí)別人物動(dòng)作、光影、位置關(guān)系等內(nèi)容，讓生成的視頻在動(dòng)態(tài)上符合物理世界規(guī)律。

此外，在風(fēng)格一致性上，擅長(zhǎng)動(dòng)漫、水墨等多種畫風(fēng)理解的Vidu，在保持原圖風(fēng)格一致上的表現(xiàn)相對(duì)穩(wěn)定。相比于會(huì)把真實(shí)圖片上傳后隨機(jī)轉(zhuǎn)換成油畫、動(dòng)漫等風(fēng)格的視頻生成模型，Vidu顯然在場(chǎng)景理解上的表現(xiàn)更勝一籌。

不過，要想讓AI視頻真正普及，還需要考慮的就是生成速度和成本問題。等待時(shí)間超過幾分鐘，用戶體驗(yàn)感會(huì)直線下滑，成本太高也會(huì)拖垮手機(jī)廠商的錢包。

而榮耀和生數(shù)科技一起克服了這幾個(gè)問題，把圖生視頻玩法搬上了手機(jī)。相對(duì)于各大視頻應(yīng)用靠會(huì)員制收費(fèi)，榮耀的圖生視頻功能完全免費(fèi)，讓用戶不花錢也能體驗(yàn)。

雖然這次并未公布具體的生成時(shí)長(zhǎng)和成本，但根據(jù)此前Vidu 1.5版本做到幾秒生成、Vidu 2.0單秒成本最低不到3毛錢的價(jià)格來(lái)看，AI視頻已經(jīng)具備了落地端側(cè)的條件。

除此之外，AI視頻大模型的技術(shù)一直在進(jìn)步，未來(lái)或?qū)⒃谑謾C(jī)等智能終端中實(shí)現(xiàn)更多的功能。

比如，AI視頻一直存在一個(gè)技術(shù)難點(diǎn)——主體一致性。主體一致性，是指保持人物、物體、環(huán)境等主體一致，不會(huì)面部五官亂飛，環(huán)境前后連貫

2024年，生數(shù)科技在新模型Vidu 1.5中實(shí)現(xiàn)多主體一致性，使用者可以上傳背景和多個(gè)主體人物的照片，AI就能將這些自定義元素組合在一起，根據(jù)提示詞生成視頻。

以多主體一致性來(lái)說(shuō)，海螺AI的“主體參考”功能和可靈的“多圖參考”均在今年1月上線，比Vidu慢了2個(gè)月。

多模態(tài)，智能終端的新戰(zhàn)場(chǎng)

多模態(tài)大模型，最近半年內(nèi)正在肉眼可見的批量落地。

在App端，字節(jié)在5月23日給自家AI助手應(yīng)用豆包裝上了視頻通話功能。背靠自研的視頻推理模型，豆包不僅能“睜眼看世界”，還能根據(jù)看到的畫面推測(cè)接下來(lái)的動(dòng)作，比如炒菜的時(shí)候，豆包能夠根據(jù)原料猜出對(duì)應(yīng)的菜，并且給出炒菜的具體步驟。

騰訊則在5月份發(fā)布了語(yǔ)音模型Human-Voice，并預(yù)告騰訊元寶將會(huì)在6月上線語(yǔ)音通話功能。同時(shí)，騰訊還會(huì)上線全球首個(gè)全模態(tài)模型“混元-O”。

在智能終端上，本身通過GUI（圖形用戶界面）實(shí)現(xiàn)交互的手機(jī)廠商們，就是多模態(tài)大模型的重要載體。

可以說(shuō)，從這一輪生成式AI開始時(shí)，多模態(tài)AI就被廠商納入了考慮范圍。只是一開始在技術(shù)能力受限的情況下，大語(yǔ)言模型成為了端側(cè)大模型落地最早的一種。

多模態(tài)模型在端測(cè)的應(yīng)用更廣，場(chǎng)景更多，不僅可以為以往場(chǎng)景賦能，還能有新的互動(dòng)體驗(yàn)場(chǎng)景，受眾范圍也會(huì)更廣，因?yàn)橐曨l圖像的受眾總是大于文字的。

隨著多模態(tài)能力的技術(shù)進(jìn)步，端側(cè)語(yǔ)音和視頻交互的比重正在上升。

比如，一些在端側(cè)運(yùn)行的大語(yǔ)言模型逐漸被多模態(tài)大模型代替，相應(yīng)應(yīng)用的底座也升級(jí)為多模態(tài)：

2024年1月，榮耀發(fā)布自研端側(cè)70億參數(shù)平臺(tái)級(jí)AI大模型“魔法大模型”家族，包括語(yǔ)言大模型和圖像、語(yǔ)音多模態(tài)大模型，支持智慧成片、圖庫(kù)語(yǔ)義搜索等功能，讓AI能夠“理解”圖片；在購(gòu)物、娛樂、辦公等場(chǎng)景，開啟跨時(shí)代交互體驗(yàn)。2024年5月，vivo發(fā)布多模態(tài)大模型技術(shù)應(yīng)用“vivo看見-藍(lán)心升級(jí)版”，用于幫助視障用戶理解世界。

伴隨行業(yè)多模態(tài)能力的突破，以往受限于能力不足的AI應(yīng)用，也迎來(lái)了能力突破。

其中，最突出的應(yīng)用領(lǐng)域就是Agent（智能體）。通過調(diào)用手機(jī)屏幕截圖，再將圖片提供給多模態(tài)大模型的方式，AI開始能夠真正“理解”屏幕信息，并根據(jù)用戶指令工作。這就有了去年以榮耀為首等一系列手機(jī)廠商開卷智能體的動(dòng)作，從榮耀的YoYo智能體到vivo藍(lán)心智能體再到OPPO的“AI問屏”，都是基于多模態(tài)能力實(shí)現(xiàn)的自主智能體產(chǎn)品。

基于多模態(tài)能力的AI修圖系列功能，也是應(yīng)用更加廣泛的方向。早在2010年，手機(jī)廠商就開始探索基于圖像理解的AI攝影算法，通過對(duì)圖片的理解，用算法還原圖片生成的細(xì)節(jié)。

而在生成式AI能力進(jìn)化的當(dāng)下，基于多模態(tài)大模型的一系列圖片優(yōu)化功能也是廠商重點(diǎn)宣傳的方向。從各大手機(jī)廠商必備的一鍵修圖、圖片識(shí)別等功能，都是基于人們?nèi)粘Ｉ钪械男枨蟪霭l(fā)。

這一次，榮耀也在發(fā)布會(huì)上帶來(lái)了AI修圖帶來(lái)的更多可能性。比如用AI實(shí)現(xiàn)“一鍵摳圖”，讓沒有PS功底的用戶也能輕松從圖片中摳出人像，自由移動(dòng)編輯；再比如“AI消除眼鏡反光”的功能，通過AI消除掉拍照時(shí)眼鏡折射的色彩。

在智能終端需求和多模態(tài)能力普及的當(dāng)下，二者一拍即合。

AI功能那么多，能用起來(lái)的有幾個(gè)？

從大模型火熱以來(lái)，手機(jī)廠商對(duì)AI的熱情無(wú)比高漲，開發(fā)的功能也是多如牛毛。

從對(duì)話式聊天助手、AI筆記、AI修圖到AI智能體，不上十幾個(gè)原生的AI應(yīng)用，那都沒法叫AI手機(jī)。

不過，用戶真正能日常使用起來(lái)的高頻應(yīng)用，并不多。很多AI功能，要么是獨(dú)立APP上有更好的替代品，要么就是功能雞肋用不起來(lái)。

另一方面，不少AI應(yīng)用目前的使用門檻還比較高，一個(gè)是對(duì)用戶的硬件環(huán)境有要求，需要PC端至少4090的顯卡才能跑起來(lái)；另一個(gè)是對(duì)用戶的技能有一定要求，下載、簡(jiǎn)單部署、甚至海外賬號(hào)的設(shè)置都能攔截掉一大批人。

以上面提到的圖生視頻來(lái)說(shuō)，雖然可靈、海螺的產(chǎn)品比較成熟，有了很高的可用性，但用戶也僅僅局限于相對(duì)專業(yè)的用戶范圍內(nèi)，比如設(shè)計(jì)師、動(dòng)畫制作師、新媒體從業(yè)者等，普通用戶想自己用起來(lái)還非常難。

但榮耀和生數(shù)科技Vidu共同在端側(cè)新推出的圖生視頻功能，無(wú)論是用來(lái)將過往的老照片變成視頻，還是靠圖生視頻抓住鮮活的時(shí)刻，就又給用戶記錄生活，創(chuàng)作靈感增添了許多可能。

而一張照片的視頻生成，只是一個(gè)開始。

智能終端與AI公司聯(lián)手后，參考生視頻、文生視頻等AI視頻的更多玩法，都有望進(jìn)一步遷移到智能終端中。

當(dāng)然，這將進(jìn)一步考驗(yàn)雙方端側(cè)AI、云端協(xié)同的技術(shù)能力，成本降低的能力。但真正能讓用戶用起來(lái)，才能真正增強(qiáng)產(chǎn)品的競(jìng)爭(zhēng)力，在手機(jī)競(jìng)爭(zhēng)的紅海中逆勢(shì)上升。

2024年，手機(jī)市場(chǎng)變化已經(jīng)證明了AI對(duì)于手機(jī)銷量的促進(jìn)作用。在全球手機(jī)銷量連續(xù)下滑兩年后，于AI概念真正落地手機(jī)的2024年，全球已經(jīng)連續(xù)4個(gè)季度實(shí)現(xiàn)了同比增長(zhǎng)。市場(chǎng)調(diào)研機(jī)構(gòu)Canalys提供數(shù)據(jù)顯示，2024年全球手機(jī)銷量達(dá)到12.2億，同比增長(zhǎng)7%。

比起在技術(shù)層的炫技，今年，AI在端側(cè)的落地將給人帶來(lái)更多驚喜。

特別聲明：本文為合作媒體授權(quán)DoNews專欄轉(zhuǎn)載，文章版權(quán)歸原作者及原出處所有。文章系作者個(gè)人觀點(diǎn)，不代表DoNews專欄的立場(chǎng)，轉(zhuǎn)載請(qǐng)聯(lián)系原作者及原出處獲取授權(quán)。(有任何疑問都請(qǐng)聯(lián)系idonews@donews.com)

標(biāo)簽: 人工智能

AI視頻“入駐”手機(jī)，多模態(tài)成智能終端的新戰(zhàn)場(chǎng)

掃描二維碼查看原文

分享自DoNews

關(guān)于我們| 電子協(xié)議| 合作聯(lián)系| 蜀ICP備2024059877號(hào)-1

網(wǎng)站信息

京公網(wǎng)安備11010802023059號(hào)

国产一区高清|日韩精品一区人妻|曰夲AV一区二区|美日韩一区二区三区|国产喷水在线观看|狼友网站成人大全|欧美日韩制服中文视频在线|久草加勒比手机在线|婷婷色综合无码专区|japanese 精品视频在线观看