文|樂樂
今天,無(wú)線藍(lán)牙耳機(jī)(TWS)已經(jīng)成為人人都用得起的產(chǎn)品。?
但退回到9年前,蘋果AirPods是全球第一款真正意義上的無(wú)線藍(lán)牙耳機(jī)??恐匝胁⑸暾?qǐng)專利的Snoop監(jiān)聽技術(shù),蘋果解決了藍(lán)牙耳機(jī)左右延時(shí)和能耗不一的問題。由此,AirPods吃下了2016-2018年的大部分市場(chǎng),直到兩年后其它廠商才學(xué)會(huì)類似技術(shù)。
靠技術(shù)紅利獲勝,是蘋果的經(jīng)典操作,也是今天的手機(jī)廠商們?cè)谔O果身上學(xué)到的重要一課。
對(duì)于近兩年的手機(jī)市場(chǎng)來(lái)說(shuō),AI無(wú)疑就是攪動(dòng)手機(jī)市場(chǎng)的關(guān)鍵技術(shù)變量。
為了找到AI技術(shù)落地的殺手級(jí)功能,從Agent、AI修圖到AI問答,智能終端在做的事情就是在AI生態(tài)上盡可能做各種各樣的加法。
在高度同質(zhì)化的AI手機(jī)賽道,手機(jī)廠商們亟需找到創(chuàng)新的AI技術(shù)落地功能。而榮耀,正在悄悄拿下多個(gè)首發(fā)優(yōu)勢(shì)。
在近期榮耀400的發(fā)布會(huì)現(xiàn)場(chǎng),圖生視頻成了榮耀“吃螃蟹”的又一首發(fā)功能,這背后是合作方生數(shù)科技旗下的AI視頻大模型在移動(dòng)端的首次規(guī)?;涞?。
聯(lián)手生數(shù)科技Vidu,榮耀突破了三大難關(guān)——保持風(fēng)格一致性、對(duì)物理世界的理解、端側(cè)成本壓縮,讓用戶免費(fèi)體驗(yàn)“老照片復(fù)活術(shù)”。
而就在兩個(gè)月前,生數(shù)科技?Vidu Q1模型剛以VBench雙榜第一的成績(jī)碾壓Sora與Runway,如今就悄然鉆進(jìn)千萬(wàn)用戶的口袋。
這場(chǎng)合作背后,一場(chǎng)更深層的變革正在發(fā)酵。
當(dāng)前,多模態(tài)正在重構(gòu)智能終端的交互體驗(yàn),手機(jī)正成為圖生視頻技術(shù)普惠的戰(zhàn)場(chǎng)之一。當(dāng)大模型的技術(shù)競(jìng)賽從語(yǔ)言模型延伸到多模態(tài),“讓記憶重獲生命”的圖生視頻,或許正是打開大眾市場(chǎng)的第一把鑰匙。
當(dāng)圖生視頻在手機(jī)上跑起來(lái)
一張由AI制作的“Live Photo”,成為了榮耀發(fā)布會(huì)現(xiàn)場(chǎng)眾人討論的焦點(diǎn)。?
照片中,一個(gè)小孩抱著窗簾看向鏡頭微笑。經(jīng)由圖生視頻功能加工后,小孩抓著窗簾向一邊搖晃,頭部也隨著晃動(dòng)方向微微傾斜,臉上掛著的笑容變成了動(dòng)態(tài),能看到嘴角咧起的弧度和鼓起的臉頰。
在榮耀產(chǎn)品線總裁方飛的演示中,只需要點(diǎn)擊“AI生圖”功能,選定相應(yīng)照片和生成的視頻時(shí)長(zhǎng)(3秒/5秒),AI就能根據(jù)圖片場(chǎng)景生成一段流暢的視頻。上述案例就是由該功能生成。
早在3月宣布向AI終端生態(tài)公司轉(zhuǎn)型的榮耀,在數(shù)字系列榮耀400上落地了一系列AI能力。光是照片一項(xiàng),榮耀就上線了AI圖生視頻、AI去褶皺、AI去眼鏡反光、AI去玻璃反光、圖生視頻等優(yōu)化功能。
看起來(lái)簡(jiǎn)單的視頻演示,背后是圖生視頻技術(shù)落地智能終端的一大步:攻克了技術(shù)難點(diǎn),才能讓AI視頻看起來(lái)無(wú)限趨近于真實(shí)。
首先,要想讓視頻動(dòng)起來(lái)的效果符合真實(shí)世界的運(yùn)行規(guī)律,就是視頻生成模型們?cè)缙诘耐ú?。比如提示詞設(shè)定成兩個(gè)人打羽毛球,交給AI來(lái)做,球可能會(huì)出現(xiàn)憑空飛起或者不按照球拍擊打軌跡飛行等問題,導(dǎo)致生成出來(lái)的作品無(wú)法使用。
當(dāng)下,如何更好地模擬物理世界規(guī)律,也成了大模型們面前的難關(guān)。就在3月份,生數(shù)科技發(fā)布的模型Vidu Q1,在VBench-1.0的視頻質(zhì)量、視頻語(yǔ)義一致性和 VBench-2.0的常識(shí)推理、物理理解等綜合維度上達(dá)到SOTA水平。靠著對(duì)提示詞的理解力增強(qiáng),Vidu能自動(dòng)識(shí)別人物動(dòng)作、光影、位置關(guān)系等內(nèi)容,讓生成的視頻在動(dòng)態(tài)上符合物理世界規(guī)律。
此外,在風(fēng)格一致性上,擅長(zhǎng)動(dòng)漫、水墨等多種畫風(fēng)理解的Vidu,在保持原圖風(fēng)格一致上的表現(xiàn)相對(duì)穩(wěn)定。相比于會(huì)把真實(shí)圖片上傳后隨機(jī)轉(zhuǎn)換成油畫、動(dòng)漫等風(fēng)格的視頻生成模型,Vidu顯然在場(chǎng)景理解上的表現(xiàn)更勝一籌。
不過,要想讓AI視頻真正普及,還需要考慮的就是生成速度和成本問題。等待時(shí)間超過幾分鐘,用戶體驗(yàn)感會(huì)直線下滑,成本太高也會(huì)拖垮手機(jī)廠商的錢包。
而榮耀和生數(shù)科技一起克服了這幾個(gè)問題,把圖生視頻玩法搬上了手機(jī)。相對(duì)于各大視頻應(yīng)用靠會(huì)員制收費(fèi),榮耀的圖生視頻功能完全免費(fèi),讓用戶不花錢也能體驗(yàn)。
雖然這次并未公布具體的生成時(shí)長(zhǎng)和成本,但根據(jù)此前Vidu 1.5版本做到幾秒生成、Vidu 2.0單秒成本最低不到3毛錢的價(jià)格來(lái)看,AI視頻已經(jīng)具備了落地端側(cè)的條件。
除此之外,AI視頻大模型的技術(shù)一直在進(jìn)步,未來(lái)或?qū)⒃谑謾C(jī)等智能終端中實(shí)現(xiàn)更多的功能。
比如,AI視頻一直存在一個(gè)技術(shù)難點(diǎn)——主體一致性。主體一致性,是指保持人物、物體、環(huán)境等主體一致,不會(huì)面部五官亂飛,環(huán)境前后連貫
2024年,生數(shù)科技在新模型Vidu 1.5中實(shí)現(xiàn)多主體一致性,使用者可以上傳背景和多個(gè)主體人物的照片,AI就能將這些自定義元素組合在一起,根據(jù)提示詞生成視頻。
以多主體一致性來(lái)說(shuō),海螺AI的“主體參考”功能和可靈的“多圖參考”均在今年1月上線,比Vidu慢了2個(gè)月。
多模態(tài),智能終端的新戰(zhàn)場(chǎng)
多模態(tài)大模型,最近半年內(nèi)正在肉眼可見的批量落地。
在App端,字節(jié)在5月23日給自家AI助手應(yīng)用豆包裝上了視頻通話功能。背靠自研的視頻推理模型,豆包不僅能“睜眼看世界”,還能根據(jù)看到的畫面推測(cè)接下來(lái)的動(dòng)作,比如炒菜的時(shí)候,豆包能夠根據(jù)原料猜出對(duì)應(yīng)的菜,并且給出炒菜的具體步驟。
騰訊則在5月份發(fā)布了語(yǔ)音模型Human-Voice,并預(yù)告騰訊元寶將會(huì)在6月上線語(yǔ)音通話功能。同時(shí),騰訊還會(huì)上線全球首個(gè)全模態(tài)模型“混元-O”。
在智能終端上,本身通過GUI(圖形用戶界面)實(shí)現(xiàn)交互的手機(jī)廠商們,就是多模態(tài)大模型的重要載體。
可以說(shuō),從這一輪生成式AI開始時(shí),多模態(tài)AI就被廠商納入了考慮范圍。只是一開始在技術(shù)能力受限的情況下,大語(yǔ)言模型成為了端側(cè)大模型落地最早的一種。
多模態(tài)模型在端測(cè)的應(yīng)用更廣,場(chǎng)景更多,不僅可以為以往場(chǎng)景賦能,還能有新的互動(dòng)體驗(yàn)場(chǎng)景,受眾范圍也會(huì)更廣,因?yàn)橐曨l圖像的受眾總是大于文字的。
隨著多模態(tài)能力的技術(shù)進(jìn)步,端側(cè)語(yǔ)音和視頻交互的比重正在上升。
比如,一些在端側(cè)運(yùn)行的大語(yǔ)言模型逐漸被多模態(tài)大模型代替,相應(yīng)應(yīng)用的底座也升級(jí)為多模態(tài):
2024年1月,榮耀發(fā)布自研端側(cè)70億參數(shù)平臺(tái)級(jí)AI大模型“魔法大模型”家族,包括語(yǔ)言大模型和圖像、語(yǔ)音多模態(tài)大模型,支持智慧成片、圖庫(kù)語(yǔ)義搜索等功能,讓AI能夠“理解”圖片;在購(gòu)物、娛樂、辦公等場(chǎng)景,開啟跨時(shí)代交互體驗(yàn)。2024年5月,vivo發(fā)布多模態(tài)大模型技術(shù)應(yīng)用“vivo看見-藍(lán)心升級(jí)版”,用于幫助視障用戶理解世界。
伴隨行業(yè)多模態(tài)能力的突破,以往受限于能力不足的AI應(yīng)用,也迎來(lái)了能力突破。
其中,最突出的應(yīng)用領(lǐng)域就是Agent(智能體)。通過調(diào)用手機(jī)屏幕截圖,再將圖片提供給多模態(tài)大模型的方式,AI開始能夠真正“理解”屏幕信息,并根據(jù)用戶指令工作。這就有了去年以榮耀為首等一系列手機(jī)廠商開卷智能體的動(dòng)作,從榮耀的YoYo智能體到vivo藍(lán)心智能體再到OPPO的“AI問屏”,都是基于多模態(tài)能力實(shí)現(xiàn)的自主智能體產(chǎn)品。
基于多模態(tài)能力的AI修圖系列功能,也是應(yīng)用更加廣泛的方向。早在2010年,手機(jī)廠商就開始探索基于圖像理解的AI攝影算法,通過對(duì)圖片的理解,用算法還原圖片生成的細(xì)節(jié)。
而在生成式AI能力進(jìn)化的當(dāng)下,基于多模態(tài)大模型的一系列圖片優(yōu)化功能也是廠商重點(diǎn)宣傳的方向。從各大手機(jī)廠商必備的一鍵修圖、圖片識(shí)別等功能,都是基于人們?nèi)粘I钪械男枨蟪霭l(fā)。
這一次,榮耀也在發(fā)布會(huì)上帶來(lái)了AI修圖帶來(lái)的更多可能性。比如用AI實(shí)現(xiàn)“一鍵摳圖”,讓沒有PS功底的用戶也能輕松從圖片中摳出人像,自由移動(dòng)編輯;再比如“AI消除眼鏡反光”的功能,通過AI消除掉拍照時(shí)眼鏡折射的色彩。
在智能終端需求和多模態(tài)能力普及的當(dāng)下,二者一拍即合。
AI功能那么多,能用起來(lái)的有幾個(gè)?
從大模型火熱以來(lái),手機(jī)廠商對(duì)AI的熱情無(wú)比高漲,開發(fā)的功能也是多如牛毛。
從對(duì)話式聊天助手、AI筆記、AI修圖到AI智能體,不上十幾個(gè)原生的AI應(yīng)用,那都沒法叫AI手機(jī)。
不過,用戶真正能日常使用起來(lái)的高頻應(yīng)用,并不多。很多AI功能,要么是獨(dú)立APP上有更好的替代品,要么就是功能雞肋用不起來(lái)。
另一方面,不少AI應(yīng)用目前的使用門檻還比較高,一個(gè)是對(duì)用戶的硬件環(huán)境有要求,需要PC端至少4090的顯卡才能跑起來(lái);另一個(gè)是對(duì)用戶的技能有一定要求,下載、簡(jiǎn)單部署、甚至海外賬號(hào)的設(shè)置都能攔截掉一大批人。
以上面提到的圖生視頻來(lái)說(shuō),雖然可靈、海螺的產(chǎn)品比較成熟,有了很高的可用性,但用戶也僅僅局限于相對(duì)專業(yè)的用戶范圍內(nèi),比如設(shè)計(jì)師、動(dòng)畫制作師、新媒體從業(yè)者等,普通用戶想自己用起來(lái)還非常難。
但榮耀和生數(shù)科技Vidu共同在端側(cè)新推出的圖生視頻功能,無(wú)論是用來(lái)將過往的老照片變成視頻,還是靠圖生視頻抓住鮮活的時(shí)刻,就又給用戶記錄生活,創(chuàng)作靈感增添了許多可能。
而一張照片的視頻生成,只是一個(gè)開始。
智能終端與AI公司聯(lián)手后,參考生視頻、文生視頻等AI視頻的更多玩法,都有望進(jìn)一步遷移到智能終端中。
當(dāng)然,這將進(jìn)一步考驗(yàn)雙方端側(cè)AI、云端協(xié)同的技術(shù)能力,成本降低的能力。但真正能讓用戶用起來(lái),才能真正增強(qiáng)產(chǎn)品的競(jìng)爭(zhēng)力,在手機(jī)競(jìng)爭(zhēng)的紅海中逆勢(shì)上升。
2024年,手機(jī)市場(chǎng)變化已經(jīng)證明了AI對(duì)于手機(jī)銷量的促進(jìn)作用。在全球手機(jī)銷量連續(xù)下滑兩年后,于AI概念真正落地手機(jī)的2024年,全球已經(jīng)連續(xù)4個(gè)季度實(shí)現(xiàn)了同比增長(zhǎng)。市場(chǎng)調(diào)研機(jī)構(gòu)Canalys提供數(shù)據(jù)顯示,2024年全球手機(jī)銷量達(dá)到12.2億,同比增長(zhǎng)7%。
比起在技術(shù)層的炫技,今年,AI在端側(cè)的落地將給人帶來(lái)更多驚喜。
特別聲明:本文為合作媒體授權(quán)DoNews專欄轉(zhuǎn)載,文章版權(quán)歸原作者及原出處所有。文章系作者個(gè)人觀點(diǎn),不代表DoNews專欄的立場(chǎng),轉(zhuǎn)載請(qǐng)聯(lián)系原作者及原出處獲取授權(quán)。(有任何疑問都請(qǐng)聯(lián)系idonews@donews.com)