撰文 | 李信馬
題圖 |?2025熱AI大會(huì)
影史票房成績第一的《阿凡達(dá)》,制作成本高達(dá)2.8億美元,其中,用在特效上的差不多占了一半,有48家特效公司為之效力,每一幀(1/24秒)CGI,需要47人做一個(gè)小時(shí)才能完成。導(dǎo)演詹姆斯·卡梅隆后來評價(jià)道:“《阿凡達(dá)》是有史以來最復(fù)雜的一次電影制作?!?/p>
感謝AI時(shí)代,今天,不需要48家特效公司,最新的視頻模型,就能夠幫每一位愛好者圓自己的導(dǎo)演夢了。
今年的7月2日,在百度AI DAY開放日上,百度推出了視頻生成模型MuseSteamer(百度蒸汽機(jī))。8月21日,百度正式發(fā)布和升級(jí)了百度蒸汽機(jī)2.0,Turbo版、Lite版、Pro版及有聲版本,并宣布全系開放。
直接看效果,下面是《阿凡達(dá)》中經(jīng)典的一幕,男主深情注視著女主:
圖片來源:《阿凡達(dá)》
然后DoNews用百度蒸汽機(jī)做出了一個(gè)10秒版本的鏡頭:地道的中國話,還有這令人親切的腔調(diào)和臺(tái)詞,搭配上畫面卻又毫不違和,怎么看都像是正版。那些在特效上花了巨資的導(dǎo)演,看到這一幕不知道心態(tài)如何,但筆者是真的爽了!
自Sora發(fā)布以來,視頻生成一直受到廣泛的關(guān)注,但是很多生成的模型頗為抽象和詭異,距離“好看”和“商用”都還有一定的距離?!赴俣日羝麢C(jī)2.0」的定位是全球首個(gè)中文音視頻一體化模型,但具體有什么優(yōu)點(diǎn),又該怎么用呢?當(dāng)天,DoNews也受邀參加了發(fā)布會(huì)和采訪,讓我們一一道來。
01、視頻創(chuàng)作的效率革命
開局一張圖,中間一段腳本,幾分鐘后就是一段完成度極高的視頻?
放在幾年前,這樣的效率,絕大多數(shù)內(nèi)容創(chuàng)作者是想都不敢想的。 視頻開場,就呈現(xiàn)兩段酷炫的運(yùn)鏡,這是百度蒸汽機(jī)的最新能力。據(jù)了解,研發(fā)團(tuán)隊(duì)通過海量專業(yè)運(yùn)鏡數(shù)據(jù)進(jìn)行了模型微調(diào),我們普通人拍短視頻,會(huì)簡單的推拉移就算不錯(cuò)了,而蒸汽機(jī)已經(jīng)熟練駕馭了環(huán)繞、搖鏡等幾十種復(fù)雜運(yùn)鏡方式,新增的鏡頭語言,也給視頻表達(dá)提供了更豐富的選擇空間。
蒸汽機(jī)的指令遵循系統(tǒng)也進(jìn)行了全方位升級(jí),通過精準(zhǔn)的視頻主體刻畫,使視覺呈現(xiàn)細(xì)節(jié)與指令文本實(shí)現(xiàn)精確對應(yīng)。在畫面流暢度和人物表現(xiàn)細(xì)膩度方面,模型也有了質(zhì)的飛躍。剛剛的視頻,就是對經(jīng)典童話進(jìn)行了解構(gòu),視頻中人物的表演更加生動(dòng)自然,梵高畫作的流動(dòng)背景也令人沉醉。
還有一個(gè)不容易注意到,但實(shí)際上很重要的事情——視頻里的聲音,包括水聲、鐘聲等環(huán)境音效以及人物臺(tái)詞,都是自動(dòng)生成的,而非遵循以往“生成無聲視頻——配音效——配臺(tái)詞——對口型”的流程?!赴俣日羝麢C(jī)2.0」不僅實(shí)現(xiàn)了音視頻一體化生成,更突破性地解決了多人對話、語言與人物面部/唇形/情緒一致性的技術(shù)難題。
百度商業(yè)體系商業(yè)研發(fā)總經(jīng)理劉林在演講中表示,技術(shù)突破為「百度蒸汽機(jī)2.0」帶來了四大創(chuàng)新點(diǎn):
1、人物表演、情緒、聲音與神態(tài)的高度統(tǒng)一;
2、動(dòng)態(tài)畫面與音效的精準(zhǔn)時(shí)空對齊;
3、多模態(tài)潛在空間規(guī)劃技術(shù)對故事連貫性的保障;
4、超擬真音色與場景氛圍、情緒的自然融合。
這是吹出來的,還是真實(shí)效果就是如此?昨天,百度蒸汽機(jī)2.0全系模型,包含Turbo、Lite、Pro及有聲版四個(gè)版本,均已正式發(fā)布并向用戶全面開放.
感興趣的讀者,在百度搜索、百度APP、手機(jī)瀏覽器百度搜索上搜「百度蒸汽機(jī)」或應(yīng)用平臺(tái)「繪想」,就可以上手試試了。有了AI打破傳統(tǒng)硬件要求的限制,每個(gè)人都可以拍屬于自己的“大片”。
而對百度蒸汽機(jī)的技術(shù)和故事更感興趣的朋友,我們接著往下看。
02、“雙人有聲” 難在哪?
視頻生成異軍突起,面對影視行業(yè)的痛點(diǎn)問題,如危險(xiǎn)鏡頭難拍攝、理想場景難尋找,影視制作周期長,參與協(xié)同角色多、演員拍攝成本高、視覺特效投入大等問題,都可以完美解決。
當(dāng)天的嘉賓之一——知名好萊塢視效指導(dǎo)姚騏,參與了《2012》《黑客帝國3》《火星救援》《星際迷航》等電影的創(chuàng)作,他就直言,AI已深度滲透影視產(chǎn)業(yè)全流程:
在劇本創(chuàng)作階段,AI可以輔助構(gòu)建基礎(chǔ)架構(gòu)、設(shè)計(jì)故事線及生成對話內(nèi)容;美術(shù)設(shè)計(jì)領(lǐng)域,AI已經(jīng)全面覆蓋概念設(shè)計(jì)與故事板制作;拍攝環(huán)節(jié)中,從攝影機(jī)控制、運(yùn)動(dòng)捕捉到燈光設(shè)置,AI均能提供技術(shù)輔助;后期制作流程中,AI在摳像、跟蹤、模型構(gòu)建、動(dòng)畫制作及特效合成等環(huán)節(jié)被廣泛應(yīng)用。
有了AI,好處多多。高危鏡頭可以交給AI完成,奇幻場景可以由AI構(gòu)建,制作周期被縮短,演員片酬、特效鏡頭的價(jià)格都大大降低了??梢哉f,電影業(yè)因AI進(jìn)入了新的工業(yè)化階段。
這次蒸汽機(jī)的核心技術(shù)突破,就是做到多人音畫同步,這一點(diǎn)連姚騏都表示了驚喜:“可以看到,蒸汽機(jī)在角色不同的?度下,口型自然,還確保音色和環(huán)境音的契合,細(xì)致的音效和環(huán)境音表現(xiàn)都很好?!?/p>
百度商業(yè)研發(fā)首席架構(gòu)師李雙龍?jiān)诓稍L中表示,谷歌在6月份推出的Veo3,是首個(gè)音視頻大模型,但是它并不能支持中文,而百度蒸汽機(jī)是首個(gè)支持中文的音視頻生成大模型,整個(gè)研發(fā)過程中,百度也面臨著很多技術(shù)上的挑戰(zhàn)。
據(jù)了解,多人對話有聲視頻生成面臨的核心技術(shù)難點(diǎn),在于多模態(tài)信息的精準(zhǔn)同步與自然交互。唇形同步要求極高精度,需確保每位說話者的口型與語音波形在毫秒級(jí)對齊,并在側(cè)臉、遮擋等復(fù)雜場景表現(xiàn)穩(wěn)定。其次,角色區(qū)分與交互自然性,系統(tǒng)必須準(zhǔn)確識(shí)別不同說話者的聲紋特征,同步生成對應(yīng)的面部表情、肢體語言及視線方向,避免出現(xiàn)角色錯(cuò)位或機(jī)械化的集體反應(yīng)。另外在情感一致性上也難以把控,需協(xié)調(diào)語音的情感語調(diào)(如憤怒、驚訝)與角色的微表情、肢體動(dòng)態(tài)保持統(tǒng)一。此外,算法需在合成環(huán)境音效的同時(shí),確保多人語音清晰分離且符合虛擬場景的聲學(xué)邏輯。
“首先,我們要做到多角色的形聲容一體化生成能力,也就是讓模型通過自主理解思考規(guī)劃實(shí)現(xiàn)多角色的語音、動(dòng)作、表情等元素的完美匹配,其次就是如何通過端到端的訓(xùn)練學(xué)習(xí)達(dá)成這樣的一體化生成效果,而不是把整個(gè)生成過程拆成很多步進(jìn)行訓(xùn)練。能做到這些是非常有挑戰(zhàn)的事情。”李雙龍說。
當(dāng)下業(yè)界主流一般是通過多角色多條件輸入控制的方式來實(shí)現(xiàn),就是人工預(yù)先編排好讓哪一個(gè)角色先說,哪一個(gè)角色后說,具體說什么、用什么音色等,成本高且效果不好,而蒸汽機(jī)首創(chuàng)了lmmp技術(shù)實(shí)現(xiàn)了自動(dòng)化的多角色隱式理解規(guī)劃編排學(xué)習(xí),無需人工多角色編排且效果顯著領(lǐng)先業(yè)界主流技術(shù)。同時(shí),蒸汽機(jī)處理和學(xué)習(xí)了大量跟中文語音語境相關(guān)的優(yōu)質(zhì)數(shù)據(jù),讓模型能夠充分去理解中文特有的發(fā)音、語境特色等,實(shí)現(xiàn)了更好的中文化適配和生成?!斑@一次,我們開發(fā)了首個(gè)專門面向中文語境、中文語音的音視生成大模型,也是為我們中國的視頻創(chuàng)作者,提供上支持中文的音視生成大模型?!?/p>
03、想象力:從創(chuàng)作到商業(yè)
想象力是創(chuàng)作的一切,可能這也是百度蒸汽機(jī)的以“想象力”作為消費(fèi)單位的原因之一。但技術(shù)也好,創(chuàng)作也好,想要長期可持續(xù)的發(fā)展,都要考慮商業(yè)化的落地,可喜的是,在這方面,視頻生成也頗具想象力。
當(dāng)天發(fā)布會(huì)的一個(gè)高潮,就是公布價(jià)格。百度蒸汽機(jī)的價(jià)格體系極具競爭力,針對不同需求用戶提供了梯度會(huì)員服務(wù),價(jià)格低至行業(yè)同類產(chǎn)品的70%,新用戶注冊即可免費(fèi)獲得部分想象力值。
比如,Turbo版模型720P的價(jià)格定在1.4元/5秒,10秒價(jià)格為2.8元。值得一提的是,Turbo有聲版價(jià)格與無聲版完全一致,而行業(yè)傳統(tǒng)流程中生成5秒720P視頻需經(jīng)歷配音效、配臺(tái)詞等步驟,綜合成本達(dá)3.5元,形成了極具競爭力的價(jià)格優(yōu)勢。
姚騏就帶來了一部用百度蒸汽機(jī)制作的作品《歸途》,40個(gè)鏡頭用到了120個(gè)視頻片段,其中有18個(gè)10秒的一體化有聲片段和102個(gè)5秒有聲片段。按照定價(jià)標(biāo)準(zhǔn)來算,大約330.6元錢,可以說達(dá)到了極致的成本控制。
這個(gè)是單純的價(jià)格戰(zhàn)嗎?對此百度副總裁、移動(dòng)生態(tài)商業(yè)體系負(fù)責(zé)人陳一凡表示:“我們在收集大家的需求過程中,發(fā)現(xiàn)除了質(zhì)量,更重要的就是成本。成本不降下來,大家不肯用,不肯用就根本到不了質(zhì)量。所以我們在訓(xùn)練的時(shí)候,就兼顧了成本。”
百度的團(tuán)隊(duì)很早就基于GPU進(jìn)行計(jì)算,在各方面有了深厚的積累,因此成功地將成本降了下來,降低了應(yīng)用的門檻。當(dāng)天,還展示了多條用百度蒸汽機(jī)制作的廣告,來自一汽大眾、伊利等公司。除了大公司,對很多中小公司來說,這也是極大的利好。
“為什么我們要做這一件事?其實(shí)有好多的小說廣告主,想用視頻來投廣告,發(fā)現(xiàn)像‘僵尸入境’之類的視頻,很難自己做出來,用AI來做視頻物料,投放就非常好。還有廣泛的中小企業(yè),用蒸汽機(jī)來幫他們基于現(xiàn)在的物料做生成,能很快做出想要的視頻來,這樣也有利于廣大的中小廣告主在百度的場域來做分發(fā)。百度的廣告收入很大一部分是中小客戶帶來的,所以幫助他們在這個(gè)時(shí)代獲取更多的流量和需要的用戶,也是我們做這個(gè)的價(jià)值。“陳一凡說到。
據(jù)了解,作為百度內(nèi)容生產(chǎn)的重要工具,百度蒸汽機(jī)直接服務(wù)于搜索、信息流等核心業(yè)務(wù),畢竟,如果能帶來搜索收入1%的增長,也意味著數(shù)十億級(jí)別的收入。
而在技術(shù)發(fā)展的方向上,百度商業(yè)研發(fā)首席架構(gòu)師李雙龍表示:“其實(shí)Sora剛出來的時(shí)候,雖然有很大的技術(shù)突破性,但是效果上跟我們想象的世界模型差距還是挺大的。未來我們會(huì)在世界模型這個(gè)方向上面持續(xù)探索,做出更大的技術(shù)突破?!?/p>