国产一区高清|日韩精品一区人妻|曰夲AV一区二区|美日韩一区二区三区|国产喷水在线观看|狼友网站成人大全|欧美日韩制服中文视频在线|久草加勒比手机在线|婷婷色综合无码专区|japanese 精品视频在线观看

<fieldset id="qn4pm"></fieldset>

<fieldset id="qn4pm"></fieldset>

<span id="qn4pm"><code id="qn4pm"></code></span>

<fieldset id="qn4pm"><form id="qn4pm"></form></fieldset>

<fieldset id="qn4pm"><form id="qn4pm"></form></fieldset>

<legend id="gzzis"></legend>

<tt id="gzzis"></tt>

<menuitem id="gzzis"></menuitem>

DoNews > 商業(yè) > 效果炸裂！「百度蒸汽機」圓你大片導(dǎo)演夢！

效果炸裂！「百度蒸汽機」圓你大片導(dǎo)演夢！

原創(chuàng) 2025-08-22 18:42:50

555456

分享到

撰文 | 李信馬

題圖 |?2025熱AI大會

影史票房成績第一的《阿凡達》，制作成本高達2.8億美元，其中，用在特效上的差不多占了一半，有48家特效公司為之效力，每一幀（1/24秒）CGI，需要47人做一個小時才能完成。導(dǎo)演詹姆斯·卡梅隆后來評價道：“《阿凡達》是有史以來最復(fù)雜的一次電影制作?！?/p>

感謝AI時代，今天，不需要48家特效公司，最新的視頻模型，就能夠幫每一位愛好者圓自己的導(dǎo)演夢了。

今年的7月2日，在百度AI DAY開放日上，百度推出了視頻生成模型MuseSteamer（百度蒸汽機）。8月21日，百度正式發(fā)布和升級了百度蒸汽機2.0，Turbo版、Lite版、Pro版及有聲版本，并宣布全系開放。

直接看效果，下面是《阿凡達》中經(jīng)典的一幕，男主深情注視著女主：

圖片來源：《阿凡達》

然后DoNews用百度蒸汽機做出了一個10秒版本的鏡頭：地道的中國話，還有這令人親切的腔調(diào)和臺詞，搭配上畫面卻又毫不違和，怎么看都像是正版。那些在特效上花了巨資的導(dǎo)演，看到這一幕不知道心態(tài)如何，但筆者是真的爽了！

自Sora發(fā)布以來，視頻生成一直受到廣泛的關(guān)注，但是很多生成的模型頗為抽象和詭異，距離“好看”和“商用”都還有一定的距離?！赴俣日羝麢C2.0」的定位是全球首個中文音視頻一體化模型，但具體有什么優(yōu)點，又該怎么用呢？當(dāng)天，DoNews也受邀參加了發(fā)布會和采訪，讓我們一一道來。

01、視頻創(chuàng)作的效率革命

開局一張圖，中間一段腳本，幾分鐘后就是一段完成度極高的視頻？

放在幾年前，這樣的效率，絕大多數(shù)內(nèi)容創(chuàng)作者是想都不敢想的。視頻開場，就呈現(xiàn)兩段酷炫的運鏡，這是百度蒸汽機的最新能力。據(jù)了解，研發(fā)團隊通過海量專業(yè)運鏡數(shù)據(jù)進行了模型微調(diào)，我們普通人拍短視頻，會簡單的推拉移就算不錯了，而蒸汽機已經(jīng)熟練駕馭了環(huán)繞、搖鏡等幾十種復(fù)雜運鏡方式，新增的鏡頭語言，也給視頻表達提供了更豐富的選擇空間。

蒸汽機的指令遵循系統(tǒng)也進行了全方位升級，通過精準(zhǔn)的視頻主體刻畫，使視覺呈現(xiàn)細(xì)節(jié)與指令文本實現(xiàn)精確對應(yīng)。在畫面流暢度和人物表現(xiàn)細(xì)膩度方面，模型也有了質(zhì)的飛躍。剛剛的視頻，就是對經(jīng)典童話進行了解構(gòu)，視頻中人物的表演更加生動自然，梵高畫作的流動背景也令人沉醉。

還有一個不容易注意到，但實際上很重要的事情——視頻里的聲音，包括水聲、鐘聲等環(huán)境音效以及人物臺詞，都是自動生成的，而非遵循以往“生成無聲視頻——配音效——配臺詞——對口型”的流程?！赴俣日羝麢C2.0」不僅實現(xiàn)了音視頻一體化生成，更突破性地解決了多人對話、語言與人物面部/唇形/情緒一致性的技術(shù)難題。

百度商業(yè)體系商業(yè)研發(fā)總經(jīng)理劉林在演講中表示，技術(shù)突破為「百度蒸汽機2.0」帶來了四大創(chuàng)新點：

1、人物表演、情緒、聲音與神態(tài)的高度統(tǒng)一；

2、動態(tài)畫面與音效的精準(zhǔn)時空對齊；

3、多模態(tài)潛在空間規(guī)劃技術(shù)對故事連貫性的保障；

4、超擬真音色與場景氛圍、情緒的自然融合。

這是吹出來的，還是真實效果就是如此？昨天，百度蒸汽機2.0全系模型，包含Turbo、Lite、Pro及有聲版四個版本，均已正式發(fā)布并向用戶全面開放.

感興趣的讀者，在百度搜索、百度APP、手機瀏覽器百度搜索上搜「百度蒸汽機」或應(yīng)用平臺「繪想」，就可以上手試試了。有了AI打破傳統(tǒng)硬件要求的限制，每個人都可以拍屬于自己的“大片”。

而對百度蒸汽機的技術(shù)和故事更感興趣的朋友，我們接著往下看。

02、“雙人有聲” 難在哪？

視頻生成異軍突起，面對影視行業(yè)的痛點問題，如危險鏡頭難拍攝、理想場景難尋找，影視制作周期長，參與協(xié)同角色多、演員拍攝成本高、視覺特效投入大等問題，都可以完美解決。

當(dāng)天的嘉賓之一——知名好萊塢視效指導(dǎo)姚騏，參與了《2012》《黑客帝國3》《火星救援》《星際迷航》等電影的創(chuàng)作，他就直言，AI已深度滲透影視產(chǎn)業(yè)全流程：

在劇本創(chuàng)作階段，AI可以輔助構(gòu)建基礎(chǔ)架構(gòu)、設(shè)計故事線及生成對話內(nèi)容；美術(shù)設(shè)計領(lǐng)域，AI已經(jīng)全面覆蓋概念設(shè)計與故事板制作；拍攝環(huán)節(jié)中，從攝影機控制、運動捕捉到燈光設(shè)置，AI均能提供技術(shù)輔助；后期制作流程中，AI在摳像、跟蹤、模型構(gòu)建、動畫制作及特效合成等環(huán)節(jié)被廣泛應(yīng)用。

有了AI，好處多多。高危鏡頭可以交給AI完成，奇幻場景可以由AI構(gòu)建，制作周期被縮短，演員片酬、特效鏡頭的價格都大大降低了?？梢哉f，電影業(yè)因AI進入了新的工業(yè)化階段。

這次蒸汽機的核心技術(shù)突破，就是做到多人音畫同步，這一點連姚騏都表示了驚喜：“可以看到，蒸汽機在角色不同的?度下，口型自然，還確保音色和環(huán)境音的契合，細(xì)致的音效和環(huán)境音表現(xiàn)都很好?！?/p>

百度商業(yè)研發(fā)首席架構(gòu)師李雙龍在采訪中表示，谷歌在6月份推出的Veo3，是首個音視頻大模型，但是它并不能支持中文，而百度蒸汽機是首個支持中文的音視頻生成大模型，整個研發(fā)過程中，百度也面臨著很多技術(shù)上的挑戰(zhàn)。

據(jù)了解，多人對話有聲視頻生成面臨的核心技術(shù)難點，在于多模態(tài)信息的精準(zhǔn)同步與自然交互。唇形同步要求極高精度，需確保每位說話者的口型與語音波形在毫秒級對齊，并在側(cè)臉、遮擋等復(fù)雜場景表現(xiàn)穩(wěn)定。其次，角色區(qū)分與交互自然性，系統(tǒng)必須準(zhǔn)確識別不同說話者的聲紋特征，同步生成對應(yīng)的面部表情、肢體語言及視線方向，避免出現(xiàn)角色錯位或機械化的集體反應(yīng)。另外在情感一致性上也難以把控，需協(xié)調(diào)語音的情感語調(diào)（如憤怒、驚訝）與角色的微表情、肢體動態(tài)保持統(tǒng)一。此外，算法需在合成環(huán)境音效的同時，確保多人語音清晰分離且符合虛擬場景的聲學(xué)邏輯。

“首先，我們要做到多角色的形聲容一體化生成能力，也就是讓模型通過自主理解思考規(guī)劃實現(xiàn)多角色的語音、動作、表情等元素的完美匹配，其次就是如何通過端到端的訓(xùn)練學(xué)習(xí)達成這樣的一體化生成效果，而不是把整個生成過程拆成很多步進行訓(xùn)練。能做到這些是非常有挑戰(zhàn)的事情?！崩铍p龍說。

當(dāng)下業(yè)界主流一般是通過多角色多條件輸入控制的方式來實現(xiàn)，就是人工預(yù)先編排好讓哪一個角色先說，哪一個角色后說，具體說什么、用什么音色等，成本高且效果不好，而蒸汽機首創(chuàng)了lmmp技術(shù)實現(xiàn)了自動化的多角色隱式理解規(guī)劃編排學(xué)習(xí)，無需人工多角色編排且效果顯著領(lǐng)先業(yè)界主流技術(shù)。同時，蒸汽機處理和學(xué)習(xí)了大量跟中文語音語境相關(guān)的優(yōu)質(zhì)數(shù)據(jù)，讓模型能夠充分去理解中文特有的發(fā)音、語境特色等，實現(xiàn)了更好的中文化適配和生成?！斑@一次，我們開發(fā)了首個專門面向中文語境、中文語音的音視生成大模型，也是為我們中國的視頻創(chuàng)作者，提供上支持中文的音視生成大模型?！?/p>

03、想象力：從創(chuàng)作到商業(yè)

想象力是創(chuàng)作的一切，可能這也是百度蒸汽機的以“想象力”作為消費單位的原因之一。但技術(shù)也好，創(chuàng)作也好，想要長期可持續(xù)的發(fā)展，都要考慮商業(yè)化的落地，可喜的是，在這方面，視頻生成也頗具想象力。

當(dāng)天發(fā)布會的一個高潮，就是公布價格。百度蒸汽機的價格體系極具競爭力，針對不同需求用戶提供了梯度會員服務(wù)，價格低至行業(yè)同類產(chǎn)品的70%，新用戶注冊即可免費獲得部分想象力值。

比如，Turbo版模型720P的價格定在1.4元/5秒，10秒價格為2.8元。值得一提的是，Turbo有聲版價格與無聲版完全一致，而行業(yè)傳統(tǒng)流程中生成5秒720P視頻需經(jīng)歷配音效、配臺詞等步驟，綜合成本達3.5元，形成了極具競爭力的價格優(yōu)勢。

姚騏就帶來了一部用百度蒸汽機制作的作品《歸途》，40個鏡頭用到了120個視頻片段，其中有18個10秒的一體化有聲片段和102個5秒有聲片段。按照定價標(biāo)準(zhǔn)來算，大約330.6元錢，可以說達到了極致的成本控制。

這個是單純的價格戰(zhàn)嗎？對此百度副總裁、移動生態(tài)商業(yè)體系負(fù)責(zé)人陳一凡表示：“我們在收集大家的需求過程中，發(fā)現(xiàn)除了質(zhì)量，更重要的就是成本。成本不降下來，大家不肯用，不肯用就根本到不了質(zhì)量。所以我們在訓(xùn)練的時候，就兼顧了成本?！?/p>

百度的團隊很早就基于GPU進行計算，在各方面有了深厚的積累，因此成功地將成本降了下來，降低了應(yīng)用的門檻。當(dāng)天，還展示了多條用百度蒸汽機制作的廣告，來自一汽大眾、伊利等公司。除了大公司，對很多中小公司來說，這也是極大的利好。

“為什么我們要做這一件事？其實有好多的小說廣告主，想用視頻來投廣告，發(fā)現(xiàn)像‘僵尸入境’之類的視頻，很難自己做出來，用AI來做視頻物料，投放就非常好。還有廣泛的中小企業(yè)，用蒸汽機來幫他們基于現(xiàn)在的物料做生成，能很快做出想要的視頻來，這樣也有利于廣大的中小廣告主在百度的場域來做分發(fā)。百度的廣告收入很大一部分是中小客戶帶來的，所以幫助他們在這個時代獲取更多的流量和需要的用戶，也是我們做這個的價值?！瓣愐环舱f到。

據(jù)了解，作為百度內(nèi)容生產(chǎn)的重要工具，百度蒸汽機直接服務(wù)于搜索、信息流等核心業(yè)務(wù)，畢竟，如果能帶來搜索收入1%的增長，也意味著數(shù)十億級別的收入。

而在技術(shù)發(fā)展的方向上，百度商業(yè)研發(fā)首席架構(gòu)師李雙龍表示：“其實Sora剛出來的時候，雖然有很大的技術(shù)突破性，但是效果上跟我們想象的世界模型差距還是挺大的。未來我們會在世界模型這個方向上面持續(xù)探索，做出更大的技術(shù)突破?！?/p>

標(biāo)簽: 百度百度蒸汽機

效果炸裂！「百度蒸汽機」圓你大片導(dǎo)演夢！

掃描二維碼查看原文

分享自DoNews

關(guān)于我們| 電子協(xié)議| 合作聯(lián)系| 蜀ICP備2024059877號-1

網(wǎng)站信息

Copyright ? DoNews 2000-2025 All Rights Reserved
蜀ICP備2024059877號-1
聯(lián)系地址：北京市海淀區(qū)寶盛東路興華綠色產(chǎn)業(yè)樓3層307室（東升地區(qū)）
郵箱：jubao@infinities.com.cn
網(wǎng)上有害信息舉報專區(qū): www.12377.cn

Copyright ? DoNews 2000-2025 All Rights Reserved
蜀ICP備2024059877號-1

京公網(wǎng)安備11010802023059號

<legend id="83owu"></legend>