国产一区高清|日韩精品一区人妻|曰夲AV一区二区|美日韩一区二区三区|国产喷水在线观看|狼友网站成人大全|欧美日韩制服中文视频在线|久草加勒比手机在线|婷婷色综合无码专区|japanese 精品视频在线观看

字節(jié)跳動豆包視頻生成大模型發(fā)布:首次突破多主體互動難關(guān)

DoNews9月24日消息,9月24日,2024火山引擎 AI 創(chuàng)新巡展在深圳舉辦,豆包大模型家族迎來新成員:全新發(fā)布豆包·視頻生成模型、以及豆包·音樂模型、豆包·同聲傳譯模型、豆包通用模型pro 和文生圖模型、語音合成模型等垂類模型大幅升級。

豆包·視頻生成模型能遵從復(fù)雜 prompt,解鎖時序性多拍動作指令與多個主體間的交互能力。

該模型支持高效的 DiT 融合計算單元、全新設(shè)計的擴散模型訓(xùn)練方法和深度優(yōu)化的 Transformer 結(jié)構(gòu),可以實現(xiàn)更充分地壓縮編碼視頻與文本,支持一致性多鏡頭生成,能夠大幅提升視頻生成的泛化能力。

官方介紹稱,無論是語義理解能力,多個主體運動的復(fù)雜交互畫面,還是多鏡頭切換的內(nèi)容一致性,豆包視頻生成大模型均達到業(yè)界先進水平。

火山引擎總裁譚待表示,豆包視頻生成大模型支持多風(fēng)格多比例的一致性多鏡頭生成,可應(yīng)用在電商營銷、動畫教育、城市文旅、微劇本等領(lǐng)域。

此外,譚待表示,豆包大模型發(fā)布以來使用量爆發(fā)式增長。截至 9 月,豆包語言模型的日均 tokens 使用量超過 1.3 萬億,相比 5 月首次發(fā)布時猛增十倍,多模態(tài)數(shù)據(jù)處理量也分別達到每天 5000 萬張圖片和 85 萬小時語音。

此前視頻生成模型大多只能完成簡單指令,豆包視頻生成模型則能實現(xiàn)自然連貫的多拍動作與多主體復(fù)雜交互。

有創(chuàng)作者在搶鮮體驗豆包視頻生成模型時發(fā)現(xiàn),其生成的視頻不僅能夠遵循復(fù)雜指令,讓不同人物完成多個動作指令的互動,人物樣貌、服裝細節(jié)甚至頭飾在不同運鏡下也保持一致,接近實拍效果。

據(jù)火山引擎介紹,豆包視頻生成模型基于 DiT 架構(gòu),通過高效的 DiT 融合計算單元,讓視頻在大動態(tài)與運鏡中自由切換,擁有變焦、環(huán)繞、平搖、縮放、目標跟隨等多鏡頭語言能力。豆包視頻生成模型具備專業(yè)級光影布局和色彩調(diào)和,畫面視覺極具美感和真實感。

深度優(yōu)化的 Transformer 結(jié)構(gòu),則大幅提升了豆包視頻生成的泛化能力,支持 3D 動畫、2D 動畫、國畫、黑白、厚涂等多種風(fēng)格,適配電影、電視、電腦、手機等各種設(shè)備的比例,不僅適用于電商營銷、動畫教育、城市文旅、微劇本等企業(yè)場景,也能為專業(yè)創(chuàng)作者和藝術(shù)家們提供創(chuàng)作輔助。

標簽: 豆包大模型
字節(jié)跳動豆包視頻生成大模型發(fā)布:首次突破多主體互動難關(guān)
掃描二維碼查看原文
分享自DoNews
Copyright ? DoNews 2000-2025 All Rights Reserved
蜀ICP備2024059877號-1