欧美日韩不卡在线视频,日韩free一区二区,国产偷拍自拍视频

DoNews > 商業(yè) > Soul App開源播客語音合成模型SoulX-Podcast，支持流暢自然多輪語音對(duì)話

Soul App開源播客語音合成模型SoulX-Podcast，支持流暢自然多輪語音對(duì)話

楊亮 2025-10-29 16:29:14

234703

分享到

DoNews10月29日消息，近日，Soul App AI團(tuán)隊(duì)（Soul AI Lab）正式開源播客語音合成模型SoulX-Podcast。該模型是一款專為多人、多輪對(duì)話場(chǎng)景打造的語音生成模型，支持中、英、川、粵等多語種/方言與副語言風(fēng)格，能穩(wěn)定輸出超60分鐘、自然流暢、角色切換準(zhǔn)確、韻律起伏豐富的多輪語音對(duì)話。

除了播客場(chǎng)景以外，SoulX-Podcast在通用語音合成或克隆場(chǎng)景下也表現(xiàn)出色，帶來更真實(shí)、更生動(dòng)的語音體驗(yàn)。

SoulX-Podcast表現(xiàn)

SoulX-Podcast亮點(diǎn)：流暢自然多輪對(duì)話、多方言、超長(zhǎng)播客生成

零樣本克隆的多輪對(duì)話能力

在零樣本克隆播客生成場(chǎng)景中，SoulX-Podcast 展現(xiàn)出卓越的語音生成能力。它不僅能高度還原參考語音的音色與風(fēng)格，更能根據(jù)對(duì)話語境靈活調(diào)節(jié)韻律與節(jié)奏，讓每一段對(duì)話都自然流暢、富有節(jié)奏感。無論是多輪長(zhǎng)時(shí)對(duì)話，還是情感層次豐富的交流，SoulX-Podcast 都能保持聲音的連貫與表達(dá)的真實(shí)。此外，SoulX-Podcast 還支持笑聲、清嗓等多種副語言元素的可控生成，讓合成語音更具臨場(chǎng)感與表現(xiàn)力。

多語種和跨方言的克隆能力

除中英文外，SoulX-Podcast 同樣支持四川話、河南話、粵語等多種主流方言。更值得關(guān)注的是，SoulX-Podcast 實(shí)現(xiàn)了跨方言音色克隆——即便僅提供普通話的參考語音，模型也能靈活生成帶有四川話、河南話、粵語等方言特征的自然語音。

超長(zhǎng)播客生成

SoulX-Podcast可以支持超長(zhǎng)播客的生成，并維持穩(wěn)定的音色與風(fēng)格。

聚焦語音，AI重構(gòu)情感紐帶

一直以來，聲音都是傳遞信息和情感的重要媒介，也最能在溝通中賦予“情緒溫度”和“陪伴感”。在Soul，用戶積極通過語音實(shí)時(shí)互動(dòng)，表達(dá)自我、分享交流，收獲新關(guān)系，語音成為用戶構(gòu)建鏈接的“情感紐帶”，“語音社交”也成為平臺(tái)頗具代表性的標(biāo)簽之一。

在推進(jìn)AI+社交的過程中，智能對(duì)話、語音生成、情感化表達(dá)等語音能力是Soul重點(diǎn)布局的方向。此前，平臺(tái)端到端全雙工語音通話大模型全面升級(jí)，并在站內(nèi)開啟內(nèi)測(cè)。新模型賦予 AI 自主決策對(duì)話節(jié)奏的能力，AI可主動(dòng)打破沉默、適時(shí)打斷用戶、邊聽邊說、時(shí)間語義感知、并行發(fā)言討論等，實(shí)現(xiàn)更接近生活日常的交互對(duì)話和“類真人”的情感陪伴體驗(yàn)。

同時(shí)，團(tuán)隊(duì)推出了自研的語音生成大模型、語音識(shí)別大模型、語音對(duì)話大模型等語音大模型能力，快速應(yīng)用于“虛擬伴侶”、群聊派對(duì)（多人語音互動(dòng)場(chǎng)景）等多元場(chǎng)景中。

例如，9月，Soul 的兩位虛擬人——孟知時(shí)與嶼你——在群聊派對(duì)中發(fā)起了一場(chǎng)持續(xù)約40分鐘的對(duì)話，在沒有任何額外投流、僅依靠虛擬人自身自然流量的情況下，這場(chǎng)活動(dòng)迅速引爆社區(qū)，房間互動(dòng)熱度刷新平臺(tái)紀(jì)錄，受到了廣大用戶的熱烈歡迎。

這一成功案例讓 Soul 的 AI 技術(shù)與虛擬IP運(yùn)營(yíng)團(tuán)隊(duì)深刻意識(shí)到：“虛擬IP + AI語音對(duì)話” 正在成為虛擬內(nèi)容生態(tài)的重要增長(zhǎng)點(diǎn)。它不僅展現(xiàn)了虛擬人的人格魅力與表達(dá)張力，更揭示了 AI 在內(nèi)容創(chuàng)作與社交互動(dòng)中的全新潛能。

然而，當(dāng)時(shí)業(yè)界能夠穩(wěn)定支持多輪自然對(duì)話的開源播客生成模型相對(duì)較少，并且當(dāng)場(chǎng)景從單人獨(dú)白擴(kuò)展到多人對(duì)話與長(zhǎng)篇播客時(shí)，也普遍面臨一些問題。為此，Soul 團(tuán)隊(duì)決定開源 SoulX-Podcast，希望能攜手 AIGC 社區(qū)，共同探索 AI 語音在內(nèi)容創(chuàng)作、社交表達(dá)與虛擬生態(tài)中的更多可能。

開源新階段，探索AI+社交更多可能

相比傳統(tǒng)的單說話人語音合成系統(tǒng)，播客語音合成系統(tǒng)不僅需要保持文本與語音的精準(zhǔn)一致，還要具備更強(qiáng)的上下文理解能力，以實(shí)現(xiàn)多輪對(duì)話間語音銜接的自然流暢與節(jié)奏的動(dòng)態(tài)變化。此外，面對(duì)多角色交互和超長(zhǎng)對(duì)話場(chǎng)景，系統(tǒng)還需在音色一致性、風(fēng)格延續(xù)性以及角色切換的準(zhǔn)確性上實(shí)現(xiàn)更高水平的控制與建模。

近來，已有部分開源研究開始探索播客或?qū)υ拡?chǎng)景下的多說話人、多輪次語音合成能力。然而，這些工作仍主要聚焦于普通話或英語，對(duì)中文受眾廣泛的方言（如粵語、四川話、河南話等）支持不足。此外，在多輪語音對(duì)話場(chǎng)景中，恰當(dāng)?shù)母闭Z言表達(dá)——如嘆息、呼吸、笑聲——對(duì)提升對(duì)話的生動(dòng)性與自然度至關(guān)重要，但現(xiàn)有模型對(duì)此普遍關(guān)注不足。

而SoulX-Podcast正是希望解決這些痛點(diǎn)：不僅支持多輪、多角色的長(zhǎng)對(duì)話生成，同時(shí)兼顧方言覆蓋和副語言表達(dá)能力，使播客語音更貼近真實(shí)交流場(chǎng)景、富有表現(xiàn)力與生動(dòng)感，從而提升聽眾的沉浸體驗(yàn)和內(nèi)容傳播力。

整體SoulX-Podcast模型基礎(chǔ)結(jié)構(gòu)上采用了常用的LLM + Flow Matching的語音生成范式，前者建模語義token，后者進(jìn)一步建模聲學(xué)特征。在基于LLM的語義token建模方面，SoulX-Podcast 以 Qwen3-1.7B 作為基座模型，并基于原始文本模型參數(shù)進(jìn)行初始化，以充分繼承其語言理解能力。

盡管SoulX-Podcast是專為多人、多輪對(duì)話場(chǎng)景設(shè)計(jì)的系統(tǒng)，但在傳統(tǒng)的單人語音合成與零樣本語音克隆任務(wù)中同樣表現(xiàn)優(yōu)異。在播客生成任務(wù)中，相較于近期相關(guān)工作，SoulX-Podcast 在語音可懂度與音色相似度方面均取得了最佳結(jié)果。

SoulX-Podcast在播客場(chǎng)景下的表現(xiàn)

SoulX-Podcast在通用TTS上的表現(xiàn)，*官方模型的復(fù)現(xiàn)結(jié)果

此次 SoulX-Podcast 的開源，是 Soul 在開源社區(qū)領(lǐng)域的一次全新嘗試，也是一個(gè)新的起點(diǎn)。 Soul團(tuán)隊(duì)表示，未來將持續(xù)聚焦語音對(duì)話合成、全雙工語音通話、擬人化表達(dá)、視覺交互等核心交互能力的提升，并加速技術(shù)在多樣化應(yīng)用場(chǎng)景與整體生態(tài)中的融合落地，為用戶帶來更加沉浸、智能且富有溫度的交互體驗(yàn)，持續(xù)提升個(gè)體的幸福感與歸屬感。同時(shí)，團(tuán)隊(duì)將進(jìn)一步深化開源生態(tài)建設(shè)，與全球開發(fā)者攜手，共同拓展 AI 語音等前沿能力的邊界，探索 “AI +社交” 的更多可能。