色欲aV午夜福利,aaa91在线观看

DoNews > 商業(yè) > 阿里首個端到端全模態(tài) AI 模型 Qwen3-Omni 發(fā)布并開源

阿里首個端到端全模態(tài) AI 模型 Qwen3-Omni 發(fā)布并開源

楊亮 2025-09-23 10:27:37

323807

分享到

DoNews9月23日消息，阿里云今日發(fā)布并開源了全新的 Qwen3-Omni、Qwen3-TTS，以及對標(biāo)谷歌 Nano Banana 圖像編輯工具的 Qwen-Image-Edit-2509。

Qwen3-Omni 是業(yè)界首個原生端到端全模態(tài) AI 模型，能夠處理文本、圖像、音頻和視頻多種類型的輸入，并可通過文本與自然語音實時流式輸出結(jié)果，解決了長期以來多模態(tài)模型需要在不同能力之間進行權(quán)衡取舍的難題。

Qwen3-Omni 是原生端到端的多語言全模態(tài)基礎(chǔ)模型，其核心特性主要包括：

跨模態(tài)最先進表現(xiàn)：通過早期以文本為核心的預(yù)訓(xùn)練和混合多模態(tài)訓(xùn)練，模型具備原生多模態(tài)能力。在實現(xiàn)強大音頻與音視頻性能的同時，單模態(tài)的文本與圖像效果保持不降。

在 36 項音頻 / 視頻基準(zhǔn)測試中，22 項達到了最新水平，其中 32 項在開源范圍內(nèi)處于領(lǐng)先；在自動語音識別（ASR）、音頻理解與語音對話方面表現(xiàn)可與 Gemini 2.5 Pro 相當(dāng)。

多語言：支持 119 種文本語言、19 種語音輸入語言以及 10 種語音輸出語言。

語音輸入語言：英語、中文、韓語、日語、德語、俄語、意大利語、法語、西班牙語、葡萄牙語、馬來語、荷蘭語、印尼語、土耳其語、越南語、粵語、阿拉伯語、烏爾都語。

語音輸出語言：英語、中文、法語、德語、俄語、意大利語、西班牙語、葡萄牙語、日語、韓語。

創(chuàng)新架構(gòu)：基于 MoE（專家混合）的“思考者–表達者”設(shè)計，并結(jié)合 AuT 預(yù)訓(xùn)練以獲得強大的通用表征能力，同時采用多碼本設(shè)計以將延遲降至最低。

實時音頻 / 視頻交互：低延遲流式交互，支持自然的輪流對話和即時的文本或語音響應(yīng)。

靈活控制：可通過系統(tǒng)提示詞自定義行為，實現(xiàn)細粒度控制與輕松適配。

精細音頻描述： Qwen3-Omni-30B-A3B-Captioner 已開源，這是一個通用型、細節(jié)豐富、低幻覺率的音頻描述模型，填補了開源社區(qū)在該領(lǐng)域的空白。

TTS 即文本轉(zhuǎn)語音，阿里云此次發(fā)布的 TTS 支持 17 種音色選擇，每一種音色均支持 10 種語言。其中不僅包含多國語言，有：普通話、英語、法語、德語、俄語、意大利語、西班牙語、葡萄牙語、日語、韓語；還支持了更多中國方言：閩南語、吳語、粵語、四川話、北京話、南京話、天津話和陜西話。

此外，Qwen3-TTS-Flash 在多項評估基準(zhǔn)上均取得了 SoTA 的表現(xiàn)，超越 SeedTTS、MiniMax、GPT-4o-Audio-Preview、Elevenlabs，特別是在語音穩(wěn)定性和音色相似度。

Qwen-Image-Edit-2509 是 Qwen-Image 月度迭代升級版本，和字節(jié)前幾天發(fā)布的即夢 4.0 圖像模型一樣主要是一致性上巨大提升。

與 8 月份發(fā)布的 Qwen-Image-Edit 相比，Qwen-Image-Edit-2509 的主要改進包括：

多圖像編輯支持：對于多圖像輸入，Qwen-Image-Edit-2509 基于 Qwen-Image-Edit 架構(gòu)，并通過圖像拼接進一步訓(xùn)練，以實現(xiàn)多圖像編輯。它支持各種組合，如“人 + 人”、“人 + 產(chǎn)品”和“人 + 場景”。目前在 1 到 3 張輸入圖像時表現(xiàn)最佳。

增強的單圖像一致性：對于單圖像輸入，Qwen-Image-Edit-2509 顯著提高了編輯的一致性，特別是在以下方面：

改進的人像編輯一致性：更好地保留面部身份，支持各種肖像風(fēng)格和姿勢變換；

改進的產(chǎn)品編輯一致性：更好地保留產(chǎn)品身份，支持產(chǎn)品海報編輯；

改進的文字編輯一致性：除了修改文字內(nèi)容外，還支持編輯文字字體、顏色和材質(zhì)；

原生支持 ControlNet：包括深度圖、邊緣圖、關(guān)鍵點圖等。

另外，Qwen3-Next-80B-A3B-Instruct-FP8 和 Qwen3-Next-80B-A3B-Thinking-FP8 也已經(jīng)開源。