国产一区高清|日韩精品一区人妻|曰夲AV一区二区|美日韩一区二区三区|国产喷水在线观看|狼友网站成人大全|欧美日韩制服中文视频在线|久草加勒比手机在线|婷婷色综合无码专区|japanese 精品视频在线观看

阿里首個端到端全模態(tài) AI 模型 Qwen3-Omni 發(fā)布并開源

DoNews9月23日消息,阿里云今日發(fā)布并開源了全新的 Qwen3-Omni、Qwen3-TTS,以及對標(biāo)谷歌 Nano Banana 圖像編輯工具的 Qwen-Image-Edit-2509。

Qwen3-Omni 是業(yè)界首個原生端到端全模態(tài) AI 模型,能夠處理文本、圖像、音頻和視頻多種類型的輸入,并可通過文本與自然語音實時流式輸出結(jié)果,解決了長期以來多模態(tài)模型需要在不同能力之間進行權(quán)衡取舍的難題。

Qwen3-Omni 是原生端到端的多語言全模態(tài)基礎(chǔ)模型,其核心特性主要包括:

跨模態(tài)最先進表現(xiàn):通過早期以文本為核心的預(yù)訓(xùn)練和混合多模態(tài)訓(xùn)練,模型具備原生多模態(tài)能力。在實現(xiàn)強大音頻與音視頻性能的同時,單模態(tài)的文本與圖像效果保持不降。

在 36 項音頻 / 視頻基準(zhǔn)測試中,22 項達到了最新水平,其中 32 項在開源范圍內(nèi)處于領(lǐng)先;在自動語音識別(ASR)、音頻理解與語音對話方面表現(xiàn)可與 Gemini 2.5 Pro 相當(dāng)。

多語言:支持 119 種文本語言、19 種語音輸入語言以及 10 種語音輸出語言。

語音輸入語言:英語、中文、韓語、日語、德語、俄語、意大利語、法語、西班牙語、葡萄牙語、馬來語、荷蘭語、印尼語、土耳其語、越南語、粵語、阿拉伯語、烏爾都語。

語音輸出語言:英語、中文、法語、德語、俄語、意大利語、西班牙語、葡萄牙語、日語、韓語。

創(chuàng)新架構(gòu):基于 MoE(專家混合)的“思考者–表達者”設(shè)計,并結(jié)合 AuT 預(yù)訓(xùn)練以獲得強大的通用表征能力,同時采用多碼本設(shè)計以將延遲降至最低。

實時音頻 / 視頻交互:低延遲流式交互,支持自然的輪流對話和即時的文本或語音響應(yīng)。

靈活控制:可通過系統(tǒng)提示詞自定義行為,實現(xiàn)細粒度控制與輕松適配。

精細音頻描述: Qwen3-Omni-30B-A3B-Captioner 已開源,這是一個通用型、細節(jié)豐富、低幻覺率的音頻描述模型,填補了開源社區(qū)在該領(lǐng)域的空白。

TTS 即文本轉(zhuǎn)語音,阿里云此次發(fā)布的 TTS 支持 17 種音色選擇,每一種音色均支持 10 種語言。其中不僅包含多國語言,有:普通話、英語、法語、德語、俄語、意大利語、西班牙語、葡萄牙語、日語、韓語;還支持了更多中國方言:閩南語、吳語、粵語、四川話、北京話、南京話、天津話和陜西話。

此外,Qwen3-TTS-Flash 在多項評估基準(zhǔn)上均取得了 SoTA 的表現(xiàn),超越 SeedTTS、MiniMax、GPT-4o-Audio-Preview、Elevenlabs,特別是在語音穩(wěn)定性和音色相似度。

Qwen-Image-Edit-2509 是 Qwen-Image 月度迭代升級版本,和字節(jié)前幾天發(fā)布的即夢 4.0 圖像模型一樣主要是一致性上巨大提升。

與 8 月份發(fā)布的 Qwen-Image-Edit 相比,Qwen-Image-Edit-2509 的主要改進包括:

多圖像編輯支持:對于多圖像輸入,Qwen-Image-Edit-2509 基于 Qwen-Image-Edit 架構(gòu),并通過圖像拼接進一步訓(xùn)練,以實現(xiàn)多圖像編輯。它支持各種組合,如“人 + 人”、“人 + 產(chǎn)品”和“人 + 場景”。目前在 1 到 3 張輸入圖像時表現(xiàn)最佳。

增強的單圖像一致性:對于單圖像輸入,Qwen-Image-Edit-2509 顯著提高了編輯的一致性,特別是在以下方面:

改進的人像編輯一致性:更好地保留面部身份,支持各種肖像風(fēng)格和姿勢變換;

改進的產(chǎn)品編輯一致性:更好地保留產(chǎn)品身份,支持產(chǎn)品海報編輯;

改進的文字編輯一致性:除了修改文字內(nèi)容外,還支持編輯文字字體、顏色和材質(zhì);

原生支持 ControlNet:包括深度圖、邊緣圖、關(guān)鍵點圖等。

另外,Qwen3-Next-80B-A3B-Instruct-FP8 和 Qwen3-Next-80B-A3B-Thinking-FP8 也已經(jīng)開源。

阿里首個端到端全模態(tài) AI 模型 Qwen3-Omni 發(fā)布并開源
掃描二維碼查看原文
分享自DoNews
Copyright ? DoNews 2000-2025 All Rights Reserved
蜀ICP備2024059877號-1