超碰男人的天堂av,国产中文区二幕区20223

DoNews > 公司新聞 > 阿里開(kāi)源最強(qiáng)視覺(jué)理解模型Qwen3-VL，Agent和空間感知能力大幅增強(qiáng)

阿里開(kāi)源最強(qiáng)視覺(jué)理解模型Qwen3-VL，Agent和空間感知能力大幅增強(qiáng)

李昊原 2025-09-24 15:47:59

329783

9月24日的2025云棲大會(huì)上，阿里開(kāi)源新一代視覺(jué)理解模型Qwen3-VL。該模型在視覺(jué)感知和多模態(tài)推理方面實(shí)現(xiàn)重大突破，在32項(xiàng)核心能力測(cè)評(píng)中超過(guò)Gemini2.5-Pro和GPT-5。同時(shí)，Qwen3-VL大幅提升了視覺(jué)Agent、視覺(jué)編程和空間感知等關(guān)鍵能力，不但可調(diào)用摳圖、搜索等工具完成“帶圖推理”，也可以憑借一張?jiān)O(shè)計(jì)草圖或一段小游戲視頻直接“視覺(jué)編程”，“所見(jiàn)即所得”地復(fù)刻圖表、網(wǎng)頁(yè)和復(fù)雜程序。

【圖說(shuō)】：Qwen3-VL-235B-A22 Instruct測(cè)評(píng)分?jǐn)?shù)

本次開(kāi)源的是旗艦版Qwen3-VL-235B-A22B，有開(kāi)源指令（Instruct）模型和推理（Thinking）模型兩大版本。Qwen3-VL展現(xiàn)了在復(fù)雜視覺(jué)任務(wù)中的強(qiáng)大泛化能力與綜合性能，在邏輯謎題、通用視覺(jué)問(wèn)答、多語(yǔ)言文本識(shí)別與圖表文檔解析、二維與三維目標(biāo)定位、具身與空間感知、視頻理解等32項(xiàng)具體測(cè)評(píng)中，指令版Qwen3-VL超越了Gemini2.5-Pro 和 GPT5 等閉源模型，同時(shí)刷新了開(kāi)源多模態(tài)模型的最佳成績(jī)。推理版Qwen3-VL多模態(tài)思考能力顯著增強(qiáng)，在 MathVision、MMMU、MathVista 等權(quán)威評(píng)測(cè)中達(dá)到領(lǐng)先水平。

Qwen3-VL擁有極強(qiáng)的視覺(jué)智能體和視覺(jué)Coding能力，幾乎刷新所有相關(guān)評(píng)測(cè)的最佳性能。Qwen3-VL 不僅能看懂圖片，還能像人一樣操作手機(jī)和電腦，自動(dòng)完成許多日常任務(wù)，例如打開(kāi)應(yīng)用、點(diǎn)擊按鈕、填寫(xiě)信息等，實(shí)現(xiàn)智能化的交互與自動(dòng)化操作。輸入一張圖片，Qwen3-VL可自行調(diào)用Agent工具放大圖片細(xì)節(jié)，通過(guò)更仔細(xì)的觀察分析，推理出更好的答案；看到一張?jiān)O(shè)計(jì)圖，Qwen3-VL 就能生成Draw.io/HTML/CSS/JS 代碼，“所見(jiàn)即所得”地完成視覺(jué)編程，真正推動(dòng)大模型從“識(shí)別”邁向“推理與執(zhí)行”。

Qwen3-VL可支持?jǐn)U展百萬(wàn)tokens上下文，視頻理解時(shí)長(zhǎng)擴(kuò)展到2小時(shí)以上。這意味著，無(wú)論是幾百頁(yè)的技術(shù)文檔、整本教材，還是長(zhǎng)達(dá)數(shù)小時(shí)的會(huì)議錄像或教學(xué)視頻，都能完整輸入、全程記憶、精準(zhǔn)檢索。Qwen3-VL還能根據(jù)時(shí)間戳精確定位“什么時(shí)候發(fā)生了什么”，比如“第15分鐘穿紅衣服的人做了什么”、“球從哪個(gè)方向飛入畫(huà)面”等，都能準(zhǔn)確回答。

【圖說(shuō)】：Qwen3-VL的3D檢測(cè)能力增強(qiáng)，未來(lái)可協(xié)助機(jī)器人等具身智能判斷物體的方位。

大模型的空間理解能力是實(shí)現(xiàn)具身智能的基礎(chǔ)，Qwen3-VL 專(zhuān)門(mén)增強(qiáng)了3D檢測(cè)（grounding）能力，可以更好地感知空間。當(dāng)前，機(jī)器人想要輕松抓住桌上的一個(gè)蘋(píng)果，并不容易。憑借Qwen3-VL強(qiáng)大的3D檢測(cè)能力，未來(lái)可讓機(jī)器人更好地判斷物體方位、視角變化和遮擋關(guān)系，從而準(zhǔn)確判斷蘋(píng)果的位置與自身距離，實(shí)現(xiàn)精準(zhǔn)抓取。

據(jù)了解，千問(wèn)視覺(jué)理解模型已實(shí)現(xiàn)廣泛落地，比如國(guó)家天文臺(tái)聯(lián)合阿里云發(fā)布的全球首個(gè)太陽(yáng)大模型“金烏”，正是基于 Qwen-VL 等模型以超過(guò) 90 萬(wàn)張?zhí)?yáng)衛(wèi)星圖像為樣本完成微調(diào)訓(xùn)練。未來(lái)，Qwen3-VL模型還將開(kāi)源更多尺寸版本。即日起，用戶(hù)可在通義千問(wèn)QwenChat上免費(fèi)體驗(yàn)Qwen3-VL，也可通過(guò)阿里云百煉平臺(tái)調(diào)用API服務(wù)。

Qwen3-Omni新聞稿

標(biāo)題1：阿里開(kāi)源全模態(tài)大模型Qwen3-Omni，可像人類(lèi)一樣聽(tīng)說(shuō)寫(xiě)

標(biāo)題2：阿里開(kāi)源全模態(tài)大模型Qwen3-Omni，狂攬32項(xiàng)開(kāi)源最佳表現(xiàn)

9月24日，2025年云棲大會(huì)開(kāi)幕，阿里巴巴發(fā)布通義全模態(tài)預(yù)訓(xùn)練大模型Qwen3-Omni系列模型。通過(guò)引入多種架構(gòu)升級(jí)和技術(shù)迭代，Qwen3-Omni系列的模型表現(xiàn)和效率大幅提升。在36個(gè)音視頻基準(zhǔn)測(cè)試中，22項(xiàng)達(dá)到SOTA水平，其中32項(xiàng)取得開(kāi)源模型最佳效果。語(yǔ)音識(shí)別、音頻理解與語(yǔ)音對(duì)話能力可比肩Gemini 2.5-Pro。

作為全模態(tài)模型，Qwen3-Omni能夠?qū)崿F(xiàn)全模態(tài)輸入和全模態(tài)輸出。類(lèi)似于人類(lèi)嬰兒一出生就全方位感知世界，Qwen3-Omni一開(kāi)始就加入了“聽(tīng)”、“說(shuō)”、“寫(xiě)”多模態(tài)混合訓(xùn)練。在預(yù)訓(xùn)練過(guò)程中，Qwen3-Omni采用了混合單模態(tài)和跨模態(tài)數(shù)據(jù)。此前，模型在混合訓(xùn)練后，各個(gè)功能會(huì)相互掣肘甚至降智，比如音頻理解能力提升，文字理解能力反而降低了。但Qwen3-Omni在實(shí)現(xiàn)強(qiáng)勁音頻與音視頻能力的同時(shí)，單模態(tài)文本與圖像性能均保持穩(wěn)定，這是業(yè)內(nèi)首次實(shí)現(xiàn)這一訓(xùn)練效果。

Qwen3-Omni的優(yōu)異表現(xiàn)源于多種架構(gòu)升級(jí)。Qwen2.5-Omni采用了雙核架構(gòu)Thinker-Talker，讓大模型擁有了人類(lèi)的“大腦”和“發(fā)聲器”。Qwen3-Omni的Thinker-Talker架構(gòu)進(jìn)一步加強(qiáng)，結(jié)合AuT預(yù)訓(xùn)練構(gòu)建強(qiáng)通用表征，配合多碼本設(shè)計(jì)，響應(yīng)延遲壓縮至最低。相較于半年前推出的Qwen2.5-Omni，Qwen3-Omni的交互速度更快，純模型端到端音頻對(duì)話延遲低至211ms，視頻對(duì)話延遲低至507ms；支持的語(yǔ)言更多，包括19種語(yǔ)言音頻輸入、10種語(yǔ)言輸出。

作為一款“會(huì)說(shuō)話”的模型，Qwen3-Omni應(yīng)用場(chǎng)景廣泛，未來(lái)可部署于車(chē)載、智能眼鏡和手機(jī)等。用戶(hù)還可設(shè)定個(gè)性化角色、調(diào)整對(duì)話風(fēng)格，打造專(zhuān)屬的個(gè)人IP。相較于傳統(tǒng)的錄音轉(zhuǎn)文字軟件，Qwen3-Omni能夠處理長(zhǎng)達(dá) 30 分鐘的音頻文件，無(wú)需切割音頻，即可精準(zhǔn)識(shí)別語(yǔ)音、深度理解內(nèi)容。

目前，Qwen3-Omni系列已開(kāi)源三款模型：Qwen3-Omni-30B-A3B-Instruct、Qwen3-Omni-30B-A3B-Thinking 和 Qwen3-Omni-30B-A3B-Captioner，值得關(guān)注的是，擅長(zhǎng)音頻描述的模型Qwen3-Omni-30B-A3B-Captioner為全球首次開(kāi)源的通用音頻caption模型，可以清晰描述用戶(hù)輸入音頻的特征，填補(bǔ)了開(kāi)源社區(qū)空白。

Qwen3-Omni現(xiàn)已在Hugging Face和ModelScope上開(kāi)放，用戶(hù)可訪問(wèn)Qwen Chat免費(fèi)體驗(yàn)Qwen3-Omni-Flash。

【圖說(shuō)】：Qwen3-Omni測(cè)評(píng)分?jǐn)?shù)

商業(yè)

領(lǐng)益智造港交所IPO，啟動(dòng)“A+H”新征程領(lǐng)益智造擬港股上市，2024年?duì)I收442.6億元，境外收入占比超70%，獲北美機(jī)器人訂單，布局“A+H”雙平臺(tái)。

楊亮

1小時(shí)前

商業(yè)

報(bào)道稱(chēng)OPPO AI部門(mén)再次整合，成立智慧產(chǎn)品研發(fā)部 OPPO整合小布系列業(yè)務(wù)為“超級(jí)小布”，由智慧產(chǎn)品研發(fā)部負(fù)責(zé)，姜昱辰主導(dǎo)，聚焦AI能力布局。

楊亮

1小時(shí)前

商業(yè)

康迪科技宣布收購(gòu)美國(guó)高端電動(dòng)越野摩托車(chē)品牌Rawrr 康迪科技收購(gòu)美國(guó)電動(dòng)越野摩托車(chē)品牌Rawrr，強(qiáng)化北美市場(chǎng)布局，推動(dòng)多品牌戰(zhàn)略，實(shí)現(xiàn)產(chǎn)品與渠道協(xié)同。

楊亮

2小時(shí)前

商業(yè)

衛(wèi)藍(lán)新能源啟動(dòng)IPO，估值185億，中科院物理所孵化衛(wèi)藍(lán)新能源提交IPO輔導(dǎo)備案，專(zhuān)注固態(tài)電池研發(fā)，已獲9輪融資，估值超150億元，產(chǎn)品應(yīng)用于汽車(chē)、儲(chǔ)能等領(lǐng)域。

楊亮

3小時(shí)前

商業(yè)

菲亞特動(dòng)力科技助力首批金龍客車(chē)交付塞爾維亞公共交通系統(tǒng) 金旅客車(chē)向塞爾維亞交付首批搭載菲亞特CURSOR 9 Euro VI天然氣發(fā)動(dòng)機(jī)公交，推動(dòng)低碳出行，展現(xiàn)高效、可靠、適應(yīng)極端環(huán)境的領(lǐng)先性能。

楊亮

4小時(shí)前

汽車(chē)

五菱星光 560 汽車(chē)外觀內(nèi)飾公開(kāi)，首發(fā)權(quán)益價(jià) 5.98 萬(wàn)元起五菱星光560 SUV首發(fā)權(quán)益價(jià)5.98萬(wàn)元起，提供四種車(chē)漆、兩種內(nèi)飾，主打大空間與硬派設(shè)計(jì)。

楊亮

4小時(shí)前

商業(yè)

禾賽激光雷達(dá)獲吉利銀河多款車(chē)型定點(diǎn) 禾賽科技激光雷達(dá)ATX量產(chǎn)搭載吉利銀河V900，獲2025-2026多車(chē)型定點(diǎn)，累計(jì)交付超200萬(wàn)臺(tái)，9月單月產(chǎn)量破20萬(wàn)臺(tái)，市占率47%。

楊亮

4小時(shí)前

汽車(chē)

長(zhǎng)城哈弗 H9 穿越版 SUV 上市：售價(jià) 23.29 萬(wàn)元起哈弗H9穿越版上市，售價(jià)23.29萬(wàn)元起，搭載2.4T柴油機(jī)，增強(qiáng)越野性能與續(xù)航，配置專(zhuān)為越野優(yōu)化。

李旭

4小時(shí)前

關(guān)于我們| 電子協(xié)議| 合作聯(lián)系| 蜀ICP備2024059877號(hào)-1

網(wǎng)站信息

Copyright ? DoNews 2000-2025 All Rights Reserved
蜀ICP備2024059877號(hào)-1
聯(lián)系地址：北京市海淀區(qū)寶盛東路興華綠色產(chǎn)業(yè)樓3層307室（東升地區(qū)）
郵箱：jubao@infinities.com.cn
網(wǎng)上有害信息舉報(bào)專(zhuān)區(qū): www.12377.cn

京公網(wǎng)安備11010802023059號(hào)

国产一区高清|日韩精品一区人妻|曰夲AV一区二区|美日韩一区二区三区|国产喷水在线观看|狼友网站成人大全|欧美日韩制服中文视频在线|久草加勒比手机在线|婷婷色综合无码专区|japanese 精品视频在线观看

Qwen3-Omni新聞稿