12月25日,阿里云通義千問正式發(fā)布了業(yè)界首個開源多模態(tài)推理模型QVQ-72B-Preview。這一模型的發(fā)布標(biāo)志著人工智能領(lǐng)域取得了又一重大進(jìn)展,不僅是科技創(chuàng)新的體現(xiàn),更是解決復(fù)雜科學(xué)問題方面的應(yīng)用探索。
QVQ展現(xiàn)出超預(yù)期的視覺理解和推理能力,尤其在數(shù)學(xué)、物理、科學(xué)等領(lǐng)域的復(fù)雜推理問題上表現(xiàn)尤為突出。多項評測數(shù)據(jù)顯示,QVQ超越了此前的視覺理解模型“開源王者”Qwen2-VL,整體表現(xiàn)與“滿血版”O(jiān)penAI o1、Claude3.5 Sonnet等推理模型相當(dāng)。QVQ能夠在解決這些領(lǐng)域難題時,給出類似人類甚至科學(xué)家的思考過程和準(zhǔn)確答案。
QVQ是一個基于視覺進(jìn)行深度思考推理的大模型。它不僅能感知視覺內(nèi)容,還能據(jù)此作出更細(xì)致的分析推理。與傳統(tǒng)模型不同,QVQ能夠質(zhì)疑自身假設(shè),仔細(xì)審視推理過程的每一步,這使得其推理結(jié)果更加可靠。QVQ可以識別“梗圖”內(nèi)涵,看真實照片可以合理推斷出物體個數(shù)及高度等信息。
目前,QVQ-72B-Preview已在魔搭社區(qū)和HuggingFace平臺上開源,開發(fā)者可以直接上手體驗。這一模型的發(fā)布進(jìn)一步豐富了阿里云通義的AI產(chǎn)品線。據(jù)了解,此前阿里云通義發(fā)布的AI推理模型QwQ受到全球開發(fā)者熱捧,一發(fā)布就登上HuggingFace模型趨勢榜榜首。截至目前,通義千問Qwen的衍生模型數(shù)已突破7.8萬個。
QVQ的推出為教育、科研、內(nèi)容創(chuàng)作等領(lǐng)域的工作效率提升提供了新的可能。