商業(yè)
華為宣布 CANN 全面開源開放,共建昇騰生態(tài)
華為昇騰硬件使能CANN全面開源,加速AI創(chuàng)新,共建昇騰生態(tài)。
楊亮
5小時前
由哈佛醫(yī)學院和斯坦福大學組成的科研團隊近日對OpenAI的o1-preview模型進行了深入評估,發(fā)現(xiàn)該模型在診斷復(fù)雜醫(yī)療案例時表現(xiàn)出色,準確率顯著高于人類醫(yī)生。
研究報告顯示,o1-preview模型在78.3%的測試案例中做出了正確診斷,在70個特定案例的對比測試中,準確率更是高達88.6%,遠超其前身GPT-4的72.9%。此外,使用醫(yī)學推理質(zhì)量評估標準量表R-IDEA,o1-preview在80個案例中取得了78個滿分,而經(jīng)驗豐富的醫(yī)生僅在28個案例中獲得滿分,住院醫(yī)生則僅為16例。
在25位專家設(shè)計的復(fù)雜案例中,o1-preview模型的得分高達86%,是使用GPT-4的醫(yī)生(41%)和使用傳統(tǒng)工具的醫(yī)生(34%)的兩倍多。
盡管如此,研究人員也承認該測試存在局限性,部分測試案例可能包含在o1-preview的訓(xùn)練數(shù)據(jù)中,且測試主要集中于系統(tǒng)單獨工作,并未充分考慮其與人類醫(yī)生協(xié)同工作的場景。此外,o1-preview建議的診斷測試成本高昂,在實際應(yīng)用中存在局限性。
這一研究結(jié)果引發(fā)了關(guān)于AI在醫(yī)療領(lǐng)域應(yīng)用的廣泛討論,盡管AI在診斷準確性上表現(xiàn)出色,但其高昂的成本和與人類醫(yī)生協(xié)同工作的挑戰(zhàn)仍需進一步解決。