DoNews6月14日消息,微軟研究人員日前展示了 LLaVA-Med 模型,該模型主要用于生物醫(yī)學方面的研究,可根據 CT、X 光圖片等推測出患者的病理狀況。
據悉,微軟研究人員與一批醫(yī)院合作,獲得了使用生物醫(yī)學圖像文本對應大型數據集來訓練多模態(tài) AI 模型。該數據集包括胸部 X 光、MRI、組織學、病理學和 CT 圖像等,覆蓋范圍相對全面。
微軟使用 GPT-4,基于 Vision Transformer 和 Vicuna 語言模型,在八個英偉達 A100 GPU 上對 LLaVA-Med 進行訓練,其中包含“每個圖像的所有預分析信息”,用于生成有關圖像的問答,以滿足“可自然語言回答有關生物醫(yī)學圖像問題”的助手愿景。
在學習過程中,模型主要圍繞“描述此類圖像的內容”以及“闡述生物醫(yī)學概念”而展開。據微軟稱,該模型最終具有“出色的多模式對話能力”、“在用于回答視覺問題的三個標準生物醫(yī)學數據集上,LLaVA-Med 在部分指標上領先于業(yè)界其他先進模型”。
目前該模型已經開源。