leaderboard-title

評測資料集

DoctorBench 評測體系涵蓋面向一般使用者與醫療專業人士的醫學大語言模型評測集,以及多模態大模型評測集,全面評估模型在不同場景下的能力表現。
DoctorBench-LLM 醫學大語言模型評測集
評測醫療大模型在臨床實戰全鏈路中的綜合表現。涵蓋症狀深度分析、個體化診療方案規劃、多模態報告推斷及醫療安全紅線監控等核心任務,系統化評估大模型在面對真實患者主訴與複雜醫療資料時的邏輯顆粒度與決策準確性。
data-items-title

面向普通使用者

7 項

面向普通使用者
評測模型在症狀查詢、疾病科普、診療方案、報告解讀、慢病管理、醫療資源導航與心理健康等場景下的能力。共 5,400 筆資料。
data-items-title

面向醫療專業人士

7 項

面向醫療專業人士
評測模型在臨床決策、醫學知識查詢、科研文獻、醫療文書、醫學教育、質量管理與倫理法律等專業場景的能力。共 3,490 筆資料。