評測資料集

DoctorBench 評測體系涵蓋面向一般使用者與醫療專業人士的醫學大語言模型評測集，以及多模態大模型評測集，全面評估模型在不同場景下的能力表現。

DoctorBench-LLM 醫學大語言模型評測集

評測醫療大模型在臨床實戰全鏈路中的綜合表現。涵蓋症狀深度分析、個體化診療方案規劃、多模態報告推斷及醫療安全紅線監控等核心任務，系統化評估大模型在面對真實患者主訴與複雜醫療資料時的邏輯顆粒度與決策準確性。