leaderboard-title

评测数据集

DoctorBench 评测体系涵盖面向普通用户与医疗专业人士的医学大语言模型评测集,以及多模态大模型评测集,全面评估模型在不同场景下的能力表现。
DoctorBench-LLM 医学大语言模型评测集
评测医疗大模型在临床实战全链路中的综合表现。涵盖症状深度分析、个体化诊疗方案规划、多模态报告推断及医疗安全红线监控等核心任务,系统化评估大模型在面对真实患者主诉与复杂医疗数据时的逻辑颗粒度与决策准确性。
data-items-title

面向普通用户

7 项

面向普通用户
评测模型在症状查询、疾病科普、诊疗方案、报告解读、慢病管理、医疗资源导航、心理健康等场景下的能力表现。共5,400条测试数据,覆盖7大核心场景。
data-items-title

面向医疗专业人士

7 项

面向医疗专业人士
评测模型在临床决策、医学知识查询、科研文献辅助、医疗文书生成、医学教育、质量管理、伦理法律等场景下的能力表现。共3,490条测试数据,覆盖7大核心场景。