评测数据集

DoctorBench 评测体系涵盖面向普通用户与医疗专业人士的医学大语言模型评测集，以及多模态大模型评测集，全面评估模型在不同场景下的能力表现。

DoctorBench-LLM 医学大语言模型评测集

评测医疗大模型在临床实战全链路中的综合表现。涵盖症状深度分析、个体化诊疗方案规划、多模态报告推断及医疗安全红线监控等核心任务，系统化评估大模型在面对真实患者主诉与复杂医疗数据时的逻辑颗粒度与决策准确性。