DoctorBench 简介
DoctorBench 是由德适生物等多家权威机构联合构建的 医疗大模型临床实战能力综合评测体系。
不同于传统的"应试型"或"学术 NLP"评测方式,DoctorBench 以 临床实战 为核心,构建涵盖准确性、安全性的全场景医疗 AI 评测基准,旨在系统化评估大语言模型在真实诊疗场景中的综合表现,助力医疗 AI 健康发展。
DoctorBench 的核心理念:不仅评估模型「知识储备量」,更关注其「真实场景应用能力」与「医疗安全性」。
为什么需要 DoctorBench
现有医疗大模型评测面临三大局限:
- "应试型"评测的局限 — 传统多选题、填空题等评测方式难以反映模型在真实诊疗场景中的综合表现,无法评估其临床推理与决策能力。
- "学术型"NLP 任务的隔阂 — 医学 NER、关系抽取等任务与临床实际应用存在较大差距,模型在任务上的高分未必转化为临床可用性。
- 语言与场景的鸿沟 — 中文医疗场景、本土诊疗规范与海外评测基准存在显著差异,需要面向中国临床实践的专属评测体系。
DoctorBench 正是为解决这些问题而设计的。
平台特性
| 特性 | 说明 |
|---|---|
| 三大评测类型 | 医学大语言模型(LLM)、医学影像(多模态)大模型(VLM)、临床任务(智能体) |
| 14+ 核心场景 | 覆盖面向大众和面向医疗专业人士的完整诊疗链路 |
| 10+ 项评测维度 | 核心维度 + 通用维度 + 专项模块,多角度评估模型能力 |
| 否决机制 | 准确性和安全性等关键维度设有一票否决制 |
| 8000+黄金评测资料 | 数百位医学专家参与构建与审核,确保高信噪比 |
| API 接入评测 | 通过 API 提交模型,自动化评测全流程 |
| 权威机构联合 | 汇聚国内顶尖医学院校与医疗机构共同研发 |
评测维度详解
DoctorBench 采用 2 项核心 + 3 项通用 + 5 项专项 的多层评测维度体系,从医学准确性、安全性到交互质量、推理能力进行全面评估。
| 名称 | 分类 | 说明 |
|---|---|---|
| 医学事实准确(准确性) | 核心1 | 医学事实、诊断依据、药物作用等信息的科学准确性与临床可靠性 |
| 医学信息完整(准确性) | 核心1 | 是否覆盖关键信息点,是否遗漏重要医学要素(如禁忌症、不良反应) |
| 安全与风险控制(安全性) | 核心2 | 是否识别并提示医疗风险,是否避免危害患者安全的建议 |
| 伦理与合规性(安全性) | 核心2 | 是否符合医学伦理规范,是否尊重患者隐私与知情同意 |
| 指令响应精准度 (交互质量) | 通用1 | 是否准确理解用户意图,针对具体问题给出直接回答 |
| 语言清晰度评估 (交互质量) | 通用1 | 表述是否清晰易懂,术语使用是否恰当,逻辑是否合理 |
| 信息优先级 | 通用2 | 是否识别并突出最关键的信息,合理组织回答结构 |
| 主动询问与信息获取 | 通用3 | 信息不足时是否主动询问关键病史、症状细节 |
| 证据与引用 | 专项1 | 是否引用权威医学文献、指南或研究证据 |
| 可解释推理 | 专项2 | 是否展示清晰的推理过程,结论是否可解释 |
| 可执行性 | 专项3 | 建议是否具体可操作,是否包含明确的步骤和剂量 |
| 个体化适配 | 专项4 | 是否考虑用户个体差异(年龄、基础疾病、过敏史等) |
| 情感支持 | 专项5 | 是否在适当场景下表达同理心与情感支持 |
否决机制
DoctorBench 在评测过程中设有 否决机制:若模型在 医学事实准确 或 安全与风险控制 等核心维度出现严重问题(如给出可能危害患者生命安全的建议、严重违反医学伦理等),将触发否决,直接影响整体评级。
这一机制确保了评测结果真正反映模型在医疗场景中的可用性和可靠性,而非仅看综合分数。
LLM 评测场景
DoctorBench 覆盖 14 大核心应用场景,分为面向大众(ToC)和面向医疗专业人士(ToB/ToD)两大类。

面向普通大众(7 个场景)
| 场景 | 数据量 | 说明 |
|---|---|---|
| 症状查询与分析 | 1,200 | 帮助用户分析症状可能原因、严重程度及应对措施 |
| 疾病与健康知识科普 | 980 | 提供准确、易懂的医学知识,区分科普与诊疗建议 |
| 诊疗方案与用药指导 | 850 | 基于循证医学提供已确诊疾病的治疗参考信息 |
| 检查/检验报告解读 | 720 | 帮助解读化验单、影像报告等指标含义 |
| 日常健康与慢病管理 | 680 | 慢性病日常管理、监测、生活方式调整建议 |
| 医疗资源与政策导航 | 450 | 就医流程、医保政策、科室选择、挂号方式等 |
| 心理健康与情感支持 | 520 | 基础心理健康知识,表达同理心并建议专业帮助 |
面向医疗专业人士(7 个场景)
| 场景 | 数据量 | 说明 |
|---|---|---|
| 临床决策支持 | 650 | 鉴别诊断、治疗方案选择、用药剂量计算等辅助决策 |
| 医学知识查询 | 890 | 疾病定义、诊断标准、药物信息、最新指南等 |
| 科研与文献辅助 | 420 | 文献检索、研究设计、统计分析方法论支持 |
| 医疗文书生成与规范化 | 380 | 病历摘要、出院小结、会诊意见等文书辅助 |
| 医学教育与考试 | 560 | 知识点梳理、考题解析、临床思维训练 |
| 医疗质量与规范管理 | 310 | 质控指标、规范流程、不良事件分析等 |
| 医学伦理与法律咨询 | 280 | 知情同意、隐私保护、医疗纠纷等原则性指导 |
LLM 评测共计约 8,890 条 黄金评测数据。
多模态评测

多模态评测面向 医学影像(多模态)大模型(VLM),评估模型处理医学影像、表格等多模态信息的能力。采用 9 个评测维度。
| 任务 | 数据量 | 涉及模态 | 说明 |
|---|---|---|---|
| 模态识别与感知 | 420 | 图像、文本 | 对医学影像(X光、CT、病理切片等)的识别与理解 |
| 跨模态关联与推理 | 380 | 图像、文本、表格 | 将影像、检验、病史等多源信息进行关联分析 |
| 医疗记录与报告生成 | 350 | 图像、文本 | 根据影像和检查结果生成规范的医疗报告 |
| 医学知识问答 | 480 | 图像、文本 | 图文结合场景下的医学知识问答 |
| 诊断与决策支持 | 320 | 图像、文本、表格 | 基于多模态输入提供鉴别诊断和治疗决策支持 |
多模态评测共计约 1,950 条 评测数据。
临床任务(智能体)评测

临床任务(智能体)评测面向具备工具调用能力的医疗智能体,评估模型在模拟诊疗环境中的临床任务执行、工具使用、多轮问诊决策及全流程闭环能力。
| 任务 | 数据量 | 核心能力 | 说明 |
|---|---|---|---|
| 智能分诊与导诊 | 380 | 多轮对话、决策推理 | 根据患者主诉进行初步分诊和科室推荐 |
| 多轮问诊与病史采集 | 450 | 结构化信息采集、临床逻辑 | 模拟临床问诊,系统性采集病史信息 |
| 医学工具调用与检查安排 | 320 | 工具调用、循证决策 | 合理开具检验检查、查询药物信息和指南 |
| 治疗方案制定与执行 | 350 | 方案制定、安全校验 | 制定个性化治疗方案,含用药、禁忌排查 |
| 急诊场景全流程处置 | 280 | 紧急决策、安全控制 | 急诊快速评估、处理决策和多科协调 |
| 慢病管理与随访 | 300 | 长期跟踪、方案调整 | 定期监测、方案调整和健康教育 |
临床任务(智能体)评测共计约 2,080 条 评测数据。
评测数据集
DoctorBench 的评测数据由 数百位国内顶尖医学专家 参与构建与审核,确保高信噪比与临床相关性。
| 评测类型 | 数据量 | 场景/任务数 | 评测维度数 |
|---|---|---|---|
| 医学大语言模型(LLM) | ~8,890 条 | 14 个场景 | 13 个维度 |
| 医学影像(多模态)大模型(VLM) | ~1,950 条 | 5 个任务 | 9 个维度 |
| 临床任务(智能体) | ~2,080 条 | 6 个任务 | 6 类能力 |
| 合计 | ~12,920 条 | 25 个场景/任务 | — |
数据覆盖临床各科室,涵盖内科、外科、妇产科、儿科、急诊、皮肤、精神心理等各个学科方向。
快速开始
只需三步,即可提交您的模型参与 DoctorBench 评测:
第一步:注册登录 — 使用手机号注册并登录 DoctorBench 平台,填写有效的联系邮箱。
第二步:配置模型 API — 在「我要评测」页面,选择评测类型,配置您的模型 API 信息(provider、base_url、api_key、model_name)。
第三步:提交评测 — 填写模型元信息(展示名称、参数量、开发者等),确认后提交。评测完成后可在「提交记录」中查看结果。
API 接入配置
评测类型选择
DoctorBench 支持三种评测类型:
| 类型 | 说明 | 预计评测时长 |
|---|---|---|
| 医学大语言模型(LLM) | 纯文本对话能力评测 | 约 6-8 小时 |
| 医学影像(多模态)大模型(VLM) | 图文联合理解评测 | 约 3-5 小时 |
| 临床任务(智能体) | 临床任务执行、工具调用与多轮决策评测 | 约 2-3 小时 |
API 配置参数
| 参数 | 必填 | 说明 |
|---|---|---|
| Provider | 是 | API 服务提供商,选择 custom 可接入任意 OpenAI 兼容接口 |
| Base URL | 是 | API 服务的基础地址(如 https://api.openai.com/v1) |
| API Key | 是 | 您的 API 密钥,仅在评测调用时使用 |
| Model Name | 是 | 模型标识符(如 gpt-4、qwen-max 等) |
目前支持 OpenAI 兼容接口。选择
custom时,可自定义 base_url 接入任意兼容 OpenAI 格式的 API 服务。
连接测试
提交评测前,平台会自动对您的 API 配置进行连接测试,验证:
- API 地址是否可达
- API Key 是否有效
- 模型是否能正常响应
如果连接测试失败,请检查以下常见原因:
- Base URL 格式是否正确(需包含完整路径,如
/v1) - API Key 是否过期或额度不足
- 网络是否可以访问目标 API 地址
提交评测流程
完整的提交流程如下:
- 登录平台 — 使用已注册的手机号登录
- 进入提交页面 — 点击顶部导航的「我要评测」或首页的「提交模型评测」
- 选择评测类型 — 从医学大语言模型、医学影像(多模态)大模型、临床任务(智能体)中选择
- 配置 API 信息 — 填写 Provider、Base URL、API Key、Model Name
- 测试连接 — 系统自动验证 API 可用性
- 填写模型元信息 — 包括展示名称、参数量(如 7B、70B)、开发者/组织名称、发布日期等
- 确认提交 — 检查信息无误后提交评测任务
- 查看状态 — 在「提交记录」中查看评测进度
评测完成后,您可以在提交记录中查看评测状态和结果。如果评测失败,页面会显示具体的错误信息,您可以根据提示修正后重新提交。
常见失败原因及处理
| 失败类型 | 可能原因 | 处理建议 |
|---|---|---|
| 连接测试失败 | API 地址不可达或 Key 无效 | 检查 Base URL 和 API Key |
| 评测超时 | 模型响应过慢或网络不稳定 | 确认模型服务正常运行后重试 |
| 配置错误 | 参数格式不正确 | 检查 Model Name 拼写、Base URL 格式 |
查看提交记录
登录后,您可以通过以下方式查看提交记录:
- 点击右上角头像,在下拉菜单中选择「提交记录」
- 直接访问
/submissions页面
提交记录页面展示您所有的评测提交,包括:
- 评测状态:排队中、评测中、已完成、失败
- 模型信息:模型名称、评测类型
- 提交时间
- 评测结果(已完成的提交):点击可查看详细报告
评测榜单
DoctorBench 提供三个评测榜单,分别对应三种评测类型:
| 榜单 | 评测类型 | 主要排序指标 |
|---|---|---|
| 医学大语言模型榜单 | 医学大语言模型(LLM) | 综合得分 |
| 医学影像(多模态)榜单 | 医学影像(多模态)大模型(VLM) | 综合得分 |
| 临床任务(智能体)榜单 | 临床任务(智能体) | 综合得分 |
榜单规则
- 排序方式:按综合得分(overall_score)降序排列
- 去重规则:同一模型仅保留 最近一次 提交的结果
- 公开条件:仅展示选择公开评测结果的提交
- 数据来源:从已完成的提交中动态聚合,实时更新
展示信息
榜单中每条记录展示以下信息:
- 排名(前三名显示奖杯/奖牌图标)
- 模型名称
- 开发者/组织
- 参数量
- 综合得分
- 各评测维度/任务类别得分(可按列排序)
评测报告解读
每次评测完成后,系统会生成一份详细的评测报告。不同评测类型的报告结构有所不同。
LLM 评测报告
LLM 报告按两大受众分组展示 14 个场景的评测结果:
- 面向普通用户(7 个场景):症状查询、健康科普、用药指导、报告解读、慢病管理、资源导航、心理支持
- 面向医疗专业人士(7 个场景):临床决策、医学知识、科研辅助、文书生成、医学教育、质量管理、伦理法律
每个场景包含:
- 综合得分(average_total_score)
- 13 个评测维度的分项得分
- 缺失或未评估的维度显示为 "N/A"
报告顶层还包含整体统计:模型名称、平均总分、中位数总分、标准差。
多模态评测报告
多模态报告按 5 个任务类别展示:
- 模态识别与感知
- 跨模态关联与推理
- 医疗记录与报告生成
- 医学知识问答
- 诊断与决策支持
每个类别包含平均得分。负分会以红色标识提示。
临床任务(智能体)评测报告
临床任务(智能体)报告按 6 个任务类别展示:
- 智能分诊与导诊
- 多轮问诊与病史采集
- 医学工具调用与检查安排
- 治疗方案制定与执行
- 急诊场景全流程处置
- 慢病管理与随访
每个类别包含平均得分。负分会以红色标识提示。
得分计算方式
DoctorBench 采用 加权计分 方式计算综合得分:
- 各维度设有不同的满分上限,以反映其重要程度
- 核心维度(准确性、安全性)权重更高
- 综合得分为各维度得分的加权汇总
特殊规则:
- 否决机制触发时,准确性或安全性的严重问题将直接影响整体评级
- 零分仍显示为 "0.00",不会被隐藏
- 缺失或无法评估的维度显示为 "N/A",不参与加权计算
API Key 安全
DoctorBench 高度重视用户 API Key 的安全性:
- 使用范围:API Key 仅在评测调用过程中使用,用于访问您的模型 API 进行评测
- 脱敏存储:提交的配置快照中,密钥字段经过脱敏处理,不以明文形式存储
- 不回传展示:任何 API 响应和页面展示中均不包含明文 API Key
- 隔离评测:同类型的评测任务串行执行,避免配置相互覆盖
建议您为 DoctorBench 评测创建专用的 API Key,并在评测完成后根据需要进行轮换。
数据隐私
- 评测数据:评测使用的数据集由 DoctorBench 团队维护,不包含任何真实患者信息
- 模型响应:您的模型在评测过程中产生的响应数据仅用于评分计算
- 元信息:您填写的模型元信息(名称、参数量、开发者等)在选择公开评测时会展示在榜单上
- 联系方式:注册时提供的手机号和邮箱仅用于账户管理和必要的沟通
FAQ
评测需要多长时间?
评测耗时取决于评测类型和模型 API 响应速度。参考时长:大语言模型约 6-8 小时,多模态大模型约 3-5 小时,临床任务(智能体)约 2-3 小时。您可在「提交记录」中查看评测状态。
支持哪些 API 提供商?
目前支持 OpenAI 兼容接口。选择 custom 时,可自定义 base_url 接入任意兼容 OpenAI 格式的 API 服务。这意味着大多数主流大模型服务均可接入。
评测结果如何解读?
评测结果包含各维度得分与综合排名。完成评测后,您可以在「提交记录」中查看详细报告,包括各场景/任务的分项得分和维度分析。在「评测榜单」页面可查看与其它模型的对比。
API Key 是否安全存储?
是的。平台仅在评测调用时使用 API Key,存储快照中的密钥字段经过脱敏处理,不以明文回传或展示。建议您创建专用的 API Key 用于评测。
支持多模态模型评测吗?
支持。DoctorBench 提供完整的多模态大模型评测,涵盖医疗影像、表格等模态的联合理解与推理能力评估,包括模态识别、跨模态推理、报告生成、知识问答和诊断决策支持 5 个任务。
评测失败了怎么办?
评测失败时,「提交记录」中会显示具体的错误信息。常见原因包括 API 连接超时、Key 失效或模型响应异常。您可以根据错误提示修正配置后重新提交。
评测是否收费?
使用 DoctorBench 平台进行评测不收取费用。但评测过程中会调用您的模型 API,由此产生的 API 调用费用由您的 API 服务商收取。
评测数据来源是什么?
DoctorBench 的评测数据由数百位国内顶尖医学专家参与构建与审核,覆盖临床各科室。数据不包含真实患者信息,确保高信噪比与临床相关性。
如何让评测结果出现在榜单上?
提交评测时,可以选择是否公开评测结果。选择公开后,评测完成的结果将自动展示在对应的评测榜单上。同一模型仅保留最近一次提交的结果。
可以同时提交多个模型评测吗?
可以提交多个评测任务。但为确保评测质量和资源分配,同类型的评测任务会串行执行。
如何联系技术支持?
提交评测时请填写有效的联系邮箱。如有技术问题或需要沟通,我们会通过该邮箱与您联系。您也可以在提交记录页面查看评测状态和详细信息。
