文档中心 - DoctorBench

DoctorBench 简介

DoctorBench 是由德适生物等多家权威机构联合构建的 医疗大模型临床实战能力综合评测体系。

不同于传统的"应试型"或"学术 NLP"评测方式，DoctorBench 以 临床实战 为核心，构建涵盖准确性、安全性的全场景医疗 AI 评测基准，旨在系统化评估大语言模型在真实诊疗场景中的综合表现，助力医疗 AI 健康发展。

DoctorBench 的核心理念：不仅评估模型「知识储备量」，更关注其「真实场景应用能力」与「医疗安全性」。

为什么需要 DoctorBench

现有医疗大模型评测面临三大局限：

"应试型"评测的局限 — 传统多选题、填空题等评测方式难以反映模型在真实诊疗场景中的综合表现，无法评估其临床推理与决策能力。
"学术型"NLP 任务的隔阂 — 医学 NER、关系抽取等任务与临床实际应用存在较大差距，模型在任务上的高分未必转化为临床可用性。
语言与场景的鸿沟 — 中文医疗场景、本土诊疗规范与海外评测基准存在显著差异，需要面向中国临床实践的专属评测体系。

DoctorBench 正是为解决这些问题而设计的。

平台特性

特性	说明
三大评测类型	医学大语言模型（LLM）、医学影像（多模态）大模型（VLM）、临床任务（智能体）
14+ 核心场景	覆盖面向大众和面向医疗专业人士的完整诊疗链路
10+ 项评测维度	核心维度 + 通用维度 + 专项模块，多角度评估模型能力
否决机制	准确性和安全性等关键维度设有一票否决制
8000+黄金评测资料	数百位医学专家参与构建与审核，确保高信噪比
API 接入评测	通过 API 提交模型，自动化评测全流程
权威机构联合	汇聚国内顶尖医学院校与医疗机构共同研发

评测维度详解

DoctorBench 采用 2 项核心 + 3 项通用 + 5 项专项 的多层评测维度体系，从医学准确性、安全性到交互质量、推理能力进行全面评估。

名称	分类	说明
医学事实准确（准确性）	核心1	医学事实、诊断依据、药物作用等信息的科学准确性与临床可靠性
医学信息完整（准确性）	核心1	是否覆盖关键信息点，是否遗漏重要医学要素（如禁忌症、不良反应）
安全与风险控制（安全性）	核心2	是否识别并提示医疗风险，是否避免危害患者安全的建议
伦理与合规性（安全性）	核心2	是否符合医学伦理规范，是否尊重患者隐私与知情同意
指令响应精准度（交互质量）	通用1	是否准确理解用户意图，针对具体问题给出直接回答
语言清晰度评估（交互质量）	通用1	表述是否清晰易懂，术语使用是否恰当，逻辑是否合理
信息优先级	通用2	是否识别并突出最关键的信息，合理组织回答结构
主动询问与信息获取	通用3	信息不足时是否主动询问关键病史、症状细节
证据与引用	专项1	是否引用权威医学文献、指南或研究证据
可解释推理	专项2	是否展示清晰的推理过程，结论是否可解释
可执行性	专项3	建议是否具体可操作，是否包含明确的步骤和剂量
个体化适配	专项4	是否考虑用户个体差异（年龄、基础疾病、过敏史等）
情感支持	专项5	是否在适当场景下表达同理心与情感支持

否决机制

DoctorBench 在评测过程中设有 否决机制：若模型在 医学事实准确 或 安全与风险控制 等核心维度出现严重问题（如给出可能危害患者生命安全的建议、严重违反医学伦理等），将触发否决，直接影响整体评级。

这一机制确保了评测结果真正反映模型在医疗场景中的可用性和可靠性，而非仅看综合分数。

LLM 评测场景

DoctorBench 覆盖 14 大核心应用场景，分为面向大众（ToC）和面向医疗专业人士（ToB/ToD）两大类。

大语言模型评测体系架构图

面向普通大众（7 个场景）

场景	数据量	说明
症状查询与分析	1,200	帮助用户分析症状可能原因、严重程度及应对措施
疾病与健康知识科普	980	提供准确、易懂的医学知识，区分科普与诊疗建议
诊疗方案与用药指导	850	基于循证医学提供已确诊疾病的治疗参考信息
检查/检验报告解读	720	帮助解读化验单、影像报告等指标含义
日常健康与慢病管理	680	慢性病日常管理、监测、生活方式调整建议
医疗资源与政策导航	450	就医流程、医保政策、科室选择、挂号方式等
心理健康与情感支持	520	基础心理健康知识，表达同理心并建议专业帮助

面向医疗专业人士（7 个场景）

场景	数据量	说明
临床决策支持	650	鉴别诊断、治疗方案选择、用药剂量计算等辅助决策
医学知识查询	890	疾病定义、诊断标准、药物信息、最新指南等
科研与文献辅助	420	文献检索、研究设计、统计分析方法论支持
医疗文书生成与规范化	380	病历摘要、出院小结、会诊意见等文书辅助
医学教育与考试	560	知识点梳理、考题解析、临床思维训练
医疗质量与规范管理	310	质控指标、规范流程、不良事件分析等
医学伦理与法律咨询	280	知情同意、隐私保护、医疗纠纷等原则性指导

LLM 评测共计约 8,890 条 黄金评测数据。

多模态评测

医学影像（多模态）大模型评测体系架构图

多模态评测面向 医学影像（多模态）大模型（VLM），评估模型处理医学影像、表格等多模态信息的能力。采用 9 个评测维度。

任务	数据量	涉及模态	说明
模态识别与感知	420	图像、文本	对医学影像（X光、CT、病理切片等）的识别与理解
跨模态关联与推理	380	图像、文本、表格	将影像、检验、病史等多源信息进行关联分析
医疗记录与报告生成	350	图像、文本	根据影像和检查结果生成规范的医疗报告
医学知识问答	480	图像、文本	图文结合场景下的医学知识问答
诊断与决策支持	320	图像、文本、表格	基于多模态输入提供鉴别诊断和治疗决策支持

多模态评测共计约 1,950 条 评测数据。

临床任务（智能体）评测

临床任务（智能体）评测体系架构图

临床任务（智能体）评测面向具备工具调用能力的医疗智能体，评估模型在模拟诊疗环境中的临床任务执行、工具使用、多轮问诊决策及全流程闭环能力。

任务	数据量	核心能力	说明
智能分诊与导诊	380	多轮对话、决策推理	根据患者主诉进行初步分诊和科室推荐
多轮问诊与病史采集	450	结构化信息采集、临床逻辑	模拟临床问诊，系统性采集病史信息
医学工具调用与检查安排	320	工具调用、循证决策	合理开具检验检查、查询药物信息和指南
治疗方案制定与执行	350	方案制定、安全校验	制定个性化治疗方案，含用药、禁忌排查
急诊场景全流程处置	280	紧急决策、安全控制	急诊快速评估、处理决策和多科协调
慢病管理与随访	300	长期跟踪、方案调整	定期监测、方案调整和健康教育

临床任务（智能体）评测共计约 2,080 条 评测数据。

评测数据集

DoctorBench 的评测数据由 数百位国内顶尖医学专家 参与构建与审核，确保高信噪比与临床相关性。

评测类型	数据量	场景/任务数	评测维度数
医学大语言模型（LLM）	~8,890 条	14 个场景	13 个维度
医学影像（多模态）大模型（VLM）	~1,950 条	5 个任务	9 个维度
临床任务（智能体）	~2,080 条	6 个任务	6 类能力
合计	~12,920 条	25 个场景/任务	—

数据覆盖临床各科室，涵盖内科、外科、妇产科、儿科、急诊、皮肤、精神心理等各个学科方向。

快速开始

只需三步，即可提交您的模型参与 DoctorBench 评测：

第一步：注册登录 — 使用手机号注册并登录 DoctorBench 平台，填写有效的联系邮箱。

第二步：配置模型 API — 在「我要评测」页面，选择评测类型，配置您的模型 API 信息（provider、base_url、api_key、model_name）。

第三步：提交评测 — 填写模型元信息（展示名称、参数量、开发者等），确认后提交。评测完成后可在「提交记录」中查看结果。

API 接入配置

评测类型选择

DoctorBench 支持三种评测类型：

类型	说明	预计评测时长
医学大语言模型（LLM）	纯文本对话能力评测	约 6-8 小时
医学影像（多模态）大模型（VLM）	图文联合理解评测	约 3-5 小时
临床任务（智能体）	临床任务执行、工具调用与多轮决策评测	约 2-3 小时

API 配置参数

参数	必填	说明
Provider	是	API 服务提供商，选择 `custom` 可接入任意 OpenAI 兼容接口
Base URL	是	API 服务的基础地址（如 `https://api.openai.com/v1`）
API Key	是	您的 API 密钥，仅在评测调用时使用
Model Name	是	模型标识符（如 `gpt-4`、`qwen-max` 等）

目前支持 OpenAI 兼容接口。选择 custom 时，可自定义 base_url 接入任意兼容 OpenAI 格式的 API 服务。

连接测试

提交评测前，平台会自动对您的 API 配置进行连接测试，验证：

API 地址是否可达
API Key 是否有效
模型是否能正常响应

如果连接测试失败，请检查以下常见原因：

Base URL 格式是否正确（需包含完整路径，如 /v1）
API Key 是否过期或额度不足
网络是否可以访问目标 API 地址

提交评测流程

完整的提交流程如下：

登录平台 — 使用已注册的手机号登录
进入提交页面 — 点击顶部导航的「我要评测」或首页的「提交模型评测」
选择评测类型 — 从医学大语言模型、医学影像（多模态）大模型、临床任务（智能体）中选择
配置 API 信息 — 填写 Provider、Base URL、API Key、Model Name
测试连接 — 系统自动验证 API 可用性
填写模型元信息 — 包括展示名称、参数量（如 7B、70B）、开发者/组织名称、发布日期等
确认提交 — 检查信息无误后提交评测任务
查看状态 — 在「提交记录」中查看评测进度

评测完成后，您可以在提交记录中查看评测状态和结果。如果评测失败，页面会显示具体的错误信息，您可以根据提示修正后重新提交。

常见失败原因及处理

失败类型	可能原因	处理建议
连接测试失败	API 地址不可达或 Key 无效	检查 Base URL 和 API Key
评测超时	模型响应过慢或网络不稳定	确认模型服务正常运行后重试
配置错误	参数格式不正确	检查 Model Name 拼写、Base URL 格式

查看提交记录

登录后，您可以通过以下方式查看提交记录：

点击右上角头像，在下拉菜单中选择「提交记录」
直接访问 /submissions 页面

提交记录页面展示您所有的评测提交，包括：

评测状态：排队中、评测中、已完成、失败
模型信息：模型名称、评测类型
提交时间
评测结果（已完成的提交）：点击可查看详细报告

评测榜单

DoctorBench 提供三个评测榜单，分别对应三种评测类型：

榜单	评测类型	主要排序指标
医学大语言模型榜单	医学大语言模型（LLM）	综合得分
医学影像（多模态）榜单	医学影像（多模态）大模型（VLM）	综合得分
临床任务（智能体）榜单	临床任务（智能体）	综合得分