OpenAI开源HealthBench医疗测试基准

AI资讯1年前 (2025)发布 ainav

262 0 0

近日，人工智能研究领域的领军机构OpenAI宣布推出了一款专注于医疗领域的大模型测试评估集合——HealthBench，并将其开源。这一举措旨在为评估人工智能系统在医疗健康领域的性能提供更全面的基准。

与传统测试集相比，HealthBench具有显著创新性。该评估集合包含5000段精心设计的核心测试对话，由来自全球60个国家和地区、涵盖26个专业的262名医生共同参与构建。这种跨学科和多区域的协作极大提升了测试集的真实性和专业难度。

HealthBench采用了一种全新的评估方式，不仅通过48562个独特的医生编写的评分标准进行开放式评估，还涵盖了多样化的健康背景（如急诊、全球健康）和行为维度（如准确性、遵循指示、沟通能力）。这种设计使测试能够全面反映AI系统在实际医疗场景中的综合表现。

特别值得注意的是，HealthBench采用了多轮对话的测试模式，而非传统的单一问答形式。这种创新性设计更贴近真实的医患互动场景。最新数据显示，大模型在医疗保健领域的性能有了显著提升：从GPT-3.5Turbo的16%，到GPT-4的32%，再到o3的60%的提升幅度令人瞩目。尤其是小型模型的进步更为突出，以GPT-4.1nano为例，其不仅超越了GPT-4的表现，在成本方面还降低了25倍。

参考资料：