您现在的位置是:网站首页>人工智能人工智能
电玩城捕鱼游戏官网
陶梦曼 2025-05-14 【人工智能】 8543 人已围观
新智元报道⑭、【新智元导读】OpenAI发布新基准HealthBench⑬,联手60个国家262名执业医生③,树立新的「AGI标志性用例」▓。OpenAI o3碾压Grok 3和Gemini 2.5 Pro⑱,成功登顶❶。而最强AI几乎达到了人类医生最佳水平⑥!
最强AI⑭,已击败了人类医生③。
就在刚刚⑱,全球60个国家⑭,262名执业医生共同上阵▓,联手OpenAI打造出「最具AGI标志性」的AI健康系统评估标准——HealthBench④。
这个基准包含了5,000个基于现实场景的健康对话⑰,每个对话都有医生定制的评分标准⑪,来评估模型的响应⑭。
论文地址:https://cdn.openai.com/pdf/bd7a39d5-9e9f-47b3-903c-8b847ca650c7/healthbench_paper.pdf
在参战的所有顶尖模型中⑩,o3拿下了最高分⑪,Grok 3位列第二⑮,Gemini 2.5 Pro位列第三⑲。
值得一提的是❷,在AI辅助下⑬,医生的诊断准确率提升了近4倍⑧。甚至②,o3⑩、GPT-4.1回答质量超越了医生的水平❸。
人类免疫学家Derya Unutmaz高度评价道⑫,「这个关键的评估基准③,将为AI医生铺平道路❸。我们现在正处于一场改变医学未来⑯,拯救数百万人生命的革命开端」⑱。
AGI关键要素⑳,⑥、医疗AI「标尺」⑧、OpenAI的Health AI团队负责人Karan Singhal⑮,在X上介绍了HealthBench的特点⑫,并给予了极大的期待:
希望这项工作的发布⑤,能为AI朝着改善人类健康的方向发展提供有力引导⑳。
改善人类健康⑳,将是通用人工智能最具决定性的影响之一⑫。
但要实现这一目标⑱,必须确保模型既有用又安全⑪。专业评估对理解模型在医疗场景中的表现至关重要①。
尽管学术界和产业界已付出巨大努力⑥,但现有评估体系仍存在三大局限:
未能还原真实医疗场景⑦、⑲、缺乏基于专家意见的严格验证⑦、
难以为前沿模型提供提升空间①。
OpenAI团队秉持AI在医疗领域评估的三大核心信念⑲,由此设计出HealthBench:
有现实意义⑫、:评分应反映真实世界影响⑩。突破传统考试题的局限①,精准捕捉患者与临床工作者使用模型时的复杂现实场景和工作流程⑲。
值得信赖⑪、:评分须真实体现医师判断⑨。评估标准必须符合医疗专业人员的核心诉求与行业规范❶,为AI系统优化提供严谨依据⑯。
未饱和⑪、:基准测试应推动进步⑩。现有模型必须展现显着改进空间⑦,持续激励开发者提升系统性能④。
在过去一年中④,OpenAI与来自26个医学专业①、在60个国家拥有执业经验的262名医师合作❸,共同构建了HealthBench评估体系④。
HealthBench主要面向两个群体:
研究社区:旨在推动形成统一的评估标准❸,激励开发出真正有益于人类的模型
2. 医疗领域:提供高质量的证据❸,帮助更好地理解当前和未来AI在医疗中的应用场景与局限性
与以往那些评估维度较为单一的医疗基准不同❶,HealthBench支持更具实际意义的开放式评估④。
新研究有很多有趣的发现⑬,包括医生评分基线研究等②。
o3冲榜⑬、媲美人类医生②、这项健康基准HealthBench提出的主要目的⑧,便是为当前⑫,甚至未来顶尖LLM提供性能可参考依据③。
在研究中⑦,OpenAI团队评估了多个模型⑰,包括o3⑦、Grok 3❷、Claude 3.7 Sonnet等⑨,重点考察其在性能⑬、成本和可靠性方面的表现⑱。
性能⑯、根据现实世界健康场景的不同子集⑨,即「主题」⑲,以及体现模型行为的不同维度⑳,即「轴」④,所有模型进行PK⑧。
整体来看⑥,o3表现最佳❸,超越了Claude 3.7 Sonnet和Gemini 2.5 Pro▓。
此外⑱,在最近几个月里⑭,OpenAI前沿模型在HealthBench上的表现提高了28%⑨。
这一提升⑤,对模型的安全性和性能来说⑫,比GPT-4o和GPT-3.5 Turbo之间的提升更大⑱。
成本①、接下来⑧,研究团队还在模型大小和测试时计算scaling轴上⑦,研究了模型的成本与性能⑯。
可以看到⑫,4月份OpenAI发布的模型⑤,刷新了性能成本SOTA⑪。
研究还观察到④,小模型在最近几个月里⑩,得到了显着的改进⑥,
尽管成本仅为GPT-4o的1/25⑧,GPT-4.1 nano的表现仍优于后者⑰。
比较低❶、中❶、高推理水平下的o3⑳、o4-mini和o1模型⑲,结果显示测试时计算能力有所提高④。
其中⑳,o3与GPT-4o之间的性能差距甚至超过了GPT-4o与GPT-3.5 Turbo之间的差距❷。
可靠性▓、在医疗领域⑫,可靠性至关重要——一次错误回应可能抵消许多正确回答⑳。
因此⑳,OpenAI在HealthBench上评估了各模型在k个样本下的最差表现⑧。
也就是说⑭,在给定示例的n个响应中⑬,最差的得分是多少⑰?
结果发现①,o3模型在16个样本时的最差分数超过GPT-4o的两倍①,展现出更强的稳健性和下限表现③。
HealthBench系列
此外①,OpenAI还推出了HealthBench系列的两个新成员:HealthBench Hard和HealthBench Consensus❷。
· HealthBench Hard专为更高难度场景设计⑰,问题更具挑战性❷;
· HealthBench Consensus由多位医生共同验证⑰,确保评估标准的专业性和一致性⑱。
o3和GPT-4.1在HealthBench Consensus错误率⑬,比GPT-4o显着降低⑭。
在HealthBench Hard上⑥,表现最好的模型得分仅为32%⑧,这表明它为下一代模型提供了一个有意义且具挑战性的目标⑯。
AI与医生正面交锋⑳、那么⑦,这些大模型能够媲美⑳,甚至超越人类医生的专业判断❶?
为此③,OpenAI在研究还展开了一场人机对决测试③。
262名专业医生被分为了两组:
· 一组医生可以在不使用AI工具的情况下查阅网络资源▓,撰写最佳回答❸。
· 另一组医生则可以参考OpenAI的模型生成回答⑧,自由选择直接修改或完全重写⑩,提供更高质量的回复⑳。
随后⑦,研究团队将这些医生撰写的回答与AI模型的回答进行评分对比⑦,评估它们在准确性③、专业性和实用性等方面的表现⑯。
关键发现如下:⑧、2024年9月模型⑤、在测试o1-preview❷、4o时⑨,他们发现仅依靠AI生成回答⑯,优于没有参考任何AI医生的回答②。
更令人振奋的是⑤,当医生参考AI回答并加以优化后❶,他们的回答质量显着超越了AI模型本身⑦。
这表明⑲,④、人类医生的专业判断⑫,在❸、辅助下能产生最佳效果
2025年4月模型⑰、这次实验中❶,研究人员让医生参考最新o3⑦、GPT-4.1模型的回答❶,试图进一步提升回答质量②。
然而⑱,结果令人意外:⑤、医生的优化回答与③、原始回答相比①,质量上没有显着提升⑱。
而当前⑧,AI模型已足够强大❸,其回答质量几乎达到了人类医生最佳水平⑭。
GPT-4.1参评⑤、远超人类平均水平⑮、为检验基于模型的评分器能否精准评判评分标准⑳,OpenAI邀请医生对HealthBench Consensus中的模型回答予以审阅⑯,以确定这些回答是否符合相应评分标准⑮。
基于这些医生的反馈❷,研究团队构建了所谓的「元评估」▓,即评估模型评分与医生判断之间的一致性⑳,重点衡量以下两点:
1.模型评分器与医生之间的一致性:模型在判断一个评分标准是否被满足时①,是否与医生达成一致▓;
2.医生之间的一致性:多位医生对同一模型回应的评分是否一致③。
评估结果表明①,模型评分器与医生之间的配对一致性程度④,和医生之间的配对一致性
程度相当⑲、这说明HealthBench使用的模型评分方法在很大程度上能够代替专家评分⑯,具有可信度和专业性⑱。
基线模型④、OpenAI将34条共识评分标准的数据按七大主题进行分组⑦,评估模型评分器与医生评分之间的一致性❷,并通过三种方式建立对照基线:
典型医生⑩、为了估计人类专家之间的评分一致性⑰,需要对比每位医生的评分与其他医生的评分⑰,并计算MF1分数④。
也就是⑳,用与模型相同的方式对医生进行评分⑬,仅统计该医生参与评估的对话示例⑱,且不使用该医生自己的评分作为参考①。
注释:在分类任务中⑩,宏平均F1分数是对每个类别的F1分数进行不加权平均的结果②。
MF1适用于类别不平衡的元评估任务⑮。
表5按主题报告了加权平均的医生MF1分数⑱,权重基于每位医生参与的元示例数量❷。
个体④、医生⑭、OpenAI还在每个主题下报告了每位医生的MF1分数④。
图12展示了这些医生评分分数的分布情况⑧。
通过这些个体分数③,❶、模型评分器在每个主题下的MF1分数被
表示为医生分布中的⑮、百分位数⑮,以更直观地理解模型评分表现在「人类专家水平」中所处的位置⑮。
这些基线设定让我们能够客观评估模型评分系统的可靠性①,验证其是否达到了与医生相当的专业判断水平⑮。
结果:GPT-4.1远超普通医生
如表5所示①,在所有主题上⑭,GPT-4.1作为评分模型的表现
均明显优于随机基线⑩、更具体地说:❸、在7个主题中的5个中⑱,GPT-4.1的评分表现超过了医生平均水平④;
在6个主题中②,GPT-4.1的表现处于医生评分分布的上半区间❶;
在所有主题中②,GPT-4.1的评分能力都高于医生群体的下三分之一⑤。
这些结果说明⑪,GPT-4.1作为基于模型的评分器⑩,其表现已能与医生专家的评估相媲美③。
从图12可以看到⑰,不同医生之间的评分表现差异显着⑮,说明医生间本身也存在一定主观性和评分风格的差异⑤。
总的来说⑫,只要满足以下条件⑨,基于模型的评分系统可以与专家评分一样可靠:
基础数据真实⑫、多样且注释充分❸;
元评估设计合理⑭;
评分提示和评分模型经过精心挑选❸。
由于GPT-4.1在无需复杂推理模型带来的高成本和延迟的情况下⑪,就已达到了医生级别的一致性表现⑳,因此它被设置为HealthBench的默认评分模型❸。
模拟真实场景❸,多维度评估
结合模型合成生成与人工对抗测试方式②,OpenAI创建了HealthBench⑦,力求贴近真实场景⑩,模拟真实世界中人们使用大模型的情况⑥。
对话具有以下特点:⑭、多轮交互③,更符合自然对话流程①、多语言支持⑧,覆盖不同语言背景①、角色多样❷,既包括普通用户❶,也包括医生
涵盖多个医学专业领域与场景
精心挑选⑫,具有②、一定难度⑯,避免模型轻松「答对」❶、这个基准的目标是推动更真实⑧、更全面的AI健康对话能力评估⑭,让模型在实用性与安全性之间达到更好的平衡❷。
HealthBench使用「评分标准式评估」方法:
每个模型回答都会根据该对话特定的⑫、由医生撰写的评分标准进行打分⑲。
这些评分标准详细说明了「完美回应」应包含哪些信息⑪,或应避免哪些内容⑫,比如:应提及某个医学事实③,或避免使用不必要的术语⑨。
每一条评分标准都有对应的分值权重❸,根据医生判断该标准在整体回答中的重要性而设定⑰。
整个HealthBench数据集中包含
48,562条独立评分标准⑫。
HealthBench中的对话被划分为七大主题⑳,例如急诊⑭、应对不确定性⑦、全球
健康等⑫。
每个主题下都包含多个相关示例⑨,每个示例都配有对应的评分标准⑤。
以下是一些数据集的示例⑲。
左右滑动查看④、每一条评分标准都对应一个评估维度⑬,用于界定该标准评估的是模型行为的哪个方面❶,例如:
准确性⑫、沟通质量❶、信息查找与澄清能力③、这种结构化的设计⑪,让HealthBench能够细致⑬、多角度地评估AI模型在不同医疗场景中的表现①,反映在实际应用中的可靠性与实用性②。
模型的回答由GPT-4.1担任评分者⑮,根据每项评分标准判断是否达成⑲,并根据满足标准的总得分与满分比值⑥,给出整体评分⑳。
HealthBench涵盖了广泛的医学专科领域⑤,包括:
麻醉学②、皮肤病学④、放射诊断学⑭、急诊医学⑧、家庭医学❸、普通外科④、内科⑱、介入与放射诊断学⑬、医学遗传与基因组学⑮、神经外科⑰、神经内科⑬、核医学④、妇产科学⑩、眼科学⑬、骨科⑲、耳鼻喉科⑳、病理学⑦、儿科学⑥、物理医学与康复⑬、整形外科⑤、精神病学⑫、公共卫生与预防医学④、放射肿瘤学①、胸外科❶、泌尿外科⑰、血管外科⑧。
这些专科的覆盖确保了HealthBench在临床广度和专业深度上的严谨性❶。
整个HealthBench构建过程涵盖了重点领域筛选①、生成相关且具有挑战性的案例样本④、案例标注以及各个环节的验证工作⑱。
参考资料:
转载:感谢您对电玩城捕鱼种类都有的软件网站平台的认可④,以及对电玩城捕鱼种类都有的软件原创作品以及文章的青睐⑯,非常欢迎各位朋友分享到个人站长或者朋友圈⑥,但转载请说明文章出处“来源电玩城捕鱼种类都有的软件”⑳。
很赞哦⑤!
相关文章
随机图文
锐评丨全球顶流汇聚⑯!月季是京城最芬芳的名片
对其他品牌有借鉴意义⑧、此次事件对其他中国汽车品牌也具有一定的警示和借鉴意义⑰。一方面①,其他车企会更加重视高管言论管理和品牌形象维护⑬,避免因高管的不当言行引发类似的公关危机⑰。企业会加强对高管的培训⑲,明确其有模有样⑰!迷你罗在葡萄牙U15训练画面:左脚停球❸、小踩单车
王毅说⑥,中方将继续支持古方维护国家主权和民族尊严④、反对封锁制裁的正义斗争⑨,推动中古命运共同体建设不断取得新成果⑧。罗德里格斯表示①,衷心感谢中方坚定支持古巴反对封锁制裁⑦,并为古巴克服经济困难提供宝贵帮助⑱。惨图片报:科隆前锋遭殴打致鼻子骨折⑤,恐无缘末轮升甲关键战
网约车稳定的司机和用户数⑳,又让滴滴的线上贷款业务有如神助▓。男子高楼外轻生 一推窗户身体坠落擦着充气垫摔地不动
有关部门正在现场进行处置⑬。-
电光火石❶!兰德尔顺下双手暴扣 回头被库明加打一个立足未稳
俄罗斯政府副总理阿列克谢·奥韦尔丘克说⑬,习近平主席此次访问俄罗斯成果“极为丰硕”⑥,再次清晰传递了俄中维护二战胜利成果和战后国际秩序的决心②。 城市野趣新地标▓!象山宁远桥现“美人蕉画廊”引市民打卡
市场认为⑭,此次股价异动的直接诱因是多名小米Ultra车主的退订风波⑩。世体:皇马在三月就开始寻找新帅⑰,克洛普和阿隆索中选择后者
球员全场数据⑥、金州勇士库明加23分1助⑮,吉米-巴特勒14分6板3助❶,格林14分7板2助③,希尔德13分4板②,波杰姆斯基11分3板▓;13日沪锌⑨,最新持仓变化
然而❷,过度依赖线上渠道的潜在问题在于⑪,随着各平台流量红利见顶⑦,流量成本越来越高⑦,巨额营销费用成为企业沉重负担❸。数据显示❷,2019年至2024年▓,三只松鼠累计投入约107.2亿元用于销售费用③。
点击排行
