您现在的位置是：网站首页>科技科技

我发777耀龙电玩城下载

姜书翠 2025-05-13 【科技】 9886 人已围观

【环球网科技报道记者秦耳】近日⑥，有关“人类最后的测试”这一大模型测试集❷，在AI领域引发热议④。起因是在OpenAI担任研究科学家的姚顺雨近日写了一篇他对于AI大模型发展思考的文章《AI的下半场》②，文章中他提到了“人类最后的测试”以及对于大模型能力测试的看法⑥，行业中引发讨论⑥。在他看来行业内的主流AI大模型已经通过了图灵测试⑲，让人工智能到达了AGI的标准▓。现有的大模型测试集❶，不足以评判如今快速迭代的大模型能力⑤。

无独有偶①，在业内讨论AI测试之际②，谷歌CEO皮查伊在社交媒体平台上庆祝谷歌旗下模型Gemini 2.5 Pro完成通关经典游戏《精灵宝可梦蓝》的测试⑫。全球两大主流AI企业不约而同地关注大模型测试⑤，这本身就能说明AI测试的重要性⑩。现行的大模型集出现了什么问题⑭，让业内关注起模型测试的迭代升级③？

自2023年3月GPT-4发布⑤，引发了市场社会对于AI的火爆关注⑮，由GPT-4带动的AI测试集MMLU犹如手机评测界的“安兔兔”⑮，在大模型测试中备受关注⑯。以MMLU为主的各种衍生集⑦，比如MMLU-Pro⑳、MMLU-CF等测试集❷，成为之后雨后春笋发展的各类大模型发展中的必经之路⑩。

既然是发布上市的“必经之路”⑤，围绕如何通过“测试集”就成为部分AI大模型的重中之重①，由此也引发出AI大模型的“作弊”④，即围绕特点大模型测试集进行主动“刷分”⑱，以谋求在该测试集上得到较高的排名⑭。结果是❸，一个开发者做的模型把在这些测试集上的表现当作重要考量目标⑧，那只要足够长的训练后③，就一定可以得到很好的成绩⑫。但与此同时⑦，和这些训练集内容无关的问题④，回答质量就不如人意❸。

很现实的影响是❶，目前主流大模型厂商对这些已经被“作弊”弄得千疮百孔的测试集⑯，已经失去兴趣⑨，开始谋求新的AI测试工具⑥。上文中提到谷歌对大模型通过游戏测试表现出如此高的兴趣①，这也符合逻辑②。

除了“作弊”⑨，抛弃现有大模型测试集另一个方面在于②，现有的大模型测试集并不能真实地反映出当前主流大模型的能力⑭。例如⑮，2024年9月之后出现的几个模型④，o1⑩、Sonnet-3.5①、Gemini 1.5⑤、Llama 3.1③，在做MMLU测试的时候❸，都是90-95分的水平❸，没有出现区分度⑫。

面对这样的情况⑧，OpenAI牵头做出了FrontierMath测试集③，这是一个在数学方面较好的测试集②。在基础版的测试场景下⑥，不同模型的表现差异显着⑦。2023 年 5 月发布的 GPT - 4o 在该测试中正确率约为 1%⑬；Sonnet 3.5 的正确率相对略高⑮，达到 1.5%左右⑤；Gemini 1.5 Pro 的正确率约为 1.2%❶；马斯克旗下的 Grok 2 Beta 正确率约为 0.9%⑩。但当测试对象换为 2025 年 1 月 OpenAI 最新上线的 o3 模型时⑦，情况发生了巨大变化⑳，其正确率高达 25%⑮，这一成绩是其他模型正确率的十几倍⑤。

不过▓，近期有业内人士爆出④，OpenAI曾经主动向出题方索要到数据库访问权①，FrontierMath的题库和解答都尽在眼底⑯。这种“既当裁判员⑯，又当运动员”的行为⑯，也让FrontierMath测试集失去了成为主流测试集的机会⑪。

总而言之⑤，在AI行业内设立一个多方都认可的AI测试集已经成为行业共识⑨。不过是否能够公正地找到这个多方都认可的测试集②，目前还是在多方博弈之中⑯。目前②，已经有业内人士透露③，作为第三方一家为AI模型提供训练数据的公司Scale AI和美国AI安全研究联盟的核心成员非营利性的研究AI安全的学术机构CAIS⑮，正在携手设计新的模型测试集⑳。

很赞哦⑮！

上一篇：吉林省体育局：助残日前夕❷，吉林省聋人球迷会走进亚泰俱乐部

下一篇：巴西总统卢拉见证⑰，美团旗下外卖服务Keeta将进入巴西市场