法规动态-"有线高清电视线SYWV75"- 人类最后一次考试有线高清电视线SYWV75，AI惨败正确率＜10%！数百顶级专家联手出题，DeepSeek竟是王者

人类最后一次考试有线高清电视线SYWV75，AI惨败正确率＜10%！数百顶级专家联手出题，DeepSeek竟是王者_ZAKER新闻

郗朋分析，短期美债

【新智元导读】AI 模型可能并没有想象中强大。在最新的 AI 基准测试「人类最后一次考试」中，所有顶尖 LLM 通过率不超过 10%，而且模型都表现得过度自信。捍卫「人类智慧」最后一战 !刚刚，Scale AI 和 Center for AI Safety（CAIS）公布了「人类最后一场考试」结果！新基准全称「人类最后一次考试」（Humanity ’ s Last Exam），简称「HLM」，包含 3000 个问题，由数百位领域专家开发，用于追寻人类知识推理的边界。目前，最好的模型，准确率也小于 10%，而且自信「过头」。具体结果如下：Scale AI 和 CAIS 同时公布了相关论文、数据集和测试代码。项目链接：https://lastexam.ai/网友对这项工作也不吝赞赏：「人类最后一次考试」为了评估 AI 的能力的进展，已发布了多个数据集，针对语言模型，根据「Paper with code」网站统计，就有 165 个相关数据集。然而，目前的基准测试难度并未跟上进步的步伐：LLM 在一些热门基准测试（如 MMLU）上已能达到 90% 以上的准确率，这限制了对最新 LLM 能力的有效评估。甚至有基准被爆出，可能存在给某些模型「漏题」的问题。为此，Scale AI 和 CAIS 推出了名为「人类最后的考试」（Humanity's Last Exam）的多模态基准测试，旨在成为这类封闭式学术基准测试的最终版本，覆盖广泛的学科领域。测评一览「人类最后一次考试」（HLE）包含两种问题格式：精确匹配题（Exact-Match Questions）：模型需要输出一个完全匹配的字符串作为答案。选择题（Multiple-Choice Questions）：模型需要从五个或更多选项中选择一个正确答案。此外，HLE 是一个多模态基准测试，其中 10% 的问题要求理解文本和图像参考，80% 的问题为精确匹配题，其余为选择题。该数据集包含 3000 道难度较高的问题，涉及 100 多个学科。各学科分类，大体如下：图 3：HLE 高级类别分组。大部分问题已公开发布，同时保留了一部分私有测试集，用于评估模型是否存在过拟合现象。在项目网站上，公布了不同领域 / 科目的 8 个样题，包含化学、物理、数学、计算机科学、语言学等。比如，其中的一道常识性问题：希腊神话中，伊阿宋的曾祖父是谁？具体样题，参考下列图片。创建流程为了吸引高质量的问题提交，HLE 设立了总额 50 万美元的奖金池，并提供以下奖励：顶级问题奖励：每道排名前 50 的问题将获得 5,000 美元奖金。优质问题奖励：接下来的 500 道问题，每道将获得 500 美元奖金。此外，任何被 HLE 接受的问题提交者，都有机会成为相关论文的共同作者，激励了众多高水平的专家参与，特别是那些拥有高级学位或在相关技术领域拥有丰富经验的专业人士。总体而言，总收集了超过 70,000 个试验性问题，其中 13,000 个问题被选出来供人类专家评审，进而最终确定在公开考试中发布的 3,000 个问题。近 1000 名专家成功提交了问题。他们来自 50 个国家的 500 多个机构，其中大多数贡献者是活跃的研究员或教授。问题涵盖了多种格式，包括纯文本和多模态难题，整合了图像和图表。为了确保问题的高质量和难度，HLE 的数据集通过以下流程创建：问题筛选：首先接收问题提交，这些问题专门前沿的 LLM 设计，LLM 通常难以正确回答。迭代优化：在专家同行评审的帮助下，反复修改和优化提交的问题，提升问题的复杂性和准确性。手动审核：由组织者或由组织者培训的专家，手动审核每道问题，确保问题符合测试要求。保留私有数据集：除了公开数据集，还保留了一部分私有测试集，用于评估模型在公开基准测试上的过拟合和可能的作弊行为。HLE 的数据集创建流程具体结果研究者共测评了 7 个模型，包括 GPT-40、Grok 2、Claude 3.5 Sonnect、Gemini 1.5 Pro、Gemini 2.0 Flash Thinking、o1 和 DeepSeek-R1。表 1 显示，所有前沿模型在 HLE 中的准确率都很低，所有模型的校准表现都很差，反映在较高的 RMS 校准误差分数中。表 1：不同模型在 HLE 上的准确率和 RMS 校准误差。具有推理能力的模型，通常需要显著更多的推理时间和计算资源。为了更清晰地了解这一点，对各模型生成的补全（completion）token 数量进行了分析。正如图 5 所示，推理模型 Gemini 2.0 Flash Thinking、o1 和 DeepSeek-R1 为了提升性能，需要生成的 token 数量远远超过非推理模型 GPT-40、Grok 2、Claude 3.5 Sonnect 以及 Gemini 1.5 Pro（见图 5）。图 5：不同模型的平均补全（completion）token 数量展望未来在「人类最后一次考试」（Humanity's Last Exam，简称 HLE）中，目前的 LLM 表现仍然非常差。但从发展历史来看，基准测试的饱和速度非常快——模型往往在短短的时间内，从接近 0 的准确率跃升至接近 100% 的表现。鉴于 AI 发展的快速步伐，在 2025 年底前，模型有可能在 HLE 上超过 50% 的准确率。AI 实验室有新榜单可刷了，跃跃欲试如果模型在 HLE 中获得高分，将表明模型在封闭式、可验证的问题以及前沿科学知识方面的专家级表现，但这并不意味着模型具备自主研究能力或「通用人工智能」（AGI）。HLE 测试的是结构化的学术问题，而非开放式研究或创造性问题解决能力，因此它更侧重于技术知识和推理能力的衡量。作者在论文表示：「虽然 HLE 是给予模型的最后一场学术考试，但它远非 AI 评估的最后一个基准。」

koa12jJid0DL9adK+CJ1DK2K393LKASDad

编辑:赵大华

TOP1热点：倾尽一城花，只为奠一人！黄旭华院士遗体送别仪式在武汉举行

◎孙小程。

日前，广发银行发布公告称，对信用卡资金用途规范进行明确，要求信用卡资金不得用于房地产领域、投资理财领域、购买非消费型保险；不得用于生产经营领域；不得用于比特币等虚拟交易；不得用于偿还债务；不得用于购买彩票、赌博等方面。若信用卡资金用于以上或其他非消费领域，可能导致交易失败。另外，对涉嫌非消费领域交易行为的信用卡持卡人采取包括但不限于限制交易、降额、停卡、终止分期等相关措施。

TOP2热点：重磅政策落地！新能源正式告别政府定价，全面参与电力市场交易

投资者需警惕投资风险

见习记者曹原赫

TOP3热点：援俄无人机眼镜藏爆炸装置，俄军事供应链漏洞引关注宝宝才两根手指就疼哭了怎么回事

5月31日，*ST新海公告称，增持主体合计增持公司股份2662万股，占公司股份总数的1.94%，增持计划实施完成。但6月1日，*ST新海收报0.97元，收盘价已经连续14个交易日低于1元。

尽管美联储正在努力放缓经济增长速度、为劳动力市场降温以降低通胀，但周五公布的非农就业数据表明劳动力市场依然强劲。

TOP4热点：去年全国结婚登记610.6万对，数量再度下探最好看免费观看高清视频了

摩根大通现金交易员MattReiner也称，从周四下午开始，美股个股的空头回补速度在加快，对冲需求也在上升，个股因大涨而暂时触发熔断的幅度限制在上移：

在摩天大楼鳞次栉比、高度繁华的深圳，同样有很多密集且残旧的城中村，这里普遍楼体老旧、环境脏乱，但因为房租便宜，成为不少外乡人来城市闯荡时的居住地。深圳南山区的白芒村就是其中很普通的一个城中村，最近因为统租，租客们被迫集中搬家，引来关注。

TOP5热点：澎湃AI晚新闻丨2025年2月9日旅行换配偶

进入二季度后，各地重大项目推进势头强劲。

作为东风公司举全集团之力打造的高端电动品牌，岚图汽车5月份交付3003辆新车，同比增长231%，今年前5个月仅销售1.2万辆。目前，岚图汽车正经历人事、管理、销量等多方面的压力。

TOP6热点：《哪吒2 》票房突破80亿背后：115家小微企业合力托举，京蓉沪最密集MACBOOKPRO免费网站

据知情人士透露，

随着数字经济的高速发展，数据安全风险也日益增长。数据泄露、篡改、滥用等问题频发，这更加强调了数据安全建设的重要性和紧迫性。近年来，数据安全行业在多项利好政策的推动下，迎来加速发展期。

TOP7热点：明查｜马斯克爆料比尔·盖茨造病毒、谭德塞年薪950万美元？军官H

在数字化转型的方向上，在减少不同App的重复业务，并根据业务特点集中资源增强服务效率，是目前农村金融机构考量的主要方向。

规划要完善

TOP8热点：多省市主官点赞DeepSeek背后：各地政府工作报告如何拥抱新质生产力狗狗配人怎么配

注册制的实质是将选择权交给市场，伴随全面注册制改革向纵深迈进，资本市场的新陈代谢功能日益显现。从退市维度来看，市场化之手正在精准、有序出清价值丧失的“壳公司”。截至目前，因连续20个交易日的股票收盘价均低于1元，年内触及和锁定“面值退市”的股票已有十余只。

TOP9热点：视频丨美国亚利桑那州一机场两飞机碰撞事故已致1死3伤铜铜铜铜铜铜铜好大好深色板

谈及对中国资产配置的展望时，普江宁认为，中国资本市场重要性不容小觑，威灵顿投资在资产组合中增加了中国的投资权重，“包括生物制药、生物技术，是威灵顿投资管理投资的重点，大部分医疗健康企业在全球化和创新方面做得非常好。我们会关注可持续发展和循环经济、循环技术等方面的机会。”

监管方追问资金来源

TOP10热点：小米回应“SU7被曝过坑时发生断轴”：不实，超速驾驶导致事故美国

值得注意的是，今年部分银行对非消费领域的范围、具体管控措施都进行了更明确的限定。从限制范围来看，上述银行均明确在房地产、投资理财、非消费型保险、偿还债务等领域的限制。同时，上述银行对资金用途的管控在交易中、交易后均有体现。从交易中来看，多家银行公告中提到如不符合消费领域，可能导致交易失败；而交易后的管控手段则更多，上述银行大多表示会视情况采用降额、停卡、终止分期等管控措施。

发布于：乡城县

有线高清电视线SYWV75 人类最后一次考试有线高清电视线SYWV75，AI惨败正确率＜10%！数百顶级专家联手出题，DeepSeek竟是王者_ZAKER新闻

有线高清电视线SYWV75 人类最后一次考试有线高清电视线SYWV75，AI惨败正确率＜10%！数百顶级专家联手出题，DeepSeek竟是王者_ZAKER新闻