政策速览-"插逼动图"-Cla插逼动图ude3.5两小时暴虐50多名专家，编程10倍速飙升！但8小时曝出惊人短板

Cla插逼动图ude3.5两小时暴虐50多名专家，编程10倍速飙升！但8小时曝出惊人短板_ZAKER新闻

共和党领导层成员、众议员埃莉斯·斯特凡尼克(EliseStefanik)称，这是“美国黑暗的一天”，并声称特朗普有权对2020年大选“正确地提出担忧”。

AI 智能体离自主研发，还有多远？Nature 期刊的一篇研究曾证明了，GPT-4 能自主设计并开展化学实验，还能阅读文档学习如何使用实验室设备。另有 Transformer 作者之一研发的「世界首个 AI 科学家」，一口气肝出 10 篇论文，完全不用人类插手。如今，AI 在研发领域的入侵速度，远超人类预期。来自非营利组织 METR 的最新研究称：同时给定 2 个小时，Claude 3.5 Sonnet 和 o1-preview 在 7 项具有挑战性研究工程中，击败了 50 多名人类专家。论文地址：https://metr.org/AI_R_D_Evaluation_Report.pdf令人印象深刻的是，AI 编程速度能以超越人类 10 倍速度生成并测试各种方案。在一个需要编写自定义内核以优化前缀和运算的任务中，o1-preview 不仅完成了任务，还创造了惊人的成绩：将运行时间压缩到 0.64 毫秒，甚至超越了最优秀的人类专家解决方案（0.67 毫秒）。不过，当比赛时间延长至 8 小时，人类却展现出了明显的优势。由下可以看出，随着时间逐渐拉长，Claude 3.5 Sonnet 和 o1-preview 的性能提升逐渐趋于平缓。有趣的是，为了获得更高的分数，AI 智能体居然会违反规则「作弊」。原本针对一个任务，智能体应该减少训练脚本运行时间，o1-preview 直接复制了输出的代码。顶级预测者看到这一结果惊叹道，基于这个进步速度，AI 达到高水平人类能力的时间可能会比之前预计的更短。RE-Bench 设计架构，遍历七大任务为了能够快速迭代，并以合理的成本收集数据，研究人员设定了运行限制：人类专家的评估不超过 8 小时，且所有环境都只能使用 8 个或更少的 H100 GPU 运行。在环境设计时，主要考虑最大化覆盖前沿 AI 难题，同时确保人类专家与智能体能够持续推进任务，不会遇到研究瓶颈或得分上限。RE-Bench 包含了七个精心设计的评估环境，其中每个环境都提出了一个独特的机器学习优化问题，要取得高分需要大量的实验、实现和高效使用计算资源。每个评估环境包括三部分：1、评分函数（scoring function），定义了环境的目标，智能体可以随时运行该函数。每次运行评分函数时，都会在得分日志中添加一个带时间戳的事项。智能体可以看到得分日志，并检查评分函数的细节，有助于理解研究目标。2、简单但性能不佳的初始解决方案（starting solution），提供给智能体，以展示有效的解决方案是什么样子，有助于说明环境设置，可以让智能体更快地开始研究问题中更具挑战性的部分。比如说，在「优化核函数」环境中，智能体的输入为一个简单但运行缓慢的 Python 解决方案。3、由任务作者创建的参考解决方案（reference solution），得分很高。但该解决方案不会提供给智能体，只用于归一化得分（normalize score），作为一个优秀解决方案的示例。下式中 ys 为初始方案得分，yr 为参考方案得分，y 为模型得分，yn 为归一化分数。除了「Scaling Law Experiment」采用最终分数进行评估外，其他实验都使用得分日志中的最高分。8 小时极限，人类专家吊打 AI研究人员使用开源的 Vivaria 平台来设置安全的虚拟机，配备 20-48 个虚拟 CPU、200-400 GB 的 RAM，以及 0 到 6 个 H100 GPU，对比模型选择了 claude-3-5-sonnet-20241022 以及 o1-preview，框架选择为 METR 和 AIDE时间限制下的性能在相同时间下，可以看到，o1-preview 和 Claude 3.5 Sonnet 在最初阶段进展迅速，但在几个小时后速度减慢；而人类专家起步较慢，但随后迅速取得进展。采样限制下的性能除了长时间运行外，研究人员还评估了模型是否能在更短的时间限制下取得更好的性能：对每个环境进行 k 次采样，并选择所有 k 次运行中取得的最高分数。结果发现，模块化框架中的智能体在 30 分钟尝试中表现得更好，而 AIDE 框架中的智能体则在 2 小时尝试中表现最佳。还可以发现，在 AIDE 框架中的 o1-preview 和在模块化框架中的 Claude 3.5 Sonnet 总体上取得了最高的分数，分别达到了人类专家的第 36 和第 37 百分位。随着样本数量的增加，最佳 -k 次分数（score@k）也会发生变化：Claude 3.5 Sonnet 在 30 分钟时，样本数量增加，性能也稳步提高，但即使在 k=128 个样本下，智能体的表现也远远落后于顶尖人类的表现。总体而言，人类起步较慢，但改进轨迹更陡峭，即进步更快，并且在 32 小时的时间预算内达到了比任何智能体都更高的分数。按环境评估研究人员对比了两个智能体（模块化框架中的 Claude 3.5 Sonnet 和 AIDE 框架中的 o1-preview）在 32 小时内的最高性能分配与人类结果（四次 8 小时运行中的最佳表现）以匹配智能体的时间预算。结果发现不同智能体在不同环境中的表现存在显著差异：Claude 3.5 Sonnet 智能体在「微调 GPT-2 进行问答」和「扩展法则实验」环境中接近人类的表现，而 o1-preview 在这些环境中表现不佳；o1-preview 在「优化核函数」环境中的表现超过了人类。人类 -AI 差距之间定性分析为了更好地了解人类专家在哪些条件下，比 AI 智能体做得更好或更差的原因，研究人员对智能体成绩和解决方案进行了定性分析。AI 智能体：知识储备大，尝试频率 37 次 /h虽然 AI 智能体通常无法找到与顶级人类专家相匹配的解决方案，但它们也取得了一些显著的成功。比如，在 AIDE 加持下，Claude 3.5 Sonnet（新版）和 o1-preview 都能找到「优化内核」的解决方案，运行速度约为参考解决方案的 2 倍。如下图所示，其中，o1-preview 的解决方案甚至超过了 9 位人类专家。这些都是复杂且新颖的算法，能有效绕过 GPU 通信限制，并使用一种缺少良好公开文档的低资源编程语言（Triton）。这个令人惊讶的结果可能部分归因于，AI 智能体和许多人类专家之间的专业知识差距，因为大多数人类专家并不具备编程 GPU 内核的专门知识。这种情况在多个环境中都有体现：一些不太熟悉该领域的人类专家需要花费大量时间学习或复现标准方法（有时甚至完全失败），而 AI 智能体凭借其广泛的知识基础往往能轻松完成。AI 智能体成功的另一个关键因素可能是，它们能比人类专家尝试更多的解决方案。平均而言，AIDE 和模块化智能体每小时分别运行 36.8 次和 25.3 次，而人类专家仅为 3.4 次。这通常导致智能体找到高度优化的「局部最优」解决方案，仅通过调整初始解决方案的参数和代码，就能实现显著的改进。例如，许多智能体在解决「优化内核」环境时，并非通过编写成功的 Triton 解决方案（这很困难），而是通过仔细调整初始的 Pytorch 解决方案，使其运行速度显著提高。也就是说，它们能够有效优化现有解决方案。如下，是「微调 GPT-2 用于问答」最佳智能体解决方案中，Claude 3.5 Sonnet 调整了初始解决方案的参数，并在训练轨迹和评估中获得了准确结果。不过，这一高分有可能是对噪声过度拟合的结果。总而言之，AI 智能体的成功在于能够进行大量参数微调和代码优化，偶尔还会提出创造性有效的解决方案，尤其是在评估成本低的环境在非常有效。失败因素但在大多数环境中，智能体仍然没有达到强大的人类专家的水平。造成这种情况的原因之一是，AI 智能体提出的解决方案缺乏多样性。例如，在「受限架构 MLM」任务中，智能体在 84% 的情况下，都在尝试使用稍作修改的 Transformer 架构。即使在不能使用除法和指数运算的情况下，仍固守这种方案。另一个局限性是，持续性的指令理解错误，特别是在「受限架构 MLM」和「优化 LLM Foundry」任务中。在某些情况下，这些对环境的误读可能导致智能体找到令人印象深刻且意想不到的漏洞，这些漏洞在自动评估中得分很高，但在人工检查时明显违反了环境规则。缩小差距基于以上的观察，研究人员认为 AI 智能体在以下特征的环境中，会比人类表现更好：- 短期且高保真循环反馈，可以让 AI 智能体充分发挥尝试多个解决方案的优势- 工程复杂度低，使得 AI 智能体通过几个步骤就解决问题- 需要专业知识的任务，AI 智能体比人类专家具备更全的知识- 环境中有显著的噪声，这种情况下 AI 智能体可以进行大量尝试的优势会超过人类专家较少的尝试次数。- 不易出现意外情况，不需要太多的探索和发现Re-Bench 局限性评估环境的代表性不足为了创建符合设计标准的高可靠性评估，研究人员需要努力确保指令和评分容易理解，8 小时内可以取得显著进展，并且提供所有必要的资源，还必须选择易于构建和评估的环境。这些限制使得评估环境不太能代表真实的研究，常见问题包括不明确的目标、糟糕的指令、慢反馈和无法解决的问题。结果噪声由于环境数量较少，且智能体得分严重向右倾斜，大多数运行得分为 0，只有少数得分非常高，所以结果评估对抽样噪声很敏感。评估的成本和复杂性使用 H100 GPU 运行智能体数小时需要相应的基础设施和大量预算，对于普通研究人员来说压力很大，运行大规模实验来对比多个模型、框架和参数也更具挑战性。缺乏框架迭代选择不同的智能体框架或提示，有可能导致模型在相近的时间内，在基准测试上取得更好的成绩。研究人员的预期是，通过为智能体提供管理 GPU 资源的工具，或是通过并行探索解决方案来利用更多的 token 等来实现更好的性能。覆盖前沿研究的局限性由于硬件访问有限，并且前沿 AI 研究也大多是闭源的，评估所涵盖的研究类型与推动前沿 AI 进步的研究类型之间可能存在差异。方案可能过度拟合除了「扩展法则实验」之外，所有环境都向智能体提供了测试分数输出，以最小化误解或混淆的风险；在未来的迭代中，研究人员考虑只在大多数环境中向智能体提供验证分数，把测试分数隐藏起来。「扩展法则实验」得分存在运气成分虽然良好的实验可以帮助人类专家在环境中做出明智的预测，但智能体还是主要依赖猜测，更多是运气而不是技巧的问题。

koa12jJid0DL9adK+CJ1DK2K393LKASDad

编辑:李书诚

TOP1热点：网友前往珠峰大本营遇地震：车狂摇

投资更加谨慎。本次土拍中桃浦地块仅2家企业参与竞拍，而一批次中同样是桃浦的地块超10余家企业参与，在今年来桃浦新房入市表现不及预期的情况下，房企在核心区域拿地也开始更加谨慎。。

现在，很多展商已经将进博会作为年度最重要的活动，投入很多资源和精力，为进博会越办越好作出了积极贡献。展望未来，我们会进一步发挥展盟及其专委会的作用，提升展商获得感，使其成为促进行业发展的积极力量。

TOP2热点：中国医生通过卫星完成手术

盛夏时节，薄荷飘香。认识薄荷、探索薄荷、了解薄荷，一株小小的薄荷激发了孩子们探索学习的欲望。随着研究活动的不断深入，孩子们的实践能力、创新能力、动手能力都在不断地发展。

TOP3热点：中国船员疑被绑至缅甸遭勒索10万色屋大香蕉

边学习边训练边比赛，在专业队的时候，宋佳媛的教练是隋指导，回到学校，她就跟着曾指导训练。更多的时候，曾朝恭就像是一座“桥”，架在专业队和学校之间，让宋佳媛训练和学习无缝衔接。

会议中，校方代表、家长代表、心理教育工作者、领域专家以及学校社工共五位嘉宾以圆桌论坛的方式围绕“学校社会工作的价值”这一主题，共同探讨了学校社会工作的专业价值和未来发展方向。

TOP4热点：西藏日喀则发生6.8级地震27快报第657

在黄平看来，涿州的救援很尽心尽力，凌晨三四点，他联系涿州相关部门负责人，微信还是秒回。“被困在汪洋里，人都会恐慌，只能说在天灾面前，人太渺小了。”

奔赴万里山河

TOP5热点：西藏6.8级地震成都昆明收到预警翁媳出轧小说

此次上海地铁10、17号线增加虹桥枢纽夜间的服务时长只针对暑运期间，2023年9月3日后，10、17号线即恢复常态运营。

近年来，庄行镇始终将体育与乡村振兴相融合，进一步扩大全民运动、全域体育辐射面，打造更具吸引力的群众体育。此次赛事携手区体育局、庄行蜜梨协会共同举办“美丽乡村庆丰收”庄行蜜梨主题竞技比赛，是农业发展和体育建设深度融合，提升村民幸福指数，折射美丽乡愁。

TOP6热点：女子称用定位在野外找到遗失手机人妻～夫上司の犯さどの

此次活动分“锦绣欢唱”“乐动市民”“畅想精彩”三个篇章。动感十足的架子鼓，悠扬婉转的弦乐二重奏，激情四射的街舞，还有男女声对唱、沪语歌曲、情景剧、朗诵等等，一个多小时的节目，精彩纷呈，赢得在场观众阵阵掌声和喝彩声。

近日，“随申办”杨浦区旗舰店

TOP7热点：王嘉尔跳舞好有性张力ipx598

在推动安全生产的思路下，宝钢股份还大力推进城市钢厂建设，为员工提供更高标准的健康作业环境。目前已建成国内最大封闭无人料场，同时对全厂160公里长度、1080余条运输皮带进行封闭改造，全面降低粉尘排放。此外，企业还建立了排放管控一体化平台，安装大量悬浮颗粒物监测、挥发性有机物监测系统和高清视频系统等，实现“生产-治理-监测”同步的排放全过程一体化管控。

食管癌术后饮食分为“禁食、流质、半流质、软食、普食”五个阶段，饮食原则主要是以营养平衡、易消化、易咀嚼；食物碎、烂、软；少油炸、少油腻、少粗纤维及刺激性食物为主。另外，还需注意以下几点：

TOP8热点：加拿大总理特鲁多辞去自由党领袖七夕潘甜甜制片厂

美国则表示，目前不会从尼日尔撤离本国公民，但暂停了与尼日尔军队的训练活动。美国白宫国家安全委员会发言人约翰·柯比（JohnKirby）称：“我们没有任何迹象表明美国公民或我们的设施受到直接威胁，因此我们目前没有改变我们在尼日尔存在的立场。”

连日来，位于河北涿州码头镇的北京西南物流中心涿州园区遭遇水灾，大量图书仓库被淹，损失严重。

TOP9热点：奚梦瑶晒儿子女儿正脸照十年沉淀只作精品

据“上海体育”公众号介绍，本次体育消费券适用场景多、覆盖范围广、优惠力度大。领券之后，消费者可在美团、大众点评App的“上海体育消费券”专题活动页，选择合适的门店，使用消费券购买团购或者进行场馆预订。第一期消费券最晚到店使用时间为8月13日24：00。

（一）加强组织领导

TOP10热点：落马副部正事不干天天打牌牛牛av

当天，众多电影人、影评人及大V达人们都分享了观影后的第一感受。电影《消失的她》导演崔睿表示，除了记录自然，自己也在《雪豹和她的朋友们》中感受到强烈的故事性，“雪豹妈妈”一度成为了“消失的她”，牵动着观众的心。演员颜丹晨也带着孩子前来观影，她认为这是一部非常适合小朋友观看的电影，能够让他们懂得敬畏自然，理解人类与自然和谐共生的奥义。《当代电影》杂志主编皇甫宜川和国家动物博物馆副馆长张劲硕也纷纷点赞《雪豹和她的朋友们》超越纪录电影本身的艺术力量，他们都表示，暑期档和中国电影需要这样的作品，让更多观众关注自然、热爱自然、保护自然。

案发现场监控画面。青浦区检察院供图

发布于：景德镇市

插逼动图Cla插逼动图ude3.5两小时暴虐50多名专家，编程10倍速飙升！但8小时曝出惊人短板_ZAKER新闻

插逼动图Cla插逼动图ude3.5两小时暴虐50多名专家，编程10倍速飙升！但8小时曝出惊人短板_ZAKER新闻