少妇大叫太大太粗太爽了_科技新发_田渊栋团队新作祭出Agent-as-a-Judge少妇大叫太大太粗太爽了！AI智能体自我审判，成本暴跌97%

田渊栋团队新作祭出Agent-as-a-Judge少妇大叫太大太粗太爽了！AI智能体自我审判，成本暴跌97%_ZAKER新闻

　　8月14日，记者从海口市新冠肺炎疫情防控第64场新闻发布会上获悉，8月13日18时—8月14日18时，海口市新增1例新冠肺炎确诊病例，系在隔离管控中发现。此轮疫情海口市累计发现确诊病例20例、无症状感染者5例。追查到海口市感染者关联密接2396人、密接的密接6226人、参照密接管理人员728人。

【新智元导读】AI 评估 AI 可靠吗？来自 Meta、KAUST 团队的最新研究中，提出了 Agent-as-a-Judge 框架，证实了智能体系统能够以类人的方式评估。它不仅减少 97% 成本和时间，还提供丰富的中间反馈。AI 智能体，能否像人类一样有效地评估其他 AI 智能体？对于 AI 智能体来说，评估决策路径一直是棘手的问题。已有的评估方法，要么只关注结果，要么要要过多的人工完成。为了解决这一问题，田渊栋、Jürgen Schmidhuber 带领的团队提出了「Agent-as-a-Judge」框架。简言之，让智能体来评估智能体系统，让 AI 审 AI。它不仅可以减少 97% 的成本和时间，还能提供丰富的中间反馈。这是「LLM-as-a-Judge」框架的有机延伸，通过融入智能体特性，能够为整个任务解决过程提供中间反馈。论文地址：https://arxiv.org/abs/2410.10934v1研究人员提出了 DevAI 基准，为全新框架提供概念验证测试平台。包含 55 个真实的 AI 开发任务，带有详细的手动注释。通过对三个领先的智能体系统进行基准测试，发现它大大优于「LLM-as-a-Judge」框架。总之，这项研究真正的变革之处在于：它提供了可靠的奖励信号，为可扩展的、自我改进的智能体系统铺平了道路。「法官」智能体，击败大模型现有评估方法，无法为智能体系统的中间任务解决阶段，提供足够的反馈。另一方面，通过人工进行更好的评估，代价太大。而智能体系统的思考方式，更像人类，通常是逐步完成，并且在内部经常使用类人的符号通信来解决问题。因此，智能体也能够提供丰富的反馈，并关注完整的思考和行动轨迹。「Agent-as-a-Judge」不仅保留了「LLM-as-a-Judge」成本效益，还具备智能体特性，使其在整个过程中提供中间反馈。下图展示了，大模型、智能体、人类作为评判者的示意图。DevAI：自动化 AI 开发数据集另外，在代码生成领域，基准测试的发展也落后于智能体系统的快速进步。比如，HumanEval 仅关注算法问题，而 MBPP 则处理简单的编程任务，但这两者都没有反映出开发者面临的最实际的挑战。作为一个改进，SWE-Bench 基准确实引入了 GitHub 现实问题，提供一种全新评估的方法。不过，它仍需要关注自动修复任务的开发过程。为了解决当前代码生成基准测试中的上述问题，研究人员引入了 DevAI：AI 开发者数据集，其中包含 55 个由专家注释者创建的真实世界综合 AI 应用开发任务。DevAI 结构是这样的：智能体系统首先接收用户查询以开始开发，然后根据 AI 系统满足需求的程度来评估它，其中偏好作为可选的、较为柔性的标准。图 3 展示了 DevAI 任务的一个例子。DevAI 中的任务规模相对较小，但涵盖了常用的关键开发技术。如图 2 所示，任务被标记并覆盖了 AI 的多个关键领域：监督学习、强化学习、计算机视觉、自然语言处理、生成模型等。每个任务都是，可能交给研究工程师的真实世界问题，并降低了在这个基准上评估方法的计算成本。接下来，研究人员将领先的开源代码生成智能体框架，应用于 DevAI 中的任务：MetaGPT、GPT-Pilot、OpenHands。他们让人类评判者、大模型评判者、以及智能体评判者框架，来评估其性能。结果如表 1 所示，MetaGPT 最具成本效益（1.19 美元），而 OpenHands 是最昂贵的（6.38 美元）。从开发时间来看，OpenHands 完成任务平均耗时 362.41 秒，而 GPT-Pilot 耗时最长，为 1622.38 秒。平均而言，使用这三者之一对 DevAI 进行完整评估，大约需要 210.65 美元和 14 小时才能完成。Human-as-a-Juge：DevAI 手动评估为了确定 DevAI 的实用有效性，并准确估计当前最先进的智能体系统实际代码生成能力，研究人员手动评估三个 AI 开发者基线在 DevAI 中的应用。如表 2 所示，（I）和（D）代表独立性能与考虑任务依赖性的性能。表示多个专家的进化，并且意味着评估使用白盒测试（允许访问生成的 workspace、人类收集的轨迹和开源代码库）。两种性能最好的方法（GPT-Pilot 和 OpenHands）可以满足大约 29% 的要求，但只有一项任务可以满足所有要求。另外，在三位人类评估者之间，他们的个人评估存在大量分歧，说明了单一人类评估的不可靠性。下图 5 总结了人类评估和共识评估的不匹配度。---：智能体评估智能体根据以往智能体设计的经验，并通过模仿人类评估过程，研究人员涉及了 8 个模块化交互组件，具体包括：1 图像模块：构建一个图像，获取项目整个结构，包括文件、模块、依赖项，还可以将代码块分解为代码片段2 定位模块：识别需求所引用的特定文件夹 / 文件3 读取模块：超越了简单的文件解析，支持跨 33 种不同格式的多模态数据的读取和理解4 搜索模块：提供了对代码的上下文理解，并且可以快速检索高度相关的代码片段，以及其背后细微差别5 检索模块：从上下文中提取信息，识别轨迹中相关片段6 查询模块：确定是否满足给定要求7 记忆模块：存储历史判断信息，允许智能体基于过去记忆评估8 规划模块：允许智能体根据当前状态和项目目标制定策略，并排序任务。具体操作流程，如下图 9 所示。下表 3 展示了，Agent-as-a-Judge 在各项任务中始终优于 LLM-as-a-Judge，特别是在那些训在任务依赖关系的情况下。评判开发者智能体，是一项类别不平衡的任务，满足要求的情况要比失败的情况少的多。而判断转移和对齐率等指标可能会产生误导。比如，由于 MetaGPT 很少满足要求， LLM-as-a-Judge 很容易将大多数情况识别为负面（在黑盒设置中达到 84.15%）。PR 曲线通过平衡精确度和召回率，提供更清晰的性能衡量标准。这表明，在某些情况下，Agent-as-a-Judge 几乎可以取代人类评估员。最后，在消融研究中，研究人员分析了各种组件的添加，对 Agent-as-a-Judge 判断 OpenHands 性能的影响。参考资料：https://x.com/tydsh/status/1846538154129375412

koa12jJid0DL9adK+CJ1DK2K393LKASDad

编辑:吴立功

TOP1热点：俄否认与乌方间接谈判

　　2008年10月，法国佳士得拍卖行非法拍卖英法联军侵华期间掠夺的圆明园文物兔首和鼠首，激起全国人民的一致反对。之后，在各方的不懈努力下，圆明园12兽首目前已经有7个回归祖国大陆。其中法国皮诺家族在“收购”了兔首和鼠首后又以“捐赠”形式送回。。

　　但考古行业也有优点。就像考古学家王巍老师所言，对于那种有点“功利”思想的人来说，如果想要一下子超过前辈的话，只有考古能做到，特别是在文科专业里。没准人家前面花了几十年都没找到，你突然就碰上了一个重大发现，哪怕一次也好。考古会带来更多惊喜。

TOP2热点：刘雨辰回应退出国家队

　　大连理工大学教授杜凤刚：虽然这个碑是在历史上被日本掠夺去的，也是不幸地在战争年代被掠夺去的，但是在偿还的时候，我们也希望日本能够以他们主动的形式把文物偿还给我们。

　　本次亚洲杯，中国男排此前并未列入比赛计划，是临时顶替卡塔尔男排参加比赛。随着中国男排连战连胜，击败包括中国台北，巴林，巴基斯坦，伊朗和韩国男排，最终在决赛击败日本男排后，中国男排时隔十年以横扫态势席卷亚洲杯。

TOP3热点：黑神话悟空登顶多国热销榜男孩子都会夹住女孩子头发

　　相比传统的考古方法，科技考古加快了研究进程，我们用各种各样的方法去穷尽信息。但发掘进程变得更慢了，三星堆的发掘要做到精细化，考古人员挖一层，还要扫描、收集土样，然后再继续挖。但无论是科技考古，还是传统考古，大家的目标都是一样的，就是研究历史，讲清楚我们从哪来、往哪去。

　　三星堆再次走红后，雷雨变得更忙了，他是三星堆遗址工作站站长，也是三星堆博物馆馆长。1984年，雷雨从北京大学历史系考古专业毕业，来到四川省文物考古研究院工作。三十多年里，他参与了三星堆的考古勘探与发掘工作，见证了一个个惊喜的出现。

TOP4热点：女教师遭网课爆破后猝死案已宣判说说都是怎么的干对象的

　　据日本学者渡边谅《鸿胪井考》记载，原碑石高1.8米，宽3米、厚度2米，重9.5吨。碑文中的“开元二年”就是公元714年，当时正值唐玄宗的“开元盛世”。

请与上述活动轨迹有时空交集的人员，立即主动向所在社区（村）、工作单位、居住酒店报告，或拨打丰台区疾控部门热线电话63811956进行报告。

TOP5热点：内蒙古呼和浩特市发生一起火灾欧美肥妇BWBWBWBXX小说

　　加强滞留人员服务保障。成立了怀来县滞留人员服务保障组，公布服务电话，全力保障滞留人员在怀期间基本生活，截至8月14日8时，已对滞留怀来人员159人进行免费食宿安排。

　　尽管韩国男排在世界排名远低于中国队，近期通过国际赛场磨砺，取得不错的成绩。好在中国男排在关键时间稳住阵脚，在关键分上取得主动，最终5局击败老对手。

TOP6热点：大连海滩救人大哥急寻被救者出证明暴躁少女CSGO

　　海城地域文化研究学者姜学东：当初靖国神社门前放置石狮，日本人称作狛犬，他们也认为这个石狮子也见证了他们对外殖民战争的过程，应该是这种精神上的考量。

　　本次亚洲杯夺冠，对中国男排意义非凡。在本次参加亚洲杯时，中国男排上下，只有戴卿尧等几位上海队员有国内联赛的夺冠经历。如果没有夺冠经验，在国际赛事上争冠难度就会大上不少。

TOP7热点：黑神话悟空登顶多国热销榜PYTHON人狗大CSDN

　　海南8月9日起安排滞留游客返程。截至8月14日12时，三亚转运目的地城市增至19个，分别为上海、广州、成都、杭州、西安、南京、武汉、长沙、济南、太原、石家庄、无锡、郑州、重庆、天津、深圳、哈尔滨、昆明、贵阳，累计起飞航班61架次，转运游客10306人。8月6日全市临时静默以来，三亚没有出现外溢到国内其他省市病例。

　　2021年1月，中国民间对日索赔联合会致信靖国神社，要求归还保存于靖国神社的中国石狮。2022年2月，中国民间对日索赔联合会又联合海城市市民致信日本山县有朋纪念馆，要求归还保存于其院内的中国石狮。

TOP8热点：农村单亲家庭未成年人犯罪人数增多在线观看特色大片免费网站

　　水利部和中国气象局8月14日18时联合发布橙色山洪灾害气象预警：预计，8月14日20时至8月15日20时，辽宁东部、吉林南部、西藏西部等地部分地区发生山洪灾害可能性较大（黄色预警），其中，辽宁东部、吉林南部局地发生山洪灾害可能性大（橙色预警）。其他地区也可能因局地短历时强降水引发山洪灾害，请各地注意做好实时监测、防汛预警和转移避险等防范工作。

　　亚洲杯决赛，是中日男排首次在亚洲杯决赛场遭遇。目前日本男排在世界排名超过中国，但面对这支日本青年军，中国男排并不畏惧。中国男排从首局比赛就发现，这一届日本男排以青年选手为主，虽然冲劲十足，但后劲不足，往往在领先后容易失去关注力。这也给了中国男排更多机会。第二局中国男排一度12比17落后，就是凭借顽强的毅力，顶住对手攻势。此后中国队确保本队在网前的优势，渐渐拿回比分，并将胜势保持到最后，以25比23拿下。

TOP9热点：厦门调整房产落户政策打开扇贝就可以吃火腿肠

　　“高温红色预警的启动标准是，过去48小时4个及以上省份部分地区连续出现最高气温达40℃及以上天气，且预计上述地区未来仍将持续。”陈涛说。

　　潘庆荣海城地域文化研究学者：他们在南面的大桥上反复争夺，当时余福章总兵也战死了，当地居民都来参战了，因为当地一些老百姓都参加了这场战役，晚间打巷战又打到第二天的早上九点，这个战役终告失败了。

TOP10热点：张昊唯称被一个团伙盯上精华液一区二区区别

　　“高温红色预警的启动标准是，过去48小时4个及以上省份部分地区连续出现最高气温达40℃及以上天气，且预计上述地区未来仍将持续。”陈涛说。

雷雨：目前还没有发现文字，我相信古蜀文明可能是有文字的。之所以没有发现文字，可能是因为古蜀人把文字写在比较容易损毁的器物上，比如木器或丝绸等。三星堆可能不一定有文字，或许只是一些符号，没有成熟的文字。这些谜题，都需要进一步的发掘和研究来解开。

发布于：马鞍山雨山区

少妇大叫太大太粗太爽了田渊栋团队新作祭出Agent-as-a-Judge少妇大叫太大太粗太爽了！AI智能体自我审判，成本暴跌97%_ZAKER新闻

少妇大叫太大太粗太爽了田渊栋团队新作祭出Agent-as-a-Judge少妇大叫太大太粗太爽了！AI智能体自我审判，成本暴跌97%_ZAKER新闻