JUL-670毕业典礼之后o3被曝成绩「造假」,60多位数学泰斗集体被耍,OpenAI暗中操控,考卷提前看光JUL-670毕业典礼之后_ZAKER新闻
o3被曝成绩「造假」,60多位数学泰斗集体被耍,OpenAI暗中操控,考卷提前看光JUL-670毕业典礼之后_ZAKER新闻
毕业那年,靳力和王晓英在接受采访的时候说:“我们要敢于挑战,但是更重要的是坚持。不是为了我们的生活更好,而是为了更多的人生活更好,这是我们的人生观,也是在将来的坎坷道路上让我们能够坚持理想的动力。”
OpenAI 被指提前获取 Epoch AI 题库,结果存疑。又爆大瓜!FrontierMath 的 o3 惊人表现,竟是因 OpenAI 资助了 Epoch AI 而提前获得大部分试题访问权。OpenAI 模型的性能究竟几分是真,几分炒作,愈来愈变得扑朔迷离。不久前,OpenAI 在「圣诞 12 连更」中发布的最强推理模型「o3」,毫无疑问地惊艳了所有人。尤其是对于新近发布的数学基准 FrontierMath,其准确率相比 o1 直接翻了 12 倍。要知道 FrontierMath 可是 Epoch AI 联合六十余位全世界的数学家,其中包括教授、IMO 命题人、菲尔兹奖获得者,共同推出的。其包括数百个原创的、格外具有挑战性的数学问题,每个问题就算是专业数学家,也得需要数小时或数天的时间才能解决。正因如此的高难度,o3 这种对于 FrontierMath 惊人的突破才让大家都对其推理能力而感到不同凡响。但是,近日曝出一则消息,o3 之所以能在短时间之内就相比于 o1 提升 12 倍的准确率,是因为 OpenAI 资助了 FrontierMath,并且可以访问大部分数据集。但那些为评测集创建问题和解答的数学家们却完全被蒙在鼓里,根本不知道 OpenAI 是项目资助方并将获得数据访问权。简单来说就是:我们无从得知 OpenAI 是否用这个评测集训练了 o3,因此他们宣称的结果可信度值得质疑数学家们被有意隐瞒了真相,而大多数人甚至从未怀疑过会有一家 AI 公司在背后提供资金支持对此,Epoch AI 解释称:「我们承认 OpenAI 确实可以访问大部分 FrontierMath 的问题和解决方案,但有一个 OpenAI 未见过的保留集使我们能够独立验证模型能力。我们有口头协议这些材料不会用于模型训练。 」但是这所谓与 OpenAI 达成的「口头协议」——呵,现在还有谁会相信 OpenAI 的承诺?根据网上的各种报道,FrontierMath 中的难题本应都是未公开的,目的就是防止 AI 公司利用这些数据训练模型。然而现在看来,「AI 公司根本接触不到这个数据集」这一点,实际上却是 Epoch AI 和 OpenAI 刻意制造出的假象。但考虑到 OpenAI 前科累累的欺骗和误导行为——从蒙骗自家董事会,到强迫前员工签署秘密的不诽谤协议,应有尽有。所以这次的事件,多少有种「意料之外,情理之中」的意味了。Epoch AI 首席数学家回应消息曝出后,Epoch AI 首席数学家 Elliot Glazer 对此进行了回应。他首先是承认了自己的错误,并对因为没有被告知真相而自主做出贡献的数学家致以歉意。而对于 o3 那惊人的 25.2% 的准确率,他只是个人层面上表示相信,却没有一个真实可靠、有理有据的保证。Epoch AI 联创 Tamay Besiroglu 也正式发布了博客作为回应。对于此次事件,Tamay 给出的解释是:「我们的合同明确禁止披露资金来源信息以及 OpenAI 可以访问大部分(但不是全部)数据集的事实。」现在回想起来,我们应该更积极地争取向评测集贡献者及时公开相关信息的权利。我们对此承担责任,并承诺未来会做得更好。虽然我们确实向部分数学家告知了来自 lab 的资金支持,但这种沟通并不系统,也没有具体说明合作方。这种不一致的沟通方式是我们的疏忽。我们应该一开始就坚持争取公开合作关系的权利,尤其是对那些创建问题的数学家们。仅在 o3 发布前后才获得披露 OpenAI 参与的许可是远远不够的。参与项目的数学家们有权知道谁可能会接触到他们的工作。尽管我们受到合同条款的限制,但我们应该将对贡献者的透明度作为与 OpenAI 合作的基本前提。同时,对于 FrontierMath 他仍然声称:「OpenAI 完全支持我们维护独立的未见测试集的决定——这是防止过拟合和确保准确评估进展的重要保障。」在交流中,OpenAI 的员工将 FrontierMath 称为「严格保留」的评估集,这种公开表述与我们的理解一致。而且,我想强调的是,拥有真正未被训练数据污染的测试集对各个 lab 都很重要。从项目伊始,FrontierMath 就被设计和定位为一个评估工具,我们相信当前的安排完全符合这一初衷。对于未来的合作,我们将致力于提高透明度,确保贡献者能在项目初期就清楚了解资金来源、数据访问权限和使用目的等信息。总结来看,Epoch AI 的确意识到了这次事件的严重性,但是很多回应依然停留在「公关套词」层面,并且全程都在甩锅称自己不说是因为「合同」的限制。已有端倪,激起热议一石激起千层浪,纽约大学教授 Gary Marcus,亚利桑那州立大学计算机教授 Subbarao Kambhampati 等大佬,纷纷发文对 OpenAI 这一的行为表示谴责。其实,在去年 12 月刚发布时,便有参与 o3-mini 早期测试的研究人员发现了这一端倪。比如 Open Vision Engineering 的创始人 Akshay Narisetti 在推上 po 出的发现,就从侧面印证了这次的爆料:o3-mini 在 ARC-AGI 中的正确率为 156/400o3-mini 在 Frontiermath 上的表现并不理想根据实测结果,模型擅长解决特定类型的问题,但泛化能力还未完全成熟。在结构化任务上表现优异,但在需要多维度推理能力的问题上仍有明显短板。对此,谷歌 DeepMind 的研究员「Ted Xiao」分析认为,这种影响可以有两个极端的解释:1. 糟糕,OpenAI 正在操纵 benchmark,还把测试题目泄漏进训练数据里了!2. OpenAI 只是用 FrontierMath 的私有题库来指导新训练数据的整体设计方向和目标,以及设计推理路径。当然了,也有没那么极端的。比如,稍微改改题目内容创建新的训练数据,这样从技术角度来说,确实没有直接用测试数据中的 token 来训练。如今,SOTA 模型之间的竞争已经白热化。如果使用这种投机取巧的方式,模型在实际应用场景中就会原形毕露(缺乏泛化能力)。这种冒险顶尖 AI 实验室可承担不起,因此于理来说,OpenAI 更可能采用第二种方式。但即便如此,这一行为依然让 o1 和 o3 在 FrontierMath 上,表现得比在其他未经优化的复杂推理领域中更亮眼。不过,这种差距应该不会像某些在 MMLU 上采用第一种手段的「小语言模型」那样——评测分数和实际能力简直是天壤之别。对于那些坚信 OpenAI 用了第一种方法、偷偷把测试数据混进去的人,我建议:不妨等等看 o3 在实际应用场景和其他评测中,跟下一代重点强化推理能力的顶尖模型相比,表现如何。到时就知道,o3 是不是只在 FrontierMath 上特别强,在其他地方就不行了。koa12jJid0DL9adK+CJ1DK2K393LKASDad
编辑:孙寿康
TOP1热点:刘亦菲抱玲娜贝儿
值得一提的是,随着公众出行习惯发生结构性变化,叠加春节假期高速公路免费时长增加等因素影响,人们选择自驾出行的意愿显著增强,自驾出行占比将达90%,创历史新高。。
TOP2热点:《封神》路演粉丝教于适说陕西话
而在千里之外的新疆,另一批旅拍的小团队则在阿勒泰体验了一把冰雪中的童话世界。早在去年11月,阿勒泰便已经白雪皑皑,上海的独立摄影师小冯带着客户奔赴阿勒泰。小冯已近三年没有组织新疆旅拍,来到久违的阿勒泰,小冯第一印象便是人多,尤其是各式各样滑雪的游客。小冯说:“感觉人比以前更多了,而且很多人和我们一样,几个人一起组成一个团自己玩,找个当地的司机兼导游就行,非常方便。”
TOP3热点:河南局地暴雪20毫米以上沈芯语老师家访MD0076
明确涉彩礼纠纷的诉讼主体。彩礼返还纠纷中,程序上存在的主要争议问题是婚约双方的父母能否作为诉讼当事人。在中国的传统习俗中,儿女的婚姻一般由父母操办,接、送彩礼也大都有双方父母参与。《规定》充分考虑上述习俗,区分两种情况:
TOP4热点:首例“妨害兴奋剂管理罪”案一审宣判交换的日子2
此类案件原则上以婚约双方当事人作为诉讼主体,但考虑到实践中,彩礼的给付方和接收方并非限于婚约当事人,双方父母也可能参与其中,为尊重习俗,同时也有利于查明彩礼数额、彩礼实际使用情况等案件事实,确定责任承担主体,《规定》明确,婚约财产纠纷中,婚约一方及其实际给付彩礼的父母可以作为共同原告;婚约另一方及其实际接收彩礼的父母可以作为共同被告。
TOP5热点:寒潮+暴雪+大雾!8省区有大到暴雪美国
2023年12月18日,一列满载55个集装箱的中欧班列,从哈尔滨国际集装箱中心站驶出,经同江铁路口岸驶向欧洲。同一天,一列中欧班列从天津新港北集装箱中心站驶出,开往俄罗斯首都莫斯科。这两列火车载的都是我国外贸“新三样”之一的新能源汽车。在中欧班列源源不断地将中国汽车送到欧洲的同时,一艘艘滚装船也将它们送往东南亚、拉美以及非洲等各个地区。
TOP6热点:希腊垃圾桶旁发现两千年前无头雕像男朋友要再做一次才同意分手
总体来说,两场比赛国足创造出的机会着实有限——第一场最后10分钟有两次,朱辰杰头球破门被取消算一次;还有林良铭和谢鹏飞的配合,后者近距离头球顶高。
刘非于去年11月履新云南省委常委、省委组织部部长;杨斌于去年12月履新云南省委常委、曲靖市委书记。其中,杨斌是二十届中央候补委员。
TOP7热点:被何赛飞唱戏曲惊艳到了权臣HLH
上海市崇明区委巡察组原组长、二级巡视员徐洪涉嫌受贿一案,由上海市监察委员会调查终结,移送检察机关审查起诉。日前,上海市人民检察院第二分院依法以涉嫌受贿罪对徐洪作出逮捕决定。该案正在进一步办理中。
TOP8热点:付航也开始玩贯口了噼里啪啦免费高清看
国足征战亚洲杯的历史上,还从来没有遭遇过小组赛前两场比赛180分钟没有进球的尴尬,扬科维奇和他的球队可以说是刷新了下限,社交媒体上很多球迷也将这一届国足称为“史上最差”。
TOP9热点:老君山景区紧急闭园沈阳老阿姨最后的巅峰
国足征战亚洲杯的历史上,还从来没有遭遇过小组赛前两场比赛180分钟没有进球的尴尬,扬科维奇和他的球队可以说是刷新了下限,社交媒体上很多球迷也将这一届国足称为“史上最差”。
TOP10热点:三星S25 Edge被曝采用减配芯片美国
近年来,中国汽车出口表现越来越亮眼。中国汽车工业协会(中汽协)日前发布的数据显示,2023年,中国汽车产销量分别达到3016.1万辆和3009.4万辆,创历史新高并实现两位数增长(分别增长11.6%和12%),连续15年稳居全球第一。海关总署2024年1月12日发布的数据则显示,2023年,中国汽车出口522.1万辆,同比增长57.4%,出口总额1016亿美元,同比增长69%。