法规动态-"楼梯做"-号称打败 GPT-4o 的开源楼梯做 AI 新王被指造假,不要迷信大模型的榜单了_ZAKER新闻

楼梯做号称打败 GPT-4o 的开源楼梯做 AI 新王被指造假,不要迷信大模型的榜单了_ZAKER新闻

楼梯做号称打败 GPT-4o 的开源楼梯做 AI 新王被指造假,不要迷信大模型的榜单了_ZAKER新闻

号称打败 GPT-4o 的开源楼梯做 AI 新王被指造假,不要迷信大模型的榜单了_ZAKER新闻

戏剧,无时无刻不与场域、地域发生着关联。

你有没有想过一个问题:AI 模型是怎么论资排辈的?和人类的高考一样,它们也有自己的考试——基准测试(Benchmark)。不过,高考就那么几个科目,基准测试的花样就多了,有的考察通识,有的专攻某一项能力,数学、代码、阅读理解,无所不包。▲ Google 发布 Gemini 时的基准测试排名基准测试的好处是直观,榜单这么一拉,得分高低一目了然,比大段的文字更有拉拢用户的效果。然而,测归测,准不准就不一定了。因为最近的一个疑似造假事件,基准测试的可信度又下降了一层。 开源模型新王者,转眼被「打假」9 月 6 日,Reflection 70B 的出现,仿佛是个奇迹。它来自名不见经传的纽约初创公司 HyperWrite,却自封了「世界顶级开源模型」的称号。开发者 Matt Shumer 是怎么证明这一点的呢?用数据。在多项基准测试中,参数仅有 70B 的它,打败了 GPT-4o、Claude 3.5 Sonnet、Llama 3.1 405B 等一众大佬。比顶尖闭源模型还有性价比,瞬间惊艳众人。Reflection 70B 并非从石头里蹦出来,自称基于 Meta 的 Llama 3.1 70B,花了 3 周训练,用到了一种新的技术 Reflection-Tuning,可以让 AI 检测自身推理中的错误,并在回答之前纠正。用人类思维类比,这有点像《思考,快与慢》从系统一到系统二的转换,提醒 AI 悠着点,别脱口而出,而是减慢推理速度,也减少幻觉,给出更合理的答案。然而,质疑声很快就来了。9 月 8 日,第三方测评机构 Artificial Analysis 表示,他们没能复现基准测试的结果。比如,其中一项基准测试 MMLU 的分数,Reflection 70B 和 Llama 3 70B 相同,但明显低于 Llama 3.1 70B,更别说 GPT-4o。Matt Shumer 回复了质疑,解释第三方的结果更差,是因为 Reflection 70B 的权重在上传到 Hugging Face 时出现了问题,导致模型的性能不如内部的 API 版本。理由蹩脚了点,两者交锋有来有回,随后 Artificial Analysis 又表示,他们拿到了私有 API 的权限,表现确实不错,但还是没有达到当初官宣的水平。紧接着,X、Reddit 的网友们也加入了「打假」队伍,质疑 Reflection 70B 是直接在基础测试集上训练的 LoRA,基础模型是 Llama 3,所以能在榜单刷分,实则能力不行。甚至有人指责,Reflection 70B 套壳了 Claude,从头到尾就是在骗人。9 月 11 日,面对舆论,Matt Shumer 团队给出了声明,否认了套壳 Claude,尚不清楚为什么基准测试的分数没法复现。分数虚高,可能是一开始就错了,数据污染,或者配置错误,请大家再给他们一些时间。目前事件还没有最终的定论,但至少说明一个问题,AI 榜单的可信度需要打个问号,拿刷榜的高分自我营销,对不明真相的群众而言很有迷惑性。 五花八门的大模型考试,人类的排名焦虑让我们回到最基础的问题:怎么评价一款大模型的性能?一个比较简单粗暴的方式是看参数量,比如 Llama 3.1 就有多个版本,8B 适合在消费级 GPU 上部署和开发,70B 适合大规模 AI 原生应用。如果说参数量是「出厂设置」,表现模型的能力上限,基准测试则是通过「考试」,评估模型在具体任务中的实际表现,至少有数十种,侧重点不同,彼此分数还不互通。2020 年发布的 MMLU,又称大规模多任务语言理解,是目前最主流的英文评测数据集。它包含约 1.6 万个多项选择题,覆盖数学、物理、历史、法律、医学等 57 个科目,难度从高中到专家,是一种通用智力测试。模型回答正确的题目越多,水平就越高。去年 12 月,Google 表示,Gemini Ultra 在 MMLU 的得分高达 90.0%,高于 GPT-4。但是,他们也不隐瞒,提示 Gemini 和 GPT-4 的方式不同,前者是 CoT(逐步推理),后者是 5-shot,所以这个分数可能不够客观。当然,也有测试大模型各项细分能力的基准测试,列举起来就太多了。GSM8K 主要考察小学数学,MATH 也考数学,但更偏竞赛,包括代数、几何和微积分等,HumanEval 则考 Python 编程。除了数理化,AI 也做「阅读理解」,DROP 让模型通过阅读段落,并结合其中的信息进行复杂推理,相比之下,HellaSwag 侧重常识推理,和生活场景结合。▲ HellaSwag 基准测试的测试题虽然英文居多,中文大模型也有自己的基准测试,比如 C-Eval,由上海交通大学,清华大学,爱丁堡大学共同完成,涵盖微积分等 52 个学科的近 1.4 万道题目。▲ 中文基准测试 SuperCLUE 测试逻辑与推理那么「评卷老师」是谁?大概分为三种,一是自动化程序,比如编程的基准测试,模型生成的代码通过自动执行验证正确与否,二是用 GPT-4 等更强大的模型做裁判,三是人工。混合拳这么一打,比四书五经六艺全面多了。但基准测试也存在严重的隐患。背后的公司「既当裁判又当运动员」,和老师怕学生作弊的情况如此相似。一个隐患是容易泄题,导致模型「抄答案」。如果基准测试的测试集是公开的,模型可能已经在训练过程中「见过」这些问题或答案,导致模型的表现结果不真实,因为模型可能不是通过推理解答问题,而是记住了答案。这就涉及到数据泄露和过拟合的问题,导致模型的能力被高估。▲ 人民大学等高校的研究指出,与评估集相关的数据偶尔会用于模型训练还有一个隐患是花样作弊,这里有很大的人为操作空间。Reflection 70B 在 X 被讨论得如火如荼的时候,英伟达高级研究科学家 Jim Fan 发帖表示:操纵基准测试,不难。比如,从「题库」入手,基于测试集的改写例子训练模型。将测试集里的问题以不同的格式、措辞、语言重写,可以让一个 13B 的模型在 MMLU、GSM8K、HumanEval 等基准测试中打败 GPT-4,倒反天罡。同时,也可以改变「做题方式」,增加推理的算力,通过自我反思(Self-reflection)、思维树(Tree of Thought)等,让模型减慢推理、多次推理,从而提高准确性。Jim Fan 的态度很明确:很惊讶,到了 2024 年 9 月,人们仍然为 MMLU 或 HumanEval 的分数兴奋。这些基准测试已经严重失效,操控它们可以成为本科生的作业。另外,基准测试的难度,可能不一定跟得上 AI 的发展速度,因为它们通常是静态的、单一的,但 AI 在狂奔。参与开发 MMLU 的 AI 安全研究员 Dan Hendrycks,在今年 4 月告诉 Nytimes,MMLU 可能还有一两年的保质期,很快会被不同的、更难的测试取代。百模大战,人类社会的排名焦虑被传递给了 AI,各种暗箱操作之下,AI 排行榜成为一种营销工具,却鱼龙混杂,不那么可信。 AI 模型哪家强,用户会投票但很多时候,有数据、有标准,事情才好办。基准测试是一个结构化的打分框架,可以作为用户选择模型的一个因素,也可以帮助模型进步。做中文基准测试的 C-Eval 甚至直言:「我们的最重要目标是辅助模型开发。」基准测试有其存在价值,关键是怎么变得更权威、更可信。我们已经知道,如果测试集被用于模型训练,可能导致模型在基准测试「作弊」,一些第三方的测评,便从这个缺口入手。数据标注公司 Scale AI 的 SEAL 研究实验室,很强调自身数据集的私密性。很好理解,「闭卷考」,才能见真章。目前,SEAL 可以测试模型的编码、指令跟踪、数学和多语言能力,未来还会增加更多测评的维度。▲ 今年 8 月 SEAL 的编码能力排名除了做题、打分的模式,还有一种更接地气的基准测试:竞技场。其中的代表是 Chatbot Arena,由卡内基梅隆大学、加州大学伯克利分校等研究人员的非营利组织 LMSYS 发起。它让匿名、随机的 AI 模型相互竞争,并由用户投票选出最佳模型,然后使用国际象棋等竞技游戏常用的 Elo 评分系统排名。具体来说,我们可以在线向两个随机选择的匿名模型 A 和 B 提问,然后给两个答案投个票,更喜欢 A,更喜欢 B,平局,还是都不喜欢,这时候,我们才能看到 A 和 B 模型的真面目。我提的问题是之前难倒过很多 AI 的「9.9 还是 9.11 大」,两个模型都答错了,我点了个踩,发现抽中的幸运儿一个是 GPT-4o,一个是法国的 Mixtral。Chatbot Arena 的长处很明显,海量用户提出的问题,肯定比实验室捣鼓出的测试集复杂和灵活得多。人人看得见摸得着用得了,排名也就更接近现实世界的需求。不像一些基准测试,测试高等数学,测试输出安不安全,其实离研究更近,离大多数用户的需求很远。目前,Chatbot Arena 已经收集了超过 100 万个投票。马斯克的 xAI,也用过 Chatbot Arena 的排名背书。但也有人持反对意见,认为 Chatbot Arena 会被少数用户的偏见影响,萝卜青菜各有所爱,有些用户可能喜欢更长的答案,也有些用户欣赏言简意赅,文无第一,这怎么比?所以,Chatbot Arena 最近做出了一个调整,区分了「风格」和「内容」这两个指标,「内容」是说什么,「风格」是怎么说。通过控制对话长度和格式的影响,排名发生了改变。简言之,怎么测,基准测试都不能保准,也不能被迷信,它们只是一种参考,就像高考只能反映学生的部分能力。当然,最令人不满的行为,是主观地在基准测试刷榜,为自己背书,单纯地追求华而不实的排名。回归初衷,我们都是要用 AI 解决现实问题,开发产品,写段代码,生成图片,做个心理咨询收获点情绪价值 ...... 基准测试没法帮你回答,哪个 AI 讲话更好听。假的真不了,用脚投票,小马过河,才是最朴素的道理。那些更主观、更个人的感受和体验,仍然要用我们的实践换取。

koa12jJid0DL9adK+CJ1DK2K393LKASDad

编辑:王仁兴

TOP1热点:「原学灯谜会」题目难度如何?敢不敢晒出你的最佳战绩?

在该报告的定义中,露宿街头者、居住在紧急救助站的人、临时住在家人或朋友家中的人均属于无家可归者。而由于难以获得上述数据的准确值,89.5万为该报告作者根据欧盟国家和英国的人口普查数据及地方当局数据,对欧洲无家可归者给出的“最低估计值”。。

特展:《拾光·十年》

TOP2热点:我是乐队鼓手,我们乐队的主唱突然问到底什么是幸福,我该怎么回复?

近年来,江苏省立足海洋强省战略,强化陆海统筹,优化沿海产业布局,开展海岸带生态整治修复,在促进人与自然和谐共生、滨海生态保护修复与可持续发展上走在前、做示范。国土空间格局不断优化,国务院刚刚批复的《江苏省国土空间规划(2021-2035年)》明确,加快形成沿海陆海统筹带,构筑沿海生态安全屏障,协同推进海洋自然保护地建设与滩涂资源利用。沿海三市正在陆续编制海岛、海岸线保护修复等相关专项规划,实施连岛等海岛整治修复项目,取得了生态、经济、社会效益“三丰收”。海洋经济实力显著增强,2022年全省实现海洋生产总值9046亿元,同比增长7.4%,占地区生产总值比重达7.4%。

03TED演讲(16:35-17:50)

TOP3热点:《红警 2》最难任务是什么?47147大但人文艺术豆瓣

那么,真是如此吗?

套餐名称:花虾骨套餐

TOP4热点:《哪吒之魔童闹海》中,无量仙翁的系列阴谋和作为,他师父天尊到底知不知情?少妇BBW擦BBBB撩BBBB

“自从我首次造访亚洲和成为赛事总监以来,亚洲网球运动已经取得了长足的进步,我们在这里建立了一个据点,”卡瓦略说道。“亚洲网球运动继续稳步发展,我很自豪、也很高兴能够带领成都公开赛,继续书写这项运动在亚洲的成功历史。”

唐代孟诜的《食物本草》中就曾提到芋头能“疗烦热,止渴,令人肥白,开胃,通肠闭”。由此可见,多吃芋头能增进食欲、促进消化、润肺止渴、消烦除燥。

TOP5热点:发现我一生难以触及的文笔 DeepSeek 十几秒就可以生成上千字,感觉努力提升文笔没有意义,怎么办?JAPANESE

发挥引导作用,共建科创产业生态圈

“凝·新创就汇”社区就业服务站还充分利用嵌入基层的优势,走访鼎创汇、上生·新所、IMShanghai长宁国际等商圈中的用工企业,了解企业招聘需求。并结合相关企业用工信息,定期邀请就创业专家展开现场求职指导,为毕业生们强势“破圈”。“‘凝·新创就汇’社区就业服务站早已不是许多人刻板印象里的招聘清单聚集地,而是人情味与多样性并存的专业服务平台。”施慎淑说。

TOP6热点:湖南一罐车侧翻致粗苯泄漏,官方称已修建 7 段堤坝截流,40 台车转运污染物,粗苯泄漏会产生哪些污染?夏目彩春

3、巧施针刺治疗加强中风防治

记者当天来到蒙西居委会时,尹晓芸刚参加完全国社区党组织书记和居委会主任视频培训班不久,“这次培训收获非常大,听了其他外省市地区居委会书记的分享,对我触动很大,很多成功经验都可以用于之后的日常工作。”谈及这次视频培训,尹晓芸侃侃而谈,“印象最深的是‘枫桥经验’,他们提倡发动和依靠群众,坚持矛盾不上交,就地解决。”

TOP7热点:2025年wtt新加坡大满贯赛男单第一轮,周启豪1:3负于托米斯拉夫普卡,怎么评价这一场对决?班长哭了能不能再抠游戏里面的钱

在“娃娃家里”哄“宝宝”睡觉

这场演唱会最棒的是,除了婴童和垂老将死,几乎是掐头去尾把一个男人的一生很真诚地展示给看客。从这个慎谈性别的年代来看,他歌词里可能其实充满了错位、臭屁,和自以为是的理解。但是,全部这些都是真的发生过并且非常生动。我想,没有人回首这一生真的会为自己所谓的道德、正确还有高级而无悔吧。无悔的只可能是我居然做过这样的事,嘿,好像蛮爽的。

TOP8热点:做菜小白,平时家里用电锅做菜,有什么好吃又简单的年夜菜推荐?最终还是从了女婿

“凝·新创就汇”社区就业服务站还充分利用嵌入基层的优势,走访鼎创汇、上生·新所、IMShanghai长宁国际等商圈中的用工企业,了解企业招聘需求。并结合相关企业用工信息,定期邀请就创业专家展开现场求职指导,为毕业生们强势“破圈”。“‘凝·新创就汇’社区就业服务站早已不是许多人刻板印象里的招聘清单聚集地,而是人情味与多样性并存的专业服务平台。”施慎淑说。

“凝·新创就汇”社区就业服务站还充分利用嵌入基层的优势,走访鼎创汇、上生·新所、IMShanghai长宁国际等商圈中的用工企业,了解企业招聘需求。并结合相关企业用工信息,定期邀请就创业专家展开现场求职指导,为毕业生们强势“破圈”。“‘凝·新创就汇’社区就业服务站早已不是许多人刻板印象里的招聘清单聚集地,而是人情味与多样性并存的专业服务平台。”施慎淑说。

TOP9热点:你会如何回答孩子「年味是什么味道的」?面亲上边一面膜下边的感受

军队院校应届本科毕业青年学生学员,男性,年龄不超过24周岁(2000年7月1日以后出生)。

开启新的探索篇章

TOP10热点:中方对原产于美国的部分进口商品加征 10%-15% 关税,该决定出于哪些因素的考量?会带来哪些影响?WINDOWSCHANNEL孕...

众安以“保险+科技”双引擎驱动包括健康、数字生活、消费金融、车险等多生态全面发展,提供创新、普惠、丰富的保险产品及服务,以满足用户多元化的保障需求。

近年来,江苏省立足海洋强省战略,强化陆海统筹,优化沿海产业布局,开展海岸带生态整治修复,在促进人与自然和谐共生、滨海生态保护修复与可持续发展上走在前、做示范。国土空间格局不断优化,国务院刚刚批复的《江苏省国土空间规划(2021-2035年)》明确,加快形成沿海陆海统筹带,构筑沿海生态安全屏障,协同推进海洋自然保护地建设与滩涂资源利用。沿海三市正在陆续编制海岛、海岸线保护修复等相关专项规划,实施连岛等海岛整治修复项目,取得了生态、经济、社会效益“三丰收”。海洋经济实力显著增强,2022年全省实现海洋生产总值9046亿元,同比增长7.4%,占地区生产总值比重达7.4%。

发布于:西安新城区