经济要闻-"tpu色母和子色母的性能"-OpenAI o1全方位SOTA登顶lmsys排行榜，数学能力碾压Claudtpu色母和子色母的性能e和谷歌模型，o1-mini并列第一

OpenAI o1全方位SOTA登顶lmsys排行榜，数学能力碾压Claudtpu色母和子色母的性能e和谷歌模型，o1-mini并列第一_ZAKER新闻

为何会是宁波？

OpenAI o1 模型在 lmsys 排行榜领先，展现出色。【导读】o1 模型发布 1 周，lmsys 的 6k+ 投票就将 o1-preview 送上了排行榜榜首。同时，为了满足大家对模型「IOI 金牌水平」的好奇心，OpenAI 放出了 o1 测评时提交的所有代码。万众瞩目的最新模型 OpenAI o1，终于迎来了 lmsys 竞技场的测评结果。不出意外，o1-preview 在各种领域绝对登顶，超过了最新版的 GPT-4o，在数学、困难提示和编码领域表现出色；而 o1-mini 虽然名字中自带「mini」，但也和最新版的 GPT-4o 并列综合排名第二，困难提示、编码、数学等领域和 o1-preview 同样登顶第一。果然，o1 模型不愧是通用推理领域的新王。lmsys 社区官方发推表示，这项测试结果收集了 6k+ 社区投票，并将 OpenAI 这次取得的进展描述为「令人难以置信的里程碑」。单纯看排行榜的排名可能不够具有说服力，于是 lmsys 特意统计了总榜上前 25 名模型的 1v1 胜率。可以看到，o1-preview 对所有模型的胜率都超过了 50%，对比 04-09 版 GPT-4-Turbo 的胜率最高，达到了 88%。o1-mini 如果对战 o1-preview，胜率为 46%，对 09-03 版 GPT-4o 的胜率为 48%，可以说是大体平手、稍逊一筹的状态。值得注意的是，虽然 Grok-2-mini 和 Claude 3.5 Sonnet 都排在比较靠后的位置，但 o1-preview 对这两个模型的胜率并不高，分别是 58% 和 57%，大大小于排名第四的 Gemini 1.5 Pro 的 69%。如果看到细分领域的排行榜，尤其是数学 / 推理领域，效果则更加惊艳。o1-preview 和 o1-mini 不仅是登顶数学排行榜，而且是体现出了绝对的领先优势。排在第三、第四的 Claude 3.5 Sonnet、Gemini 1.5 Pro 和 08-08 版 ChatGPT-4o 的均分都在 1275 左右，不相上下；o1-preview 和 o1-mini 则一骑绝尘，分数飙到 1360 附近，直接碾压。o1 推理团队的领导者之一 William Fedus 看到这张图也是相当开心，他表示这张图「很好地用视觉表达了范式转换」。看来最新的 o1 模型在 STEM 学科和通用推理方面的确又达到了新高度，用实际测评结果回应了「AI 遇冷」、「OpenAI 碰壁」的质疑声。「那就继续期待 OpenAI 接下来的发布吧！」但一些人感叹「未来可期」的同时，另一些人想到了自己不多的智商和头发。「模型搞得这么好了，测试就不适合我这种蠢人了。」同时，也有一些人表达了对 lmsys 排行榜结果的质疑。比如，众所周知的 o1 模型推理时间长，因而回答的延时也长，和其他模型都有明显差别；而且不同于各类基准测试的客观标准，lmsys 社区中完全基于用户的主观评分，难说这里面是否存在「安慰剂效应」。也有人不服 o1 在编码排行榜上的第一，认为虽然 o1-mini 非常适合进行项目规划，但在 Cursor 这类编码助手中还是 Claude 模型的表现最佳。排行榜的结果当然不是全部，o1 模型能否继续赢得口碑，同时保持住智力水平不变蠢，还要看接下来的一段时间。IOI 金牌代码全公开说到 o1 模型的编码能力，不知道你还是否记得，刚发布时 OpenAI 提到了这样一个指标：如果放宽提交约束到每个问题允许 1 万次提交，o1 可以达到高于 IOI 金牌门槛的分数。在模拟进行的 Codeforces 编程竞赛中，使用相同的规则进行评估，o1-preview 可以打败 62% 的人类选手，正式版 o1 则上升到超越 89% 的对手。专门微调过的 o1-ioi 模型，表现优于 93% 的竞争对手。此外，前段时间有用户在实时的 Codeforces 比赛中使用了 o1 模型，结果是超越了 99.8% 的人类选手。由于 o1 在编程竞赛领域的表现如此突出，引起了 AI 社区强烈的兴趣和好奇，OpenAI 于是选择发布 o1 模型提交的代码内容，包括 6 个问题的全部 C++ 代码以及注释。发文的 yummy 是 o1 模型的核心贡献者 Alexander Wei对于 o1 的惊艳表现，Alexander Wei 自己都很惊讶。他本人在 9 年前曾参加 IOI 竞赛，但从未想到自己这么快就需要和 AI 竞争，模型展现出的推理过程的复杂程度令人印象深刻。博文表示，虽然 o1 模型距离人类的顶级表现还有很长的一段路要走，但我们期待有一天能实现这个目标。这个发展轨迹让人想起了 AlphaGo ——从水平高超，到能和人类顶级高手不分胜负，再到 5-0 完全碾压李世石。OpenAI 想要达成的，估计就是究极进化的、能在编程上碾压人类顶级高手的 AlphaZero。此处公布代码的 6 个问题具体如下：有网友指出，其中最令人印象深刻的应该是象形文字（hieroglyphs）问题，o1 模型总共得到 44 分，在现场的所有选手中排名第四。这表明，模型或许可以破译一些人类无法解决的子任务。前几天，一位目前在 NASA 工作的天体物理学博士就尝试让 o1 复现自己论文中的代码，结果一试吓一跳——自己读博时花了 1 年写出的代码，o1 只用了一小时就写完了。这还只是裸模型，如果加上代码解释器、网络实时搜索等各种工具，效果想必更加惊艳。而且，Reddit 网友还送来了温馨提示：这只是 o1 预览版哦，可以狠狠期待一下不到一个月就即将问世的正式版 o1 了。此外，这位网友还表示，o1 基本沿用了 GPT-4 的架构；那你想，改换架构后的 GPT-5（也就是传说中的猎户座）能达到什么高度。参考资料：https://x.com/lmsysorg/status/1836443278033719631https://codeforces.com/blog/entry/134091本文来自微信公众号 " 新智元 "，编辑：乔杨。

koa12jJid0DL9adK+CJ1DK2K393LKASDad

编辑:刘长胜

TOP1热点：立春后多吃8种蔬菜

7月24日，郑州民生银行工作人员回应顶端新闻记者称，近期，。

在今年4月

TOP2热点：16岁男孩春节熬夜玩游戏突发癫痫

为何会是宁波？

花旗集团经济学家克拉克（VeronicaClark）表示，“

TOP3热点：雅迪集团与南都电源签署合作协议138大但人文艺术豆瓣

地产板块方面，虽然周一万达成功兑付，但受碧桂园负面舆情况影响，地产板块整体疲弱，碧桂园走弱7-15pts，龙湖、新城跟跌7-10pts，其余地产名字有不同程度下跌。

去年豫园股份及关联公司与甘肃亚特集团达成协议，转让13%股权，持股减持为25%，金徽酒的实际控制权回到甘肃亚特集团控制人李明手上，但豫园股份仍然是单一持股最多的股东。

TOP4热点：赵本山现场看NBA获赠篮网25号球衣原神芭芭拉乳液xman

◎济南：25日早盘热卷市场价格涨60，4.75mm普卷主流4000元/吨，低合金市场报价4150元/吨，货少。（单位：元/吨）

失去推特这一品牌名将带来重大的财务打击。

TOP5热点：16岁男孩春节熬夜玩游戏突发癫痫18+触摸纸巾盒

◎济南：25日早盘热卷市场价格涨60，4.75mm普卷主流4000元/吨，低合金市场报价4150元/吨，货少。（单位：元/吨）

盘面上，房地产、酿酒、证券、家居用品等板块涨幅居前，电力、航空、农林牧渔、复合铜箔等少数板块小幅调整。北上资金净流入155.64亿元。

TOP6热点：香港将举办C罗职业生涯展览国精产品一品二品三品

双碳目标加速推进中。

他还透露，如果股市后续再出现新的大幅下滑，就继续加仓，向30万元的仓位逐渐挺进。前几天觉得应该加仓时，还是胆小，不敢一下子把仓位提上去，只能今后找机会慢慢加了。那样更稳妥些，但是赚的也会少一些。毕竟是股市“小白”，不敢操作大手笔，只能求小赢小赚。

TOP7热点：和总书记一起品“年味”后宫露营第二季

会议表决通过了《上海市土壤污染防治条例》《上海市促进浦东新区融资租赁发展若干规定》，自2023年10月1日起施行；表决通过了《上海市促进浦东新区标准化创新发展若干规定》，自2023年10月14日起施行。会议表决通过了关于批准《上海市2022年市级财政决算》的决议；听取和审议了关于检查本市贯彻实施《上海市生活垃圾管理条例》情况的报告；听取和讨论了市政府关于本市推进保障性住房工作情况的报告。

特别声明：以上内容仅代表作者本人的观点或立场，不代表新浪财经头条的观点或立场。如因作品内容、版权或其他问题需要与新浪财经头条联系的，请于上述内容发布后的30天内进行。

TOP8热点：汪小菲留言：我好想你hellotalk在外国火吗

由于主要经济体的人口老龄化，未来的经济状态将包括劳动力短缺问题。这可能会激励企业在经济低迷时期留住员工，而对股市来说这也是个坏消息。

（责任编辑：王治强HF013）

TOP9热点：爸爸用袋子和宝宝玩荡秋千结局亮了欧美风大码胖mm中长款连衣裙

由于主要经济体的人口老龄化，未来的经济状态将包括劳动力短缺问题。这可能会激励企业在经济低迷时期留住员工，而对股市来说这也是个坏消息。

理想的情况是信心恢复行情之后走出财富效应行情。

TOP10热点：和总书记一起品“年味”中国14may18_XXXXXLmedjyf

据IPO追踪机构复兴资本（RenaissanceCapital）的数据，截至7月18日，今年已约有55只新股上市，累计融资97亿美元。而去年全年也仅有71只新股发行，筹资77亿美元。回顾历史，仅2009年时的IPO数量比去年还少，当年有63家企业上市。复兴资本的高级策略师肯尼迪（MattKennedy）表示，今年至今共有100家企业提交了IPO文件，而2022年同期为83家。

WIMI微美全息基于混合凝视脑机接口（BCI）的辅助机器人控制技术，将使用户能够通过混合凝视BCI控制机械臂末端执行器的运动，实现更加精准和灵活的操作。该技术的研发旨在提高机器人的抓取性能，并将焦点放在提高其伸展性能上，使抓取任务能够自动完成。为了实现这一目标，开发团队将任务划分为三个关键阶段，并充分利用了人的自然视觉运动协调行为。

发布于：莱芜钢城区

tpu色母和子色母的性能OpenAI o1全方位SOTA登顶lmsys排行榜，数学能力碾压Claudtpu色母和子色母的性能e和谷歌模型，o1-mini并列第一_ZAKER新闻

tpu色母和子色母的性能OpenAI o1全方位SOTA登顶lmsys排行榜，数学能力碾压Claudtpu色母和子色母的性能e和谷歌模型，o1-mini并列第一_ZAKER新闻