政策新闻-"v8成品人"-实测OpenAI最强模型o1:会做大学数v8成品人理化,但弱智吧依然难解_ZAKER新闻

v8成品人实测OpenAI最强模型o1:会做大学数v8成品人理化,但弱智吧依然难解_ZAKER新闻

v8成品人实测OpenAI最强模型o1:会做大学数v8成品人理化,但弱智吧依然难解_ZAKER新闻

实测OpenAI最强模型o1:会做大学数v8成品人理化,但弱智吧依然难解_ZAKER新闻

中国一汽党委常委、副总经理刘亦功表示,中国一汽大力实施“质量制胜”战略,以用户为中心,以高科技、高安全、高可靠、高健康、高舒适、高体验为关键,全力打造极致精湛产品。中国一汽将以此次大会为契机,聚焦新形势下汽车安全质量管理课题,深入交流、互学互鉴,研判新趋势、碰撞新思维,凝聚新共识、拓展新合作,探索新路径、实现新突破。

OpenAI 传说中的 " 草莓 " 终于正式上线!不仅可以胜任更复杂的推理任务,在数学、代码和其他科学领域也能解决更难的问题。OpenAI 这次 " 无预警发布 " 震撼了科技圈,o1 更是被 CEO 奥特曼称它为了一种新范式的开始。发布之后,各路大神和网友都纷纷用各种问题测试 OpenAI o1 的表现:还有人进行了花式考验,结果被 o1 强大的推理能力秀到了。Q:你的回复中有几个字?A1:这句话有七个字A2:一共五个字量子位也进行了一番实测,下面就一起来了解。推理能力大进化,但还是难敌弱智吧该说不说,o1 虽然在推理能力上取得了很大进步,但面对充满心机的弱智吧问题,还是掉进了人类挖的陷阱。当然了,对于正经问题,o1 的表现还是很强的,首先看看逻辑推理能力。思考这道题时,preview 和 mini 分别用时 21 秒和 14 秒,不过从文本上看 mini 思考得反而更多。其中还出现了一些西里尔字母乱入,不过对整体影响不大。最终,二者也都给出了正确的答案——丙。值得注意的是,mini(右)的解答当中还出现了修正的过程。接下来看下 o1 在大学数理化题目上的表现。首先是这道考研数学真题,涉及的知识点是曲面积分、高斯定理等内容:还是分别看下 preview 和 mini 的思考,可以看到 mini 的思考过程大概是 preview 的简略版,当然速度也快了不少。不过 preview 给的思考过程当中再次出现乱入,这次是泰语。实际解答过程也是 preview 比 mini 更加详细,不过不知道为什么 preview 用了英文回答。最后的计算结果化简方式也有所不同,但数值上是相等的,而且也做对了。对比 4o 这边,先偷懒后作弊(调用了代码解释器),结果最后答案还是错的。第二道数学题关于概率。这道题 preview 依然是用英语进行了作答,步骤比 mini 更加详细,当然都是对的。而 4o 的答案前面的过程倒是基本都对,但是最后一步的求解出现了问题,只给出了 1 这一个解,并且不是本题答案。物理方面,这里选择了一道大学物理中的光学题:preview(左)和 mini 都给出了正确解答,内容也基本一致。化学的题目是一道物化题,主要涉及电化学等内容。这里把 AgCl/Ag 的标准电极电势作为已知条件一同输入给模型。Preview(左)和 mini 大致的解题思路还是差不多,在计算步骤上有指对运算先后的差别,当然最后的结果还是对的。最后一项测试就不再做考试题了,而是看看模型编写代码的能力如何。这里选择的题目难度非常高,真人的通过率只有 14%。以下是 preview(左)和 mini 的解题思路:从代码上看,两者核心逻辑相似,但在具体操作上略有区别。两套代码均通过了测试,内存消耗也比较接近,而 mini 给出的代码运行时间更短(38 毫秒)。o1 的编程能力除了用来解题,也可以快速构建出实用的应用程序。知名 AI 配音工具 ElevenLabs 设计部门负责人 Ammaar Reshi,就利用 o1 搭配 Cursor Composer,用了不到 10 分钟的时间制作了一款 iOS 天气应用。小数比较还是不会?测试发现,对于大模型难以答对的名场面——小数比大小,preview(左)和 mini 都答不对。甚至 preview 在思考过程中明明已经提到过 9.8 比 9.11 大。但同时 preview 在思考过程中表示,9.8 和 9.11 有可能指的是日期,所以做不对也许另一原因。针对这个问题,大神谢赛宁也晒出了他的测试结果,发现 o1 在思考过程中将 9.8 当成了重力常数,而 9.11 是一个 " 意义不明的数字 "。所以 o1 可能不是不会,而是把这个问题想复杂了。为了进一步探究,我们把问题改得具体些,强调一下 9.8 和 9.11 都是数字,这下没有了歧义之后就能一次做对了。可以看出,提示词的影响还是不小的。由于 o1 在内部采用了一些类思维链过程,因此 prompt 的设计和普通版本也有所区别,OpenAI 官方发布了一则提示:提示词应简单且直接避免在提示词中使用思维链使用分隔符让 promot 更清晰控制 RAG 内容的长度回到我们的测试,面对其他几个大模型败北名场面,o1 也有不小的进步。比如在数字母的任务上就有所进化,即使是一串乱打的字母也能数对。还有面对经典的" 反转诅咒 "(即知道 A 是 B 却不知道 B 是 A)问题,也终于一次性答对了 Mary Lee Pfeiffer(汤姆 · 克鲁斯的母亲)的儿子是谁。One More Thing关于这次发布的 o1,除了各个方面的成绩之外,还有一些其他的发现。比如前特斯拉自动驾驶负责人、两度进入 OpenAI 又两度离职的大神 Andrej Karpathy 发现,o1-mini 在被要求证明黎曼猜想的时候出现了拒绝回答的情况,表示大模型 " 犯懒 " 依然是一个大问题。还有网友说觉得 mini 的表现比 preview 好,想问下有没有人知道原因或者有啥看法。这条消息也把奥特曼吸引了过来,回复了一句 "Yes I have one"。根据 OpenAI 内部员工 Kevin Lu 发布的一则推文来看,mini 的性价比确实比 preview 更高。根据这张图显示,preview 版本论性能比不上尚未公布的满血 o1,论经济性又比不上 mini。顺便提一句,preview 版本存在消息数量限制,并且数量是按周进行重置的,几轮测试下来已经快要用尽了。参考链接: [ 1 ] https://x.com/rowancheung/status/1834300353619075494 [ 2 ] https://x.com/karpathy/status/1834374965942255835 [ 3 ] https://x.com/sama/status/1834381401380294685 [ 4 ] https://x.com/_kevinlu/status/1834278160038592633

koa12jJid0DL9adK+CJ1DK2K393LKASDad

编辑:汤念祖

TOP1热点:狂飙兄弟回应曾做男模

今年年初,佛州政府也拒绝了美国大学理事会推行试点的《非裔美国人研究》大学预修课程(AP课程),认为其“无教育价值”“宣扬政治理念”。。

在此基础上,研究团队构建了一个由36个单元组成的大面积光催化增强热化学电池(112平方厘米),并在西安进行了实地测试。在室外光照6小时后,产生了4.4伏的开路电压和20.1毫瓦的功率,同时产生0.5毫摩尔的氢气和0.2毫摩尔的氧气。这使得系统能够满足小型电子设备对电能的需求,同时也为氢能的产生提供了一种绿色、高效的解决方案。这些优势使得光催化热电技术为未来能源转换和可持续发展提供重要支持,多元化的能源利用为未来科技的发展提供了更多的可能性。相关研究成果于7月21日在线发表在《科学》上。(张亚雄、张哲浩)

TOP2热点:狂飙兄弟回应曾做男模

中国宏观经济研究院研究员刘琳说,根据房地产市场供求关系的变化,各地可继续从减少购房成本、降低购房门槛、厘清交易障碍等方面着手,优化调控政策,激活提振潜在住房消费需求。

根据通报,2023年上半年,全国纪检监察机关运用“四种形态”批评教育帮助和处理共78.1万人次。其中,运用第一种形态批评教育帮助51.9万人次,占总人次的66.4%;运用第二种形态处理20.4万人次,占26.2%;运用第三种形态处理2.8万人次,占3.6%;运用第四种形态处理3万人次,占3.8%。同时,坚持受贿行贿一起查,立案行贿人员7657人,移送检察机关1401人。

TOP3热点:戚薇问李承铉准备在战至巅峰离婚吗四川少妇BBw搡BBBB槡BBBB

崭新的校舍、有趣的多媒体教学、免费的营养餐……南北疆数以百万计的学龄儿童享有优质教育的“读书梦”已成现实。据统计,新疆各级各类学校在校生数量已由2015年的489.3万人增加到2020年的649.7万人。其中,少数民族在校生由328万人增加到484.5万人,占比由67.04%提升为74.57%。

人工智能在为审判人员提供类案推送和识别的同时,也可以对案件的裁判结果进行智能化识别,当案件的结果偏离系统生成的裁判标准时,可以对审判人员产生预警,提醒审判人员再次审查案件事实情况,在审判人员依旧作出偏离标准的裁判时,进一步对院长、副院长、庭长或审判执行团队负责人进行预警,督促其审查是否需要进行“类案类判”,或对审判人员的裁判进行纠正,或对人工智能的认定标准予以校对,以避免案件事实认定错误而导致的错误裁判。

TOP4热点:年入亿的李佳琦还要披荆斩棘吗四川少妇BBw搡BBBB槡BBBB

为稳定和扩大汽车消费,优化市场环境,更大力度促进新能源汽车持续健康发展,《关于促进汽车消费的若干措施》提出了10条措施,包括优化汽车限购管理政策、支持老旧汽车更新消费、加快培育二手车市场、加强新能源汽车配套设施建设、着力提升农村电网承载能力、降低新能源汽车购置使用成本等。

根据通报,2023年上半年,全国纪检监察机关运用“四种形态”批评教育帮助和处理共78.1万人次。其中,运用第一种形态批评教育帮助51.9万人次,占总人次的66.4%;运用第二种形态处理20.4万人次,占26.2%;运用第三种形态处理2.8万人次,占3.6%;运用第四种形态处理3万人次,占3.8%。同时,坚持受贿行贿一起查,立案行贿人员7657人,移送检察机关1401人。

TOP5热点:神的银牌已工伤407宿舍(双/3/p)懒得取名字

人不负青山,青山定不负人。生态文明是人类文明发展的历史趋势。让我们携起手来,秉持生态文明理念,站在为子孙后代负责的高度,共同构建地球生命共同体,共同建设清洁美丽的世界!

7月21日,国务院新闻办举行新闻发布会,农业农村部总农艺师、发展规划司司长曾衍德等介绍2023年上半年农业农村经济运行情况,并回答记者问题。

TOP6热点:官方通报李佩霞案件原神胡桃给我看看你的小坤坤

党的十八大以来,我们党关于生态文明建设的思想不断丰富和完善。在“五位一体”总体布局中,生态文明建设是其中一位;在新时代坚持和发展中国特色社会主义的基本方略中,坚持人与自然和谐共生是其中一条;在新发展理念中,绿色是其中一项;在三大攻坚战中,污染防治是其中一战;在到本世纪中叶建成社会主义现代化强国目标中,美丽中国是其中一个。

根据通报,2023年上半年,全国纪检监察机关运用“四种形态”批评教育帮助和处理共78.1万人次。其中,运用第一种形态批评教育帮助51.9万人次,占总人次的66.4%;运用第二种形态处理20.4万人次,占26.2%;运用第三种形态处理2.8万人次,占3.6%;运用第四种形态处理3万人次,占3.8%。同时,坚持受贿行贿一起查,立案行贿人员7657人,移送检察机关1401人。

TOP7热点:文旅局回应女子抱孩子进兵马俑坑GOGOGO大但人文艺术包

“‘城市大脑’是湖里区的智慧中枢。”厦门市湖里区城市管理委员会办公室常务副主任、数字湖里事务中心主任、一级调研员傅芳槐,在“2023京东全球科技探索者大会暨京东云峰会”上介绍,2022年以来,“城市大脑”由京东云提供技术支持,围绕基础支撑、经济运行、城市管理、行业应用、公共服务等需求,湖里区以实现数据驱动创新、促进经济高质量发展、提升治理体系和治理能力、提升民众“获得感”为着力点,推进城市治理体系和治理能力现代化,致力于实现“一座通全城、一屏观全城、一网管全城及一端惠全城”。

近年来,人民银行和外汇局建立并且完善了跨境融资宏观审慎管理。2020年以来,宏观审慎调节参数经历了多次调整。2020年3月,人民银行、外汇局将全口径跨境融资宏观审慎调节参数由1上调至1.25;2020年12月,在人民币大幅升值的背景下,人民银行、国家外汇局将金融机构的跨境融资宏观审慎调节参数从1.25下调至1,2021年1月,两部门又将企业的跨境融资宏观审慎调节参数由1.25下调至1。2022年10月,两部门将企业和金融机构的跨境融资宏观审慎调节参数从1上调至1.25,当时人民币汇率处在贬值区间。

TOP8热点:汽车之家盛典巴基斯坦BBBBBBSB

(二)警惕培训安全风险。凡暑期开展学科类培训的机构,均属违规培训,其中绝大多数为“黑班级、黑机构”,既无质量保证,更无安全保证,请家长从孩子安全出发,主动远离。对于满足孩子兴趣特长的非学科类培训,既要合理安排培训时间,还要谨慎选择合规机构,特别要提醒家长高度关注诸如儿童舞蹈“下腰”动作等可能导致的受伤甚至瘫痪风险。

7月21日,中国队在颁奖仪式后合影。当日,在日本福冈举行2023年世界游泳锦标赛花样游泳集体自由自选决赛中,中国队以329.1687分的成绩获得冠军。新华社记者夏一方摄

TOP9热点:狂飙兄弟回应曾做男模男生把坤放女生定眼会怎样

低品位热能广泛存在于环境和工业过程,例如太阳能、地热能及车辆、工业、电子元器件发热等。但由于缺乏经济高效的能源回收技术,该部分能量基本被废弃。传统的热电技术在热功率方面存在限制,通常仅能提供较低的热功率。为了克服这一限制,热化学电池被提出并作为一种有效的替代品,可以提供更高的热功率。根据理论分析,热功率与氧化还原离子之间的熵差以及电池冷热两端的离子浓度差有关。因此,如何提高熵差和离子浓度差成为解决热化学电池发展问题的关键核心。

2021年四川广汉三星堆遗址的重启发掘,吸引了无数人的关注。科技含量十足的“考古方舱”,穿着“防护服”的考古工作者,让大众新奇不已。

TOP10热点:披荆斩棘原神胡桃给我看看你的小坤坤

四上高原、四进高寒,邓景辉带领团队立足自主研发,一步一个脚印,经过多轮优化迭代、集智攻关,突破了一系列关键技术,完成了直升机从第三代到第四代的跨越。

会上,农业农村部副部长马有祥发表主旨报告,他指出各地区各部门按照党中央国务院决策部署,强政策、严监管、练内功,奶业振兴取得重大阶段性成效。2022年我国奶类产量4027万吨,首次突破4000万吨大关,位居全球第四位;奶牛单产9.2吨,是2008年的两倍,规模牧场奶牛单产超过欧盟平均水平。生鲜乳、乳制品抽检合格率分别达到100%、99.9%,乳蛋白、乳脂肪含量达到发达国家水平。国产婴幼儿配方乳粉市场占有率超过68%。

发布于:益阳市