96视频实测OpenAI最强模型o1:会做大学数理化,但弱智吧依然难解_ZAKER新闻96视频
实测OpenAI最强模型o1:会做大学数理化,但弱智吧依然难解_ZAKER新闻96视频
望远镜于2019年7月开始研制,2021年5月在青海海西冷湖天文观测基地开工建设,2023年8月基本完成主体工程建设并开展调试观测。
OpenAI 传说中的 " 草莓 " 终于正式上线!不仅可以胜任更复杂的推理任务,在数学、代码和其他科学领域也能解决更难的问题。OpenAI 这次 " 无预警发布 " 震撼了科技圈,o1 更是被 CEO 奥特曼称它为了一种新范式的开始。发布之后,各路大神和网友都纷纷用各种问题测试 OpenAI o1 的表现:还有人进行了花式考验,结果被 o1 强大的推理能力秀到了。Q:你的回复中有几个字?A1:这句话有七个字A2:一共五个字量子位也进行了一番实测,下面就一起来了解。推理能力大进化,但还是难敌弱智吧该说不说,o1 虽然在推理能力上取得了很大进步,但面对充满心机的弱智吧问题,还是掉进了人类挖的陷阱。当然了,对于正经问题,o1 的表现还是很强的,首先看看逻辑推理能力。思考这道题时,preview 和 mini 分别用时 21 秒和 14 秒,不过从文本上看 mini 思考得反而更多。其中还出现了一些西里尔字母乱入,不过对整体影响不大。最终,二者也都给出了正确的答案——丙。值得注意的是,mini(右)的解答当中还出现了修正的过程。接下来看下 o1 在大学数理化题目上的表现。首先是这道考研数学真题,涉及的知识点是曲面积分、高斯定理等内容:还是分别看下 preview 和 mini 的思考,可以看到 mini 的思考过程大概是 preview 的简略版,当然速度也快了不少。不过 preview 给的思考过程当中再次出现乱入,这次是泰语。实际解答过程也是 preview 比 mini 更加详细,不过不知道为什么 preview 用了英文回答。最后的计算结果化简方式也有所不同,但数值上是相等的,而且也做对了。对比 4o 这边,先偷懒后作弊(调用了代码解释器),结果最后答案还是错的。第二道数学题关于概率。这道题 preview 依然是用英语进行了作答,步骤比 mini 更加详细,当然都是对的。而 4o 的答案前面的过程倒是基本都对,但是最后一步的求解出现了问题,只给出了 1 这一个解,并且不是本题答案。物理方面,这里选择了一道大学物理中的光学题:preview(左)和 mini 都给出了正确解答,内容也基本一致。化学的题目是一道物化题,主要涉及电化学等内容。这里把 AgCl/Ag 的标准电极电势作为已知条件一同输入给模型。Preview(左)和 mini 大致的解题思路还是差不多,在计算步骤上有指对运算先后的差别,当然最后的结果还是对的。最后一项测试就不再做考试题了,而是看看模型编写代码的能力如何。这里选择的题目难度非常高,真人的通过率只有 14%。以下是 preview(左)和 mini 的解题思路:从代码上看,两者核心逻辑相似,但在具体操作上略有区别。两套代码均通过了测试,内存消耗也比较接近,而 mini 给出的代码运行时间更短(38 毫秒)。o1 的编程能力除了用来解题,也可以快速构建出实用的应用程序。知名 AI 配音工具 ElevenLabs 设计部门负责人 Ammaar Reshi,就利用 o1 搭配 Cursor Composer,用了不到 10 分钟的时间制作了一款 iOS 天气应用。小数比较还是不会?测试发现,对于大模型难以答对的名场面——小数比大小,preview(左)和 mini 都答不对。甚至 preview 在思考过程中明明已经提到过 9.8 比 9.11 大。但同时 preview 在思考过程中表示,9.8 和 9.11 有可能指的是日期,所以做不对也许另一原因。针对这个问题,大神谢赛宁也晒出了他的测试结果,发现 o1 在思考过程中将 9.8 当成了重力常数,而 9.11 是一个 " 意义不明的数字 "。所以 o1 可能不是不会,而是把这个问题想复杂了。为了进一步探究,我们把问题改得具体些,强调一下 9.8 和 9.11 都是数字,这下没有了歧义之后就能一次做对了。可以看出,提示词的影响还是不小的。由于 o1 在内部采用了一些类思维链过程,因此 prompt 的设计和普通版本也有所区别,OpenAI 官方发布了一则提示:提示词应简单且直接避免在提示词中使用思维链使用分隔符让 promot 更清晰控制 RAG 内容的长度回到我们的测试,面对其他几个大模型败北名场面,o1 也有不小的进步。比如在数字母的任务上就有所进化,即使是一串乱打的字母也能数对。还有面对经典的" 反转诅咒 "(即知道 A 是 B 却不知道 B 是 A)问题,也终于一次性答对了 Mary Lee Pfeiffer(汤姆 · 克鲁斯的母亲)的儿子是谁。One More Thing关于这次发布的 o1,除了各个方面的成绩之外,还有一些其他的发现。比如前特斯拉自动驾驶负责人、两度进入 OpenAI 又两度离职的大神 Andrej Karpathy 发现,o1-mini 在被要求证明黎曼猜想的时候出现了拒绝回答的情况,表示大模型 " 犯懒 " 依然是一个大问题。还有网友说觉得 mini 的表现比 preview 好,想问下有没有人知道原因或者有啥看法。这条消息也把奥特曼吸引了过来,回复了一句 "Yes I have one"。根据 OpenAI 内部员工 Kevin Lu 发布的一则推文来看,mini 的性价比确实比 preview 更高。根据这张图显示,preview 版本论性能比不上尚未公布的满血 o1,论经济性又比不上 mini。顺便提一句,preview 版本存在消息数量限制,并且数量是按周进行重置的,几轮测试下来已经快要用尽了。参考链接: [ 1 ] https://x.com/rowancheung/status/1834300353619075494 [ 2 ] https://x.com/karpathy/status/1834374965942255835 [ 3 ] https://x.com/sama/status/1834381401380294685 [ 4 ] https://x.com/_kevinlu/status/1834278160038592633koa12jJid0DL9adK+CJ1DK2K393LKASDad
编辑:刘宝瑞
TOP1热点:一次性吃330公斤车厘子才会铁中毒
华中师范大学党委宣传部思政与文化办公室的工作人员在接受记者采访时表示,他听说了这个事情,因不在其负责的工作范围,所以没有进行详细了解。其让记者联系党委宣传部办公室“张老师”。。
2022年,汪洋在贺信中提到,“论坛克服各种不利影响和人为干扰,已连续举办5届,受关注度和影响力不断提升,充分彰显了两岸同胞强烈的交流合作意愿”。
TOP2热点:漂白
刚刚,在杭州第19届亚运会亚运村开村仪式暨中国体育代表团欢迎仪式上,随着开村鸣锣声响起,杭州亚运村正式开村,迎接各代表团的入住!
第二届至第五届海峡两岸青年发展论坛举办的时间分别是2019年7月6日、2020年10月13日、2021年7月23日、2022年5月11日。
TOP3热点:韩国网友抵制宋慧乔新片B站暴躁姐
中央气象台预计,17日至20日,陕西南部、四川盆地、江汉、黄淮南部、江淮等地自西向东将有大到暴雨,其中陕西南部、四川东北部和南部、重庆北部、湖北西部和北部、河南南部、安徽中北部、江苏中北部等地部分地区有大暴雨,重庆北部局地有特大暴雨。上述地区累计降雨量40~80毫米,部分地区100~180毫米,重庆北部、河南东南部、安徽西部等局地250~300毫米。
从赛事线路图可以看出,半程马拉松起点和终点都设在镇康县人民政府边上的南伞河畔公园,迷你马拉松也从南伞河畔公园出发,但终点在环城路,均在中国境内。
TOP4热点:狼队转会期说明儿媳妇夸我比他老公大
2022年11月30日下午,恒大财富调整兑付方案,自当月起对2021年12月31日发布的兑付方案进行调整。具体内容为,自2021年9月以来,恒大财富共完成14期兑付。因资产处置及兑付资金筹措不及预期,为保障投资人权益,经研究决定,将现行每人每月兑付8000元调整为每人每月兑付2000元,其他内容不变。
TOP5热点:柯洁决赛亚洲精华国产精华液的护肤功效
中方指导协调组组长郝林源大校表示,此次联演是两军共同打造的重要双边合作品牌,既是贯彻落实中柬两国领导人重要共识的务实举措,也是中柬两军卫勤交流互鉴、实战演练的重要平台,具有重要的里程碑意义。
TOP6热点:回到唐人街MV记录十年唐探女生会把隐私透露给异性朋友
当地时间8月21日,中美洲议会在尼加拉瓜首都马那瓜召开全体会议。会议通过了尼加拉瓜议员团提出的议案,取消台湾地区所谓“立法院”在该机构的观察员资格,并接纳中国全国人大为常驻观察员。
按照该法,体育赛事活动组织者应当履行安全保障义务,提供符合要求的安全条件,制定风险防范及应急处置预案等保障措施,维护体育赛事活动的安全。
TOP7热点:王嘉尔看秀生图打扑克又疼又痛
购买的时候,像往常一样,我仔细检查了这个藏品的来源,询问卖家从何处获得这件藏品,他告诉我出售的藏品都是从他祖父处继承而来,他祖父曾在两次世界大战期间在英格兰北部的约克经营一家古董店,并且已于1953年去世。
秦辉提到,近年来预制菜开始进入监管部门视野,但相关法律尚未调整跟进。“不管是学校自办食堂,还是采购外包餐食,学校都有管理责任,但这种管理责任的尺度和边界在哪,学校如何有效履行这种职责,法律并不完善。”
TOP8热点:朱亚文戴戒指的手国精产品 自偷自偷
这一次大英博物馆听见了格拉德尔的声音,并对此展开了调查,发现该馆约2000件藏品流失,此外,不是所有被盗藏品都被规范登记和编目。大英博物馆董事会主席乔治·奥斯本表示,在格拉德尔于2021年2月首次发出文物被盗的警告后,“本可以采取更多措施”。
格拉德尔是一名丹麦古董经销商,多年来一直是大英博物馆的“忠实粉丝”。2020年,他在线上购物网站发现有人在使用假名出售曾登记在大英博物馆目录上的藏品,并且确认盗窃事件就在近期发生。
TOP9热点:柯洁决赛ZOOM与人马性ZOOM的区别
中美洲议会是中美洲一体化体系的重要机构,成立于1991年10月28日,成员包括危地马拉、萨尔瓦多、洪都拉斯、尼加拉瓜、巴拿马、多米尼加6个中美洲国家。
TOP10热点:重温经典 万象更新96视频
今年5月31日,恒大财富发布公告称,自2021年9月以来,公司全力推动资产处置筹措兑付资金,共完成20期兑付,并于当日进行当月兑付。因公司资金回笼情况不理想,当月可用兑付资金不足,无法按原标准兑付。公司将继续推动资产处置,努力筹措兑付资金。