国际速讯-"果冻传媒杜鹃"-苹果研究员质疑大模型!我们测试了6款,发现了4大真相_ZAKER果冻传媒杜鹃新闻

果冻传媒杜鹃苹果研究员质疑大模型!我们测试了6款,发现了4大真相_ZAKER果冻传媒杜鹃新闻

果冻传媒杜鹃苹果研究员质疑大模型!我们测试了6款,发现了4大真相_ZAKER果冻传媒杜鹃新闻

苹果研究员质疑大模型!我们测试了6款,发现了4大真相_ZAKER果冻传媒杜鹃新闻

据大河报报道,2022年8月30日,该项目代理机构发布项目流标公告,称因中标结果存在异议,现对项目重新招标。10月18日,该项目再次发布招标公告。11月11日,项目定标结果公示,最终确定黑龙江嘉美建设有限公司为预中标单位。

汽车业务失利后,苹果决定加码生成式 AI,并将部分汽车部门的员工调到了 AI 部门。然而对待 AI,苹果似乎不如百度、讯飞、OpenAI、xAI 等国内外企业那么自信。日前,苹果研究员发布了一篇名为《理解大语言模型中数学推理局限性  》的论文,质疑大语言模型的数学推理能力,甚至认为大语言模型不具备真正的推理能力。苹果研究员在论文中举了一个简单的例子,向大模型提出问题 " 奥利弗周五摘了 44 个奇异果,周六摘了 58 个奇异果。周日,他摘的奇异果是周五的两倍。奥利弗一共摘了多少个奇异果?" 此时大语言模型都能正确计算出答案。(图源:豆包 AI 生成)但当研究人员为问题增添了一句修饰语 " 周日,他摘的奇异果是周五的两倍,其中 5 个比平均小 " 时,部分大模型就给出了错误的答案,倾向于减掉这五个比较小的奇异果。在大语言模型的使用过程中,小雷也遇到过大模型 " 抽风 " 的情况,某个大语言模型甚至连最基础的乘法都能算错。不过大语言模型一直在向前发展,许多曾经常犯的错误,都已被新技术解决。苹果研究员吐槽大语言模型数学推理能力不行,究竟是情况属实,还是为自家 AI 技术落后找借口?实测过后,我们有了结论。本次大语言模型对比评测,小雷选择了全球名气较高的六款产品,包括:1、GPT-4o;2、讯飞星火大模型;3、豆包;4、Kimi;5、文心 3.5 五款大模型;6、GPT-4o mini。由于文心大模型 4.0 收费,其他大语言模型则免费(GPT-4o 每日有免费提问次数),因此为了公平起见,小雷选择了免费的文心大模型 3.5。闲话不多说,我们直接进入测试阶段。一、奇异果问题:文心完败第一轮测试的问题,我们选择了苹果研究员提到的奇异果问题(正确答案:190 个)。站在人类的视角,奇异果的大小并不影响计算数量,但在大语言模型的视角中,情况却发生了变化。本轮测试中,五款大语言模型有四款通过了考验,其中豆包和 Kimi 特地提醒,奇异果的大小并不影响计算总数。GPT-4o 虽然也正确计算出了总数,但可能是因为 " 平均 " 两个字的翻译问题,还求出了三天平均每天摘取奇异果的数量。唯一没有得出正确答案的大模型是文心大模型 3.5,将五个体型小的奇异果排除,得到了摘取 185 个奇异果的错误答案。(图源:GPT 截图)(图源:讯飞星火截图)(图源:豆包截图)(图源:Kimi 截图)(图源:文心一言截图)苹果研究员的论文,提到了 GPT-4o mini 计算该问题时出错,切换至该模型后,小雷又计算了一遍这道题,果不其然,GPT-4o mini 也给出了错误答案。(图源:GPT-4o mini 截图)难道大语言模型计算数学题的准确性,与其参数量呈正相关?GPT-4o mini 属于小模型,更追求低成本和快速响应,参数量远不能与 GPT-4o 相比,在推理数学问题时,参数量的差距导致 GPT-4o 与GPT-4o mini 计算结果不同。文心大模型同样如此,尽管没有官方数据,但 4.0 版本的推理成本相较于 3.5 版本预计提高了 8-10 倍,3.5 版的参数量之小可想而知。二、公交车问题:文心完胜本轮测试的题目是一道行测数学题,具体内容为:由于国庆节的到来,某旅游城市的游客数量大幅上涨,公交公司决定简化公交车的线路,缩短单程时间。现有 1、2、3 路公交车,于上午 7 点同时从车站发车,三辆公交车再次回到车站所用时间分别为 30 分钟、45 分钟、60 分钟。这三辆公交车中间不休息,请问第二次它们同时到达车站将是几点?(正确答案:13 点)这轮测试所得出的结果,让小雷惊掉了下巴。在测试中,小雷连续测试四款大模型,结果全部计算错误,当时唯一没有出错的大语言模型就是文心 3.5。鉴于文心 3.5 在第一轮的表现,小雷没有对文心 3.5 抱有任何期待,但我不看好它的时候,文心 3.5 偏偏就争气了,并成为唯一解出正确答案的大语言模型。后续小模型 GPT-4o mini 在测试中,也没能给出正确答案。(图源:文心一言截图)思来想去,小雷认为唯一的解释就是,百度作为国内首屈一指的搜索引擎,对于中国人的语言与思维习惯更加了解,因而才能准确理解 " 到达 " 这个词的含义。其他大模型都将始发停靠在汽车站当做第一次到达车站,未能正确理解 " 到达 " 的含义。相较于数学,本题对于中文理解能力的考验可能更高,但这几款大语言模型的表现也从侧面说明,AI 大模型对于人类逻辑的理解能力有待提升。考虑到文心 3.5 的获胜证明实力的同时,也有取巧的可能,因此小通还准备了地狱级难度的第三轮测试。三、运动员问题:免费版团灭,付费版正确第三道题同样是一道行测数学题,但与以上问题不同的是,这道题没有任何干扰信息,纯粹考验大语言模型的计算能力。题目为:某班有 39 名同学参加短跑、跳远、投掷三项体育比赛,人数分别为 23 人、18 人、21 人,其中三项比赛全部参加的有 5 人,仅参加跳远的有 3 人,仅参加投掷的有 9 人,请问仅参加短跑的有多少人?(正确答案:9 人)遗憾的是,五款大模型与一款小模型在本轮测试中全部失败,而且大语言模型给出的答案各不相同,解题思路也存在许多问题。(图源:GPT 截图)(图源:讯飞星火截图)(图源:GPT-4o mini 截图)最后,小雷只好使用付费版的 OpenAI o1-preview 大模型进行计算,结果不负众望,给出了正确答案。(图源:GPT-4o o1-preview 截图)同样是 OpenAI 旗下的大模型,免费版 GPT-4o 和付费版 o1-preview 得出了不同答案,原因可能在于免费用户所能调用的资源更少,导致大模型计算能力不如付费版。以上参与三轮测试的五款大模型和一款小模型中,表现最差的无疑是小模型 GPT-4o mini,三轮测试中均给出了错误答案。我们可以得出以下结论:1、小模型只配做大模型的平替?GPT-4o mini 的表现证明,当需要处理难度较高的推理问题时,小模型参数量少、资源少更容易出错。尽管百度、OpenAI、谷歌、微软等企业都致力于研究小模型,但它们可能只是日常使用时回答基础问题 " 勉强能用 " 的平替版,毕竟成本可以大幅降低,这就跟企业雇佣一个小学生和一个博士生一样,智力是一分钱一分货。据研究机构 Epoch AI 计算,训练尖端大模型所需的算力,每隔 6-10 个月就会翻一倍。庞大的算力需求,给 AI 公司带来了极高的经济压力,哪怕是谷歌、微软这种行业巨头,也会倍感吃力。正因如此,小模型现阶段虽表现逊色于大模型,但 AI 公司不会放弃开发小模型,而是会通过长时间的调校与打磨,不断提升小模型的能力。2、要得到相对更智能的 AI 服务?给钱吧。几款大模型的免费版表现相差不大,能够解决一些存在干扰条件的数学问题,但遇到了文字可能存在歧义,或过于复杂的数学问题,表现则相对较差。好在,面对雷科技设定的地狱级难题,付费版的 o1-preview 大模型最终给出了正确答案,为大语言模型挽回了颜面,唯有付费用户才能体验到最好的大模型。3、本土大模型有本土优势,百度们稳了。结合文心 3.5 能够在第二项测试中力压群雄可知,大语言模型依赖大量数据运算,但每个国家或地区的数据量和获取难易程度不同,因语言和生活习惯的差异,综合表现更出色的大模型,未必能在特定场景中获胜,大语言模型也需要本地化适配。4、大模型距离人类智能还很远,不要轻信 " 忽悠 "。在资本驱动下,很多媒体、自媒体、创业公司甚至企业家大佬都在鼓吹 "AI 威胁论 ",甚至豪言 AI 水平已超越人类,他们往往会用一些个案来证明 AI 大模型已具备博士生甚至超越博士生水平。然而,当我们找一些常见的数学题,抑或是一些常见的工作任务来 " 考考 " 大模型时,大模型也很容易被难住。大模型以及 AI 当然会有许多安全威胁,比如自动驾驶汽车失控给城市交通乃至人类生命安全带来的威胁。但要说 AI 智力可以逼近人类甚至取代人类,那就纯属忽悠了。综合来看,苹果研究员的观点对错参半,当前 AI 的逻辑推理能力不足,面对复杂的数学问题时,显得有些力不从心,但 AI 并非完全没有逻辑推理能力。哪怕是相对而言版本较为落后的文心 3.5,在第二轮测试中也展现出了对文字和数学的解读与推理能力。第一代 GPT 发布于 2018 年,仅有 1.17 亿参数,到了 2020 年,GPT-3 已拥有 1750 亿参数,到如今 GPT 的历史不过短短 6 年,每一代的体验提升肉眼可见。当前大语言模型最大的问题依然在于参数量太少、算力太低,资源相对丰富的 o1-preview,面对其他大模型束手无策的数学难题时,依然给出了正确答案。随着大模型不断优化、参数量增加、算力提升,大语言模型的推理能力自然会水涨船高。进军新能源汽车时,苹果血亏百亿美元最终放弃,如今进入生成式 AI 领域,苹果研究员又站出来贬低大语言模型,不禁令人怀疑苹果的生成式 AI 项目进展不顺利。对于苹果而言,与其贬低其他 AI 大模型,不如增加 AI 研发投入,加速布局生成式 AI,毕竟 AI 的烧钱能力更甚于新能源汽车。若失去了研发和布局生成式 AI 最好的机会,等到 OpenAI、谷歌、微软、xAI 等企业的 AI 大模型瓜分了海外市场,百度、讯飞、阿里巴巴、抖音等企业的 AI 大模型占领了国内市场,苹果生成式 AI 业务有可能沦为与新能源汽车业务相同的结局。

koa12jJid0DL9adK+CJ1DK2K393LKASDad

编辑:王子久

TOP1热点:山西文旅将发布黑神话旅游路线

当前中日关系形势严峻复杂,特别是美国因素已经成为影响中日关系稳定发展的最大外部挑战。日本若真想同中方保持建设性的稳定关系,就应展现诚意,作出理性、独立的决策,而不是走入为虎作伥、以邻为壑的歧途。。

▲俄导弹发射现场

TOP2热点:葫芦岛村民:房子漏得铁皮都看不见了

齐齐哈尔市民李晨(化名)是当地一家工程公司的负责人。7月24日,李晨告诉澎湃新闻,23日约16时许,他接到通知,然后带着30多名工人前往齐齐哈尔市第三十四中学参与救援工作。

半个月前,国家烟草专卖局还有一位女领导被查。据中央纪委国家监委驻工业和信息化部纪检监察组、辽宁省纪委监委7月11日消息:国家烟草专卖局科技司原司长张虹涉嫌严重违纪违法,目前正接受中央纪委国家监委驻工业和信息化部纪检监察组纪律审查和辽宁省葫芦岛市监察委员会监察调查。张虹是一名女干部,长期在国家烟草专卖局工作,曾任科技司副司长、司长等职。

TOP3热点:日民众提议向外国游客收“拉面税”锕锵锵锵铜铜铜铜好大免费

虽然李凯尔认祖归宗的故事和经历,确是一桩美事,但回归到竞技体育层面,李凯尔究竟能为中国男篮和中国篮球带来什么?

毕力夫

TOP4热点:韩国博主点评黑神话悟空彩虹男孩garyMBA入口

据新华社消息,经现场初步调查,与体育馆毗邻的教学综合楼施工过程中,施工单位违规将珍珠岩堆置在体育馆屋顶。受降雨影响,珍珠岩浸水增重,导致屋顶荷载增大引发坍塌。深入调查仍在进行中。目前,教学综合楼施工单位责任人已被公安机关控制。

半个月前,国家烟草专卖局还有一位女领导被查。据中央纪委国家监委驻工业和信息化部纪检监察组、辽宁省纪委监委7月11日消息:国家烟草专卖局科技司原司长张虹涉嫌严重违纪违法,目前正接受中央纪委国家监委驻工业和信息化部纪检监察组纪律审查和辽宁省葫芦岛市监察委员会监察调查。张虹是一名女干部,长期在国家烟草专卖局工作,曾任科技司副司长、司长等职。

TOP5热点:#边水往事异域悬疑大作#911制片厂制作电影

这样陕西尤其是西安的家长十分愤怒,他们认为这些“回流生”挤占了原本就不均衡的教育资源,尤其是“回流生”影响的不仅是未来的高考。在家长还不能完全接受职业教育的当下,“回流生”也意味着通过中考上普通高中的赛道更加拥挤,不少学生可能会因为“回流生”的到来而无缘普通高中,继续升学的通道也就更加狭窄。

因此警方并没有继续调查附近的人,只是将自己的精力放在了搜集主要证据上。

TOP6热点:蔬菜涨到“过年价”非小事情趣漫画

当时,国家安全监管总局相关负责人在全国安全生产工作紧急视频会上表示,这起事故中存在严重违法违规生产行为,该煤矿属关闭退出和落后产能煤矿,曾被安全生产监管监察部门查处。

尸检报告中对王卫东病理的描述

TOP7热点:张淼怡回应出演林黛玉争议一边亲一边面膜下奶韩剧

遗憾的是,美国很多政客,很难跳出美国自己的框架,被竞争与对抗的思维死死限制。同样的道理,为了塑造对华的“实力地位”,自缚手脚,不敢正视自己破坏中美交流的现实。

毕力夫

TOP8热点:中学正副校长抱团敛财 双双获刑14may18_XXXXXL56endian印

8月22日,受委托当天,云南维权司法鉴定中心对王卫东的尸体进行了解剖。

2012年8月,第四届中日韩央行行长会议在大连举行,时任中国人民银行行长周小川出席。

TOP9热点:15岁男生被水冲走失踪多日 当地回应白鹿迈开腿打扑克又疼又叫在线看

他不得不把自己的遭遇告诉女朋友。

据新华社此前消息,经现场初步调查,与体育馆毗邻的教学综合楼在施工过程中,施工单位违规将珍珠岩堆置在体育馆屋顶。受降雨影响,珍珠岩浸水增重,导致屋顶荷载增大引发坍塌。对此,一位参与现场救援的工作人员也告诉新黄河记者,违规堆放的珍珠岩是用编织袋包装,每袋高度约半米,十余斤重。此外,记者在当地了解到,在事故中受伤的几名学生正在当地第一医院救治,目前伤情稳定。教学综合楼施工单位责任人已被公安机关控制,深入调查仍在进行中。

TOP10热点:副局长查看灾情时坠楼殉职sikixx

▲敖德萨港口设施受损

今年6月,湖南常德市委原常委、市政府原副市长涂碧波被“双开”。

发布于:柳州城中区