政策速览-"浪小辉杭州全季酒店4人行"-Kimi的数学模型来了浪小辉杭州全季酒店4人行,这次甚至能挑战高考。_ZAKER新闻

浪小辉杭州全季酒店4人行Kimi的数学模型来了浪小辉杭州全季酒店4人行,这次甚至能挑战高考。_ZAKER新闻

浪小辉杭州全季酒店4人行Kimi的数学模型来了浪小辉杭州全季酒店4人行,这次甚至能挑战高考。_ZAKER新闻

Kimi的数学模型来了浪小辉杭州全季酒店4人行,这次甚至能挑战高考。_ZAKER新闻

杨姐在阿兵的房间里过夜,这可以证明两个人之间有着特殊的关系,为杨姐提供了一定的犯罪动机。

消停了一阵子之后,国内又有大模型公司打榜 OpenAI 了。这不,  Kimi   最近推了个数学模型   k0-math  ,号称数学能力可以媲美   OpenAI   的   o1-mini   和   o1-preview  ,中高考、考研还有入门竞赛题都能跟 o1 过过招。该说不说,  AI   模型开始   "   炒作   "   起数学能力,这事儿还挺稀奇,毕竟   AI   的数学能力拉胯也不是一天两天了,连 strawberry 里有几个 r 都一直数不清。。。就连 OpenAI 的 o1 发布时,也没有直说自己的数学多么多么厉害,只是点了一下推理能力罢了。所以原本以长文本出圈儿的 Kimi ,这回突然卷起了数学,世超确实很好奇,好奇这个 k0-math 到底啥水平啊?而世超在哥们儿的帮助下,也提前体验了一阵子,今天就借着 Kimi 数学版(  基于 k0-math 模型  )全量开放了,带着大家瞧瞧这个数学模型有多少斤两。目前,  Kimi   数学版只能在网页版上用,入口倒是跟之前的普通版和探索版没啥区别,但有一点,Kimi   数学版只支持一轮对话。像世超一上来,就直戳 Kimi 痛处翻了波旧账,问它   "13.11%   和 13.8%  ,哪个更大?  "  。(之前 Kimi 在这上面翻过车,说 13.11 的整数部分和小数部分都大于 13.8 。。 )这次倒是学机灵了,而且很简单的比数值大小,  Kimi   数学版都用上了  "   为了进一步确认   ""   为了确保万无一失   ""   经过多种方法的验证   "  这些话术, kuku 输出了二三十行。只不过当世超想再次追问的时候,出来的就不是 k0-math 模型了。当然,这只是个小插曲,既然官方都已经把 k0-math 的实力挑明,那咱也不客气了。直接上今年高考新课标 1 卷的数学题:已知 cos ( a+  β )   =m , tanatan β  =2 ,则 cos ( a-  β )   =  ?虽说解题过程有些波折,但总算是没把最后   -3m 的答案弄错。这个问题我同时也问了智谱清言和   ChatGPT  ,答案倒是没出入,但区别于一个步骤一个步骤列出来,  Kimi   数学版给我一种,它真的在模仿人类思考的过程。模型在推导的过程中,怀疑过自己的思路可能是错误的,并且对此进行了验证。但下面这道概率题, Kimi 数学版就没那么好运了。标准答案是 1/2 ,只有 ChatGPT 答对了。世超看了眼 Kimi 数学版的推导过程, 24 种可能发生的情况它都列举出来了,而且每一种情况谁输谁赢也盘得清清楚楚,甚至最后还检查了一遍。但最大的问题出在,它把甲的总得分≥ 2 的次数,漏数了一个。。。实属可惜。咱再找一道 AMC 数学竞赛的题目,给 Kimi 数学版试试。一个集合由 6 个(  不是不同的  )正整数组成:1 、 7 、 5 、 2 、 5 和 X 。6 个数字的平均值(  算术平均值  )等于集合中的一个值。X 的所有可能值之和是多少?这次世超还把豆包也加进来了,同一道题,四个模型只有智谱清言的算错了。(正确答案是 36)还有个小插曲,本来世超想再给 Kimi 试一道竞赛题,结果它直接反过来质疑我。。试了好几次都是这么个回答,不知道是系统的 bug ,还是它压根就不会儿这题,干脆装死。有一说一,好几道数学题试下来, Kimi 数学版确实给了我不少惊喜,特别是解题过程中展现出来的思考、推理的能力,又刷新了一波咱对 AI 模型数学能力的认知。只可惜几何题一如既往的菜,只是一道初中级别的几何选择题,给 Kimi 数学版的 CPU 都快干烧了,结果还是错的答案。至于为啥 Kimi 的 k0-math 模型能有这么大的突破,前段时间世超参加了一场月之暗面的媒体会,月之暗面的创始人杨植麟就告诉世超, k0-math 的成功很大概率要归功于一个叫做 COT ( Chain of Thought )思维链的技术。太专业的术语咱也不在这拽了,大伙儿可以把这个 COT 理解为, AI 模型模仿人类的大脑进行逻辑推理,把复杂的任务拆解之后,再一步步地解决。把这个技术运用到模型里,模型就能够通过   "   思考   "   来完成任务并提高正确率。而为啥先把这东西用在了一个数学模型上,杨植麟直接引用了伽利略的名言  "   宇宙是由数学这门语言书写而成的   "  。总之,就是希望先从数学问题入手,再将数学的思维泛化,从而去理解整个世界。当然,并不是说模型一旦用上了思维链就能得到正确的答案,但这个方式,目前确实可以提高模型对复杂任务的推理能力。再举个例子,咱让 Kimi 数学版统计   " chaping debug the world "   里,有几个字母   "e"  。先分别把   " chaping "" debug "" the "" world "   单独拎出来,再挨个字母一个个查,方法虽然笨,但至少不会出错。就这么说吧,这道简单的数数题,世超试了一下,只有 Claude 和 Kimi 数学版数对了。包括在   "   我有一块 1 米长的面包,每天吃一半,需要几天才能把这块面包吃完 ? "   的问题中,在大部分 AI 给出永远吃不完的答案时, Kimi 数学版觉得   "   是有物理极限的   "  ,认为分到了一纳米就不能分了。。。这种对任务拆解的能力,夸张到什么程度,即使你问它 1+1 等于多少, Kimi 数学版都能给你唠半天,截图根本截不完。另外,在思维链的作用下,对纠正 AI 模型犯蠢、不会抓重点的老毛病也有一定效果。像前段时间苹果就发了篇论文,大概意思是说模型压根就不会推理,随便加几个无关痛痒的干扰条件,模型的准确率就会下降。但世超这次分别拿 Kimi 数学版和豆包试了试,题目是:超市里,每袋大米售价 50   元,每瓶酱油售价 10   元。如果鲜虾包购买了 4 袋大米和 4 瓶酱油,并且送给邻居 1 袋大米和 2 瓶酱油,那么鲜虾包购买大米比酱油多花了多少钱?这道题,还特地加了   "  送给邻居 1 袋大米和 2 瓶酱油  "   的陷阱。豆包多少就有点不懂人情世故了,还把自个儿留存的大米和酱油单独拎出来算。反观 Kimi 数学版,深知送出去的礼物泼出去的水。反正测试下来, k0-math 的解题准确率不能说百分百,但调用了思维链之后的逻辑推理过程,很大程度上提高了 Kimi 这个做题家的数学水平。而且世超也发现,除了 k0-math 外,国内的幻方 DeepSeek 前两天也搞了个推理模型 DeepSeek-R1-Lite ,同样也是纸上水平媲美 o1 。又是 o1 系列,又是 k0-math 、 DeepSeek-R1-Lite ,可能有差友也好奇,之前不是还在长文本吗,这怎么突然就卷起了推理能力了?其实,传统的拼算力、拼数据在大模型领域,已经遇到了一定的瓶颈,而靠着强化学习,提高大模型的推理能力,已经成了大伙们卷的新方向。这强化学习说白了,就是在训练时让 AI 自己试错,最后摸索出正确答案。像 Claude Sonnet 3.5 就是基于强化学习,实现了代码能力的提升。包括 Kimi 创始人杨植麟在前阵子的媒体分享会上,也无数次 cue 到了强化学习,还说他们接下来会越来越关注基于强化学习的方法去继续迭代。最后,借用杨植麟的   "   登月论   "  ,如果说,先前的长文本是通往 AGI 的第一步,那么现在让 AI 学会思考,则是正式开启了第二阶段。撰文:西西

koa12jJid0DL9adK+CJ1DK2K393LKASDad

编辑:李秉贵

TOP1热点:张馨予一个月胖了9斤

警方鉴定书。

她相信老郭早晚会回到她身边的,因为她才是老郭的妻子呀。可是,让她没想到的是老郭竟然被杀死了。

TOP2热点:男子酒驾送妻上班 被公司保安举报

7月6日,中央纪委国家监委官网发布消息,河北省人大常委会原党组成员、副主任王雪峰,国家烟草专卖局原党组成员、副局长何泽华被开除党籍。

不会忘记老朋友,渗透在基辛格访华的每一个细节里。

TOP3热点:王俊凯:第一次演军人紧张又兴奋18+触摸互动游戏+黄油像素

2022年以来,欧盟绿色协议工业计划等蓝图均为欧洲设立雄心勃勃的绿色能源发展目标。德国国务秘书斯文·吉戈尔德表示,欧盟每年要安装100吉瓦的风能和太阳能系统,相当于每天建17个足球场面积的光伏发电、16个陆地风电机和4个海上风电机。德国经济部长哈贝克认为,这将引发该领域的投资热潮。

2022年以来,欧盟绿色协议工业计划等蓝图均为欧洲设立雄心勃勃的绿色能源发展目标。德国国务秘书斯文·吉戈尔德表示,欧盟每年要安装100吉瓦的风能和太阳能系统,相当于每天建17个足球场面积的光伏发电、16个陆地风电机和4个海上风电机。德国经济部长哈贝克认为,这将引发该领域的投资热潮。

TOP4热点:蔚来公司1月交付新车13863台14may18_XXXXXL民族

在出发之前,警方还通过小杰提供的信息联系上了阿兵的房东杨姐。

7月6日,中央纪委国家监委官网发布消息,河北省人大常委会原党组成员、副主任王雪峰,国家烟草专卖局原党组成员、副局长何泽华被开除党籍。

TOP5热点:哪吒导演饺子回应“啃老”三年蜜芽新选址

“2007年我入学那年搬的这个校区,当时体育馆就有了,那会也不新了。”该校毕业生韩梅(化名)回忆称。

据极目新闻援引一位在该校任职过的教职工说法称,齐齐哈尔市第三十四中学事发校区曾是齐齐哈尔市第一中学校的旧址,该校20多年前搬迁至此时,该体育馆已存在。另据公开信息,该体育馆建成于1997年,投资230万元。

TOP6热点:新一股冷空气大年初五来袭揉我胸⋯啊⋯嗯~出水奶

目前,CBA选秀已启动7年,各队从大学选来的球员中,还没有任何一名球员能在国家队立足,离开职业赛场的也不在少数。

看看王超会不会对自己负责?

TOP7热点:山东淄博名菜酥锅被全网盯上了xaxwas_1_XXXXXL

潇湘晨报记者就此致电齐齐哈尔市教育局,工作人员表示情况不方便透露。

2021年8月9日,俄方护旗队和陆军方队在“西部·联合-2021”演习开始仪式上列队图:新华社

TOP8热点:2025年度票房破70亿急救护士 满天星

在被那块从33楼楼顶天台上扔下来的砖头砸中之前,被害人小娄是一名法律工作者,也是一个乖巧懂事的妹妹,今年28岁,还没有结婚,大学毕业之后留在北京,在一家国企做法务工作。

马凯硕:我认为东盟在缓解中美紧张局势方面一直发挥着非常重要的作用,不管是直接的还是间接的。事实上,我几个月前在《外交事务》杂志上发表过一篇文章,主要说的是,东盟对中美关系的处理可以作为世界上其他地区效仿的典范。

TOP9热点:费城坠毁飞机为医疗用途载有患儿国产一产二产三精华

“我和我的工人们从昨天下午一直干到今天(24日)早上7点”,李晨介绍,因为坍塌,现场有大量建筑垃圾,他们的主要任务就是清理转运这些建筑垃圾,“有混凝土块、苯板什么的”。李晨组织工人形成流水线,“人倒人的方式比较快,我在现场负责指挥工人”。

近年来,烟草系统持续保持反腐败高压态势,已有多名高官及高级管理人员被查处。2021年5月,国家烟草专卖局原党组成员、中央纪委原派驻国家烟草专卖局纪检组组长潘家华被查,生于1952年的他被查时同样已经退休9年,他被指在国家烟草专卖局工作期间“靠烟吃烟”,帮助烟草行业私营企业主谋取私利,将多名亲友安排在烟草系统工作,纵容亲属利用其职务影响在烟草系统违规获取巨额利益。据《中国纪检监察》杂志披露,潘家华利用

TOP10热点:出口额最高 中国芯片“卖爆”了雷电将军腿法娴熟脚法图片

上世纪90年代,中国入世面临困境的时候,也是格林伯格一直在美国国会和白宫奔走,敦促美国政府尽快完成与中国的入世谈判。

今年4月,长时间联系不上阿州,王女士气愤地给他留言,而最终等到的回复也是:我被骗到缅甸了。

发布于:秦皇岛山海关区