健康速递-"胡桃玩旅行者的小坤坤网站"-国产 AI 最卷一夜！大模型黑马 DeepSeek、Kimi 硬刚 OpenAI o1，实测体验到底有多强

国产 AI 最卷一夜！大模型黑马 DeepSeek、Kimi 硬刚 OpenAI o1，实测体验到底有多强_胡桃玩旅行者的小坤坤网站ZAKER新闻

　　丁铎表示，对于菲律宾近一段时间在涉及南海叙事和认知层面的颠倒黑白、混淆视听的种种做法，地区国家和国际社会中的有识之士看得清清楚楚明明白白，不会被菲歪曲解读和恶意炒作所误导。

赶在放假前，支棱起来的国产 AI 大模型厂商井喷式发布了一大堆春节礼物。前脚 DeepSeek-R1 正式发布，号称性能对标 OpenAI o1 正式版，后脚 k1.5 新模型也正式登场，表示性能做到满血版多模态 o1 水平。如果再加上此前强势登场的智谱 GLM-Zero，阶跃星辰推理模型 Step R-mini，星火深度推理模型 X1，年末上大分的国产大模型拉开了真刀真枪的帷幕，也给以 OpenAI 为代表的海外模型狠狠上了一波压力。DeepSeek-R1 ：在数学、代码、自然语言推理等任务上，性能比肩 OpenAI o1 正式版月之暗面 k1.5：数学、代码、视觉多模态和通用能力全面超越 GPT-4o 和 Claude 3.5 Sonnet。智谱 GLM-Zero：擅长处理数理逻辑、代码和需要深度推理的复杂问题阶跃 Step-2 mini：极速响应，平均首字时延仅 0.17 秒，还有 Step-2 文学大师版星火 X1：数学能力亮眼，有全面思考过程，拿捏小学、初中、高中、大学全学段数学井喷不是偶然的爆发，而是积蓄已久的力量，可以说，国产 AI 模型在春节前夕的突围，将有望重新定义 AI 发展的世界坐标。中国版「源神」爆火海外，这才是真 · OpenAI昨晚率先发布的 DeepSeek-R1 现在已经上架 DeepSeek 官网与 App，打开就能用。9.8 和 9.11 哪个大以及 Strawberry 里有几个 r 的难题在第一次测试中就顺利过关，别看思维链略显冗长，但正确答案事实胜于雄辩。面对弱智吧难题「跳多高才能跳过手机上的广告」的拷问，响应速度极快的 DeepSeek-R1 不仅能够避开语言陷阱，还提供了不少规避广告的的建议，十分人性化。几年前，有一道名为「如果昨天是明天，今天就是星期五，实际今天是星期几」的逻辑推理题走红网络，在面临同样问题的拷问后，OpenAI o1 给出的答案是周日，DeepSeek-R1 则是周三。但就目前来看，至少 DeepSeek-R1 更靠近答案。据介绍，DeepSeek-R1 在数学、代码、自然语言推理等任务上，性能比肩 OpenAI o1 正式版，理论上更偏向于理科生。正好赶上小红书上中美两国网友在友好交流数学作业，我们也让 DeepSeek-R1 帮忙解疑答惑。插个冷知识，上回 DeepSeek 海外爆火时就有网友发现，其实 DeepSeek 也支持图片识别，我们可以直接让模型分析美国网友上传的试卷图片。拢共两道题，第一道题选 C，第二道题选 A，并且，「自信满满」的 DeepSeek-R1 推测第二道题原题的选项中无 18，结合选项推测原题可能存在笔误（如方程应为 r2=9cos ⁡ ( 2 θ ) r2=9cos ( 2 θ ) ）。在随后的线性代数证明题中，，DeepSeek-R1 提供的证明步骤逻辑严谨，同一道题目还提供了多种验证方法，展现出深厚的数学功底。始于性能，陷于成本，忠于开源。 DeepSeek-R1 正式发布之后，也同步开源模型权重。我宣布，来自中国东方的 DeepSeek 才是真正的 OpenAI。据悉，DeepSeek-R1 遵循 MIT License，允许用户通过蒸馏技术借助 R1 训练其他模型。DeepSeek-R1 上线 API，对用户开放思维链输出，通过设置 model='deepseek-reasoner' 即可调用。并且，DeepSeek-R1 训练技术全部公开，论文链接指路 https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdfDeepSeek-R1 技术报告里提到一个值得关注的发现，那就是 R1 zero 训练过程里出现的「aha moment（顿悟时刻）」。在模型的中期训练阶段，DeepSeek-R1-Zero 开始主动重新评估初始解题思路，并分配更多时间优化策略（如多次尝试不同解法）。换句话说，通过 RL 框架，AI 可能自发形成类人推理能力，甚至超越预设规则的限制。并且这也将有望为开发更自主、自适应的 AI 模型提供方向，比如在复杂决策（医疗诊断、算法设计）中动态调整策略。正如报告所说，「这一时刻不仅是模型的『顿悟时刻』，也是研究人员观察其行为时的『顿悟时刻』。」除了主打的大模型，DeepSeek 的小模型同样实力不俗。DeepSeek 通过对 DeepSeek-R1-Zero 和 DeepSeek-R1 这两个 660B 模型的蒸馏，开源了 6 个小模型。其中，32B 和 70B 型号在多个领域达到了 OpenAI o1-mini 的水准。并且，仅 1.5B 参数大小的 DeepSeek-R1-Distill-Qwen-1.5B 在数学基准测试中超越了 GPT-4o 和 Claude-3.5-Sonnet，AIME 得分为 28.9%，MATH 得分为 83.9%。HuggingFace 链接：https://huggingface.co/deepseek-ai在 API 服务定价方面，号称 AI 届拼多多的 DeepSeek 也采用了灵活的阶梯定价：每百万输入 tokens 根据缓存情况收费 1-4 元，输出 tokens 统一 16 元，再次大幅降低开发使用成本。DeepSeek-R1 发布以后，也再次在海外 AI 圈引起轰动，收获了大量「自来水」。其中，博主 Bindu Reddy 更是给 Deepseek 冠上了开源 AGI 和文明的未来之称。出色的评价源于模型在网友的实际应用中出色的表现。从 30 秒详细阐释勾股定理，到 9 分钟深入浅出地讲解量子电动力学原理并提供可视化呈现。DeepSeek-R1 没有任何差错。https://x.com/christiancooper/status/1881343268916748480甚至也有网友特别欣赏 DeepSeek-R1 所展示的思维链，认为「像极了人类的内心独白，既专业又可爱」。英伟达高级研究科学家 Jim Fan 对 DeepSeek-R1 给予了高度评价。他指出这代表着非美国公司正在践行 OpenAI 最初的开放使命，通过公开原始算法和学习曲线等方式实现影响力，顺便还内涵了一波 OpenAI。DeepSeek-R1 不仅开源了一系列模型，还披露了所有训练秘密。它们可能是首个展示 RL 飞轮重大且持续增长的开源项目。影响力既可以通过『ASI 内部实现』或『草莓计划』等传说般的项目实现，也可以简单地通过公开原始算法和 matplotlib 学习曲线来达成。在深入研究论文后，Jim Fan 特别强调了几个关键发现：完全由强化学习驱动，没有任何 SFT（「冷启动」）。让人联想到 AlphaZero ——从零开始掌握围棋、将棋和国际象棋，而不是先模仿人类大师的棋步。这是论文中最关键的发现。使用硬编码规则计算的真实奖励。避免使用强化学习容易破解的学习奖励模型。随着训练进展，模型的思考时间逐步增加——这不是预先编写的程序，而是一种涌现特性！自我反思和探索行为的涌现。GRPO 替代了 PPO：它移除了 PPO 的评论网络，改用多个样本的平均奖励。这是一种减少内存使用的简单方法。需要注意的是，GRPO 是作者团队提出的一种创新方法。整体来看，这项工作展示了强化学习在大规模场景中实际应用的开创性潜力，并证明某些复杂行为可以通过更简单的算法结构实现，而无需进行繁琐的调整或人工干预。一图胜千言，更明显的对比如下：就这样，DeepSeek 再次在海内外完成二次爆火，不仅是一次技术突破，更是中国乃至世界的开源精神的胜利，也因此收获了不少海外忠实拥趸。新模型比肩 OpenAI o1，三个月三次突破，Kimi 让海外集体沸腾同一天上线的还有 Kimi v1.5 多模态思考模型。自去年 11 月 Kimi 推出 k0-math 数学模型，12 月发布 k1 视觉思考模型以来，这是第三次 K 系列的重要上新。在短思考模式（short-CoT）的较量中，Kimi k1.5 展现出压倒性优势，其数学、代码、视觉多模态和通用能力全面超越了行业翘楚 GPT-4o 和 Claude 3.5 Sonnet。在长思考模式（long-CoT）的竞争中，Kimi k1.5 的代码和多模态推理能力已经比肩 OpenAI o1 正式版，成为全球范围内首个在 OpenAI 之外实现 o1 级别多模态推理性能的模型。伴随着模型的重磅发布，Kimi 还首次公开了完整的模型训练技术报告。GitHub 链接：https://github.com/MoonshotAI/kimi-k1.5据官方介绍，k1.5 模型的核心技术突破主要体现在四个关键维度：长上下文扩展。我们将 RL 的上下文窗口扩展到 128k，并观察到随着上下文长度的增加，性能持续提升。我们的方法背后的一个关键思想是，使用部分展开（partial rollouts）来提高训练效率——即通过重用大量先前的轨迹来采样新的轨迹，避免了从头开始重新生成新轨迹的成本。我们的观察表明，上下文长度是通过 LLMs 持续扩展 RL 的一个关键维度。改进的策略优化。我们推导出了 long-CoT 的 RL 公式，并采用在线镜像下降的变体进行稳健的策略优化。该算法通过我们的有效采样策略、长度惩罚和数据配方的优化进一步得到改进。简洁的框架。长上下文扩展与改进的策略优化方法相结合，为通过 LLMs 学习建立了一个简洁的 RL 框架。由于我们能够扩展上下文长度，学习到的 CoTs 表现出规划、反思和修正的特性。增加上下文长度的效果是增加了搜索步骤的数量。因此，我们展示了可以在不依赖更复杂技术（如蒙特卡洛树搜索、价值函数和过程奖励模型）的情况下实现强大的性能。多模态能力。我们的模型在文本和视觉数据上联合训练，具有联合推理两种模态的能力。该模型数学能力出众，但由于主要支持 LaTeX 等格式的文本输入，依赖图形理解能力的部分几何图形题则难以应对。k1.5 多模态思考模型的预览版将陆续灰度上线官网和官方 App。值得一提的是，k1.5 的发布同样在海外引起了巨大的反响。有网友对这个模型不吝赞美之词，让海外见证了中国 AI 实力的崛起。实际上，年末国内推理模型的密集发布绝非偶然，这是 OpenAI 去年 10 月发布 o1 模型在全球 AI 领域掀起的涟漪终于传导至中国的显著标志。短短数月从追赶到比肩，国产大模型用行动证明了中国速度。菲尔兹奖得主、数学天才陶哲轩曾认为这类推理模型或许只需再经过一两轮迭代与能力提升，就能达到「合格研究生」的水准。而 AI 发展的远景远不止于此。当前，我们正见证着 AI 智能体一个关键的转型时刻。从单纯的「知识增强」向「执行增强」跨越，开始主动参与决策制定和任务执行的过程。与此同时，AI 也在突破单一模态的限制，向着多模态融合的方向快速演进。当执行遇上思考，AI 才真正具备了改变世界的力量。基于此，像人一样思考的模型正在为 AI 的实际落地开辟更多可能性。表面上看，年末这波国内推理模型的密集涌现，表面上看或许带有「中国式跟随者创新」的影子，但深入观察就会发现，无论是在开源策略的深度，还是在技术细节的精确度上，中国厂商依然走出了一条独具特色的发展道路。

koa12jJid0DL9adK+CJ1DK2K393LKASDad

编辑:孙应吉

TOP1热点：经常熬夜5年后身体有什么变化

　　与此同时，郑州的经济总量，对就业创业的吸纳能力也能产生很好的辐射作用，“我知道的就有一些从游客变成投资者，变成了创业者”。。

TOP2热点：一起看今年首个超级月亮

　　与此同时，郑州的经济总量，对就业创业的吸纳能力也能产生很好的辐射作用，“我知道的就有一些从游客变成投资者，变成了创业者”。

　　而眼下，《细则》的发布又给郑州带来新的热度。这份文件几乎涵盖文旅文创产业发展的方方面面，具体包括对创建国家级、省级文化旅游品牌；旅行社引客入郑；文化旅游新业态发展；演艺产业高质量发展；非物质文化遗产保护传承；旅游产业招大引强；参加国家级、省级赛事活动等8大方面进行扶持。

TOP3热点：原来出门上班不关空调才省电ZOMBIE视频SUPREME

　　俄方重申恪守一个中国原则，承认台湾是中华人民共和国不可分割的一部分，反对任何形式的“台独”，坚定支持中方维护国家主权和领土完整、实现国家统一的举措。中方支持俄方维护本国安全稳定、发展繁荣、主权和领土完整，反对外部势力干涉俄罗斯内政。

　　双方重申在维护信息通信技术领域安全问题上的一致立场，同意协作应对包括与人工智能相关的各类网络安全风险。双方鼓励全球共同推动人工智能健康发展，共享人工智能红利，加强人工智能能力建设国际合作，妥善应对人工智能军事应用问题，支持在联合国、国际电信联盟、金砖国家、上海合作组织、国际标准化组织等机制平台开展人工智能交流合作。反对利用技术垄断、单边强制措施恶意阻挠他国人工智能发展、阻断全球人工智能供应链。

TOP4热点：男子腹泻一年肝脏脓肿竟因吃路边摊填得很满是什么感觉

　　“我同普京总统一道将今明两年确定为‘中俄文化年’，提出双方要举办一系列接地气、连民心、有热度的文化交流活动，鼓励两国社会各界、各地方加强交往，更好促进民心相知相通、相近相亲。”

　　美国在上海累计设立企业约5800家，实际投资额超过170亿美元；上海企业在美国设立直接投资项目1500多个，中方协议投资额260亿美元。

TOP5热点：46岁李维嘉洁癖严重交换女人

　　<span>2023年，房地产开发企业房屋竣工面积99831万平方米，同比增长17.0%，其中住宅竣工面积72433万平方米，同比增长17.2%。</span>

　　虽然繁琐辛苦，但在政府补贴和“多囤点地”的激励下，村民们的造林积极性很高。到2000年，柴达木嘎查2万多亩的造林工程分批次顺利完成，树木存活率普遍在85%以上。整个通辽也在这时候完成了生态的逆转。2003年，中科院沙漠化土地空间分布遥感监测显示，“三北防护林”工程实施以来，科尔沁沙地在通辽市范围内的沙漠化面积已减少了1200万亩，在全国四大沙地中，科尔沁沙地唯一出现了治理大于沙化的总体良性逆转。

TOP6热点：中国空间站舷窗大片再上新铜铜铜铜铜铜铜铜好大好硬

　　习近平指出，当今世界，冷战思维阴魂不散，单边独霸、阵营对抗、强权政治威胁世界和平和各国安全。我同普京总统一致认为，解决巴以冲突问题迫在眉睫。

　　双方为应对气候变化采取措施，重申恪守《联合国气候变化框架公约》及其《巴黎协定》目标、原则和制度框架，特别是共同但有区别的责任原则。双方强调，发达国家为发展中国家提供的资金支持对减缓全球平均气温增长、适应全球气候变化负面影响至关重要。双方反对以应对气候变化为由设置贸易壁垒和将气候议题同国际和平安全威胁挂钩。

TOP7热点：梁洁分寸感一面亲上边一面膜下边的含义

　　今年初，2024年河南省文化和旅游局长会议在郑州召开，今年河南将全面塑造“行走河南·读懂中国”品牌，力争全年游客接待量突破10亿人次、旅游综合收入突破1万亿元。从2023年“共接待国内游客8.48亿人次，实现国内旅游收入8510亿元”来看，河南今年有望在中部率先完成万亿级的“破门”。

TOP8热点：56岁女子边打工边写作4年写20万字班长哭了能不能再抠游戏里面的钱

　　——在中俄总理定期会晤委员会机制框架下成立中俄北极航道合作分委会，开展北极开发和利用互利合作，保护北极地区生态系统，推动将北极航道打造成为重要的国际运输走廊，鼓励两国企业在提升北极航道运量和建设北极航道物流基础设施等方面加强合作。深化极地船舶技术和建造合作。

　　与此同时，郑州的经济总量，对就业创业的吸纳能力也能产生很好的辐射作用，“我知道的就有一些从游客变成投资者，变成了创业者”。

TOP9热点：成都市民拍到7个太阳同框hennessy女rapper

　　最新的政策来自证监会5月15日发布的《监管规则适用指引—发行类第10号》，指引要求发行人在招股说明书刊登致投资者的声明，完善上市后分红政策的信息披露规则，强化未盈利企业相关信息披露等。

　　深交所有关负责人表示，本次上市委暂缓马可波罗上市申请的审核，主要是考虑报告期内公司营业收入和利润出现一定下滑等实际情况，需要在现有基础上进一步确认影响业绩不确定因素是否消除。

TOP10热点：张昊唯孝出强大成全视频在线观看免费高清

　　<span>司法支持。对需要进行司法处置的项目，地方人民法院将及时受理相关案件，提高司法处置效率；对攻坚战项目审慎采取财产保全措施，支持项目建设交付。</span>

　　双方将同上海合作组织其他成员国协作，完善组织工作，挖掘政治、安全、经济和人文领域合作潜力，使欧亚地区成为和平、稳定、互信、发展繁荣的共同家园。

发布于：比如县

胡桃玩旅行者的小坤坤网站国产 AI 最卷一夜！大模型黑马 DeepSeek、Kimi 硬刚 OpenAI o1，实测体验到底有多强_胡桃玩旅行者的小坤坤网站ZAKER新闻

胡桃玩旅行者的小坤坤网站国产 AI 最卷一夜！大模型黑马 DeepSeek、Kimi 硬刚 OpenAI o1，实测体验到底有多强_胡桃玩旅行者的小坤坤网站ZAKER新闻