后营露营无增减2季DeepSee后营露营无增减2季k狂飙13天:AI界开始真正严肃地思考未来_ZAKER新闻
DeepSee后营露营无增减2季k狂飙13天:AI界开始真正严肃地思考未来_ZAKER新闻
去年7月,29岁的小杨被贵州黔南州的一个中介骗到了缅北。同年8月,王女士便收到了儿子小杨打来的电话,“公司要求儿子帮他们骗50万,还让我拿20万去赎人。”王女士告诉记者,“我理解他为什么会被骗过去,因为他知道我身体不好,着急赚钱给我做手术。”可是独自把两个儿子从小拉扯大的王女士身上根本没有这么多钱,于是就找当地警方报案。
2025 年 1 月中旬,英伟达 CEO 黄仁勋的中国之行备受瞩目。从北京到深圳,再到台中和上海,这位 AI 时代的 " 卖铲人 " 每到一处都掀起一阵热潮。然而,就在距离英伟达上海办公室仅 200 公里的杭州,一场足以撼动 AI 产业格局的风暴正在悄然酝酿。彼时,身家 1200 亿美元的黄仁勋或许并未意识到,一家名为深度求索的低调中国公司,即将在 7 天后成为英伟达的 " 黑天鹅 "。从 1 月 20 日推理模型 DeepSeek-R1 开源至今 13 天来,DeepSeek 引起全球的惊讶,英伟达市值一周蒸发 5520 亿美元,硅谷巨头恐慌,华尔街焦虑。当所有人还在惊叹 DeepSeek 的惊人实力时,OpenAI 终于坐不住了。当地时间 1 月 31 日,OpenAI 正式推出了全新推理模型 o3-mini,并首次向免费用户开放推理模型。这是 OpenAI 推理系列中最新、成本效益最高的模型,现在已经在 ChatGPT 和 API 中上线。OpenAI 可能考虑开源、公开完整思维链。在 o3mini 正式推出之时,OpenAI 的首席执行官 Sam Altman 携一众高管在 reddit 回答网友问题,其间罕见承认 OpenAI 过去在开源方面一直站在 " 历史错误的一边 "。Altman 表示:" 需要想出一个不同的开源策略 "。DeepSeek 的 " 闪电战 ":性能、价格与开源三重冲击1 月 21 日,特朗普在白宫宣布启动四年总投资 5000 亿美元、名为 " 星际之门 " 的 AI 基础设施计划。前一天,DeepSeek 悄然开源了推理模型 DeepSeek-R1。随后,英伟达自己的科学家 Jim Fan 率先解读出了它的颠覆性意义。他说:" 我们生活在这样一个时代:由非美国公司延续 OpenAI 最初的使命——做真正开放的前沿研究、为所有人赋能。"然而,那一周全球的目光都聚焦在刚刚上任的特朗普身上。但临近周末,DeepSeek 突然成为科技圈、投资圈和媒体圈讨论的对象。摩根大通分析师 Joshua Meyers 说:" 周五,我收到的问题 95% 都是围绕 Deepseek 的。"有市场评论员预言,DeepSeek 是 " 美国股市最大的威胁 "。但为时已晚,英伟达的跌势已经开始。1 月 24 日英伟达股价跌去 3.12%。1 月 27 日,英伟达遭遇 17% 的 " 历史性 " 大跌,市值蒸发近 6000 亿美元,黄仁勋的个人财富一夜之间缩水 208 亿美元。本周,英伟达累跌 15.8%,市值蒸发 5520 亿美元。DeepSeek-R1 带来的最直接冲击来自三个方面:性能、价格和开源。性能比肩 o11 月 24 日发布的聊天机器人竞技场榜单上,DeepSeek-R1 综合排名第三,与 OpenAI 的 ChatGPT o1 并列。在高难度提示词、代码和数学等技术性极强的领域以及风格控制方面,DeepSeek-R1 位列第一。" 白菜价 " 颠覆市场DeepSeek-R1 的价格低得惊人:API 端口缓存命中 1 元 / 百万 Tokens,缓存未命中 4 元 / 百万输入 tokens,输出 16 元 / 百万 Tokens。仅为 o1 的 2%~3%。DeepSeek 移动应用和网页端免费,而能力相当的 ChatGPT o1 一个月 200 美元。完全开源DeepSeek-R1 完全开源,任何人都可以自由地使用、修改、分发和商业化该模型,彻底打破了以往大型语言模型被少数公司垄断的局面,将 AI 技术交到了广大开发者和研究人员的手中。1 月 24 日,著名投资公司 A16z 的创始人马克 · 安德森发文称,Deepseek-R1 是他见过的最令人惊叹、最令人印象深刻的突破之一,而且还是开源的,它是给世界的一份礼物。最具煽动性的评价来自 Scale AI 创始人亚历山大 · 王。他说:过去十年来,美国可能一直在 AI 竞赛中领先于中国,但 DeepSeek 的 AI 大模型发布可能会 " 改变一切 "。华尔街的焦虑:DeepSeek 动摇了英伟达的 " 算力信仰 " 吗?相比于技术,投资者更关心自己投资的公司将遭遇怎样的挑战。他们开始思考,如果 DeepSeek 的低成本训练有效,是否意味着巨头们在算力上的投入不值得了。如果不需要疯狂投入,市场对英伟达的业绩预期还有支撑吗?正如投行 Jeffreies 股票分析师 Edison Lee 团队 1 月 27 日在研报中所说,如今美国 AI 企业的管理层可能面临更大的压力。他们需要回答一个问题:进一步提高 AI 资本支出是否是合理的?硅谷公司还面临着投资者的拷问。1 月 27 日上午,高盛分析师 Keita Umetani 和多名投资者进行了谈话,不少投资者质疑:" 如果没有回报,还能证明资本支出的合理吗?"随后,华尔街投行们纷纷发布报告安抚市场。摩根大通分析师 Joshua Meyers 说,DeepSeek 的并不意味着扩张的终结,也不意味着不再需要更多的算力。花旗分析师 Atif Malik 团队称,尽管 DeepSeek 的成就可能是开创性的,但如果没有使用先进的 GPU 对其进行微调和 / 或通过蒸馏技术构建最终模型所基于的底层大模型,DeepSeek 的成就就不可能实现。DeepSeek-R1 的训练成本尚未公布。因此,一个月前发布的开源模型 DeepSeek-V3 成为主要分析对象。DeepSeek-V3 仅使用 2048 块英伟达 H800 GPU,在短短两个月内训练完成。H800 是英伟达特供中国市场的 AI 芯片,在性能上不及先进的 H200、H100 等。官方声称的 558 万美元只是训练开销,真实总支出尚无定论。《DeepSeek-V3 技术报告》中明确指出:请注意,上述成本仅包括 DeepSeek-V3 的正式训练,不包括与架构、算法或数据相关的先前的研究或精简实验的成本。" 当部门里一个高管的薪资就超过训练整个 DeepSeek-V3 的成本,而且这样的高管还有数十位,他们该如何向高层交代?"Meta 员工如是说。DeepSeek 训练成本低,一个重要原因是使用了数据蒸馏技术。数据蒸馏是将复杂模型的知识提炼到简单模型。通过已有的高质量模型来合成少量高质量数据,并作为新模型的训练数据。根据技术报告,DeepSeek-V3 利用 DeepSeek-R1 模型生成数据后,再使用专家模型来蒸馏生成最终的数据。不过,数据蒸馏技术在行业内充满争议。南洋理工大学研究人员王汉卿向《每日经济新闻》记者表示,蒸馏技术存在一个巨大缺陷,就是被训练的模型没法真正超越 " 教师模型 "。OpenAI 也把 DeepSeek 的蒸馏当作靶子加以攻击。1 月 29 日,OpenAI 首席研究官 Mark Chen 发帖称," 外界对成本优势的解读有些过头 "。不过,DeepSeek-V3 的创新不仅于此。资深业内人士向每经记者分析称,DeepSeek-V3 创新性地同时使用了 FP8、MLA 和 MoE 三种技术。相较于其他模型使用的 MoE 架构,DeepSeek-V3 的更为精简有效,每次只需要占用很小比例的子集专家参数就可以完成计算。这一架构的更新是 2024 年 1 月 DeepSeek 团队提出的。图片来源:arXivMLA 机制则是完全由 DeepSeek 团队自主提出、并最早作为核心机制引入了 DeepSeek-V2 模型上,极大地降低了缓存使用。技术路线之争:DeepSeek 的 " 原创 " 与 OpenAI 的 " 大力出奇迹 "2024 年 12 月,清华大学计算机系长聘副教授、博士生导师喻纯在谈及中国 AI 发展时向《每日经济新闻》表示,中国在 AI 应用层有很大的优势,擅长 " 从 1 到 10",但原始创新能力还有待提高。现在,这一看法可能不再适用了。DeepSeek 带来的最大 " 震撼 ",是蹚出了一条与 OpenAI 截然不同的模型训练路径。传统上,监督微调 作为大模型训练的核心环节,需要先通过人工标注数据进行监督训练,再结合强化学习进行优化,这一范式曾被认为是 ChatGPT 成功的关键技术路径。但是,DeepSeek-R1-Zero 是首个完全摒弃了 SFT 环节、而完全依赖强化学习训练的大语言模型。DeepSeek-R1 正是在 R1-Zero 的基础上进行了改进。英伟达高级研究科学家 Jim Fan 用大白话解释说:SFT 是人类生成数据,机器学习;RL 是机器生成数据,机器学习。这一突破为 AI 的自主学习范式提供了重要的实践范例。DeepSeek 为何不走捷径,而是寻求一条与 OpenAI 完全不同技术路线?背后的理由可以从创始人梁文锋的理想中探寻。《每日经济新闻》记者了解到,DeepSeek 规定员工不能对外接受采访。即便是 DeepSeek 用户群里的客服工作人员在解答群友疑问时也是小心翼翼,惜字如金。寻找梁文锋的人更是踏破铁鞋。外界对他的了解大多来自于 2023 年 5 月和 2024 年 7 月《暗涌》对他的专访。专访文章将他称为 " 一个更极致的中国技术理想主义者 "。和 OpenAI 创始人山姆 · 阿尔特曼一样,梁文锋的 " 目的地 " 是通用人工智能。然而,梁文锋的理想不在于目的地,而是如何通往目的地。DeepSeek 选择 " 不做垂类和应用,而是做研究,做探索 "" 做最难的事 "" 解决世界上最难的问题 "。梁文锋口中的 " 难 ",就是 " 原创 " 二字。他说:" 我们经常说中国 AI 和美国有一两年差距,但真实的 gap 是原创和模仿之差。如果这个不改变,中国永远只能是追随者,所以有些探索也是逃不掉的。"对于选择和 OpenAI 不一样的路,梁文锋的口气中充满乐观:ChatGPT 诞生在 OpenAI" 也有历史的偶然性 ""OpenAI 也不是神,不可能一直冲在前面 "。当地时间周一晚间,OpenAI 首席执行官山姆 · 阿尔特曼终于对 DeepSeek 给出了他的评价。他在社交平台 X 上连发三条值得玩味的帖子。首先,他重申了自己的目标—— AGI。甚至比梁文锋更进一步,要 " 超越 "AGI。其次,他捍卫了自己的 " 路线 " ——算力不仅重要,而且前所未有地重要。最后,他将 DeepSeek-R1 称作 " 一位新对手 ",并表示 " 我们当然会推出更好的模型 "。当地时间 1 月 31 日,在携一众高管在 reddit 上举行 AMA 活动时,阿尔特曼正式承认 DeepSeek 是一个非常好的模型,OpenAI 会制作出更好的模型,但领先优势会比以前减弱。这是否是山姆 · 阿尔特曼向 DeepSeek 下的 " 宣战书 "?他想较量的不仅关于谁是 " 更好的模型 ",更是想用 " 大力出奇迹 " 的技术与 " 聪明 " 的技术进行一场比拼。产业生态的博弈:微软、英伟达、AWS 纷纷接入一边是硅谷、华尔街都在激辩 DeepSeek 的影响;另一边,科技巨头已经下场无缝连接 DeepSeek-R1 模型服务。先是微软,当地时间 1 月 29 日,将 DeepSeek-R1 模型添加到其 Azure AI Foundry,开发者可以用新模型进行测试和构建基于云的应用程序和服务。1 月 29 日的第四季度业绩电话会上,微软首席 CEO 萨提亚 · 纳德拉再次肯定了 DeepSeek" 确实有一些真正的创新 ",并且宣布 DeepSeek-R1 已可通过微软的 AI 平台 Azure AI Foundry 和 GitHub 获取,并将很快在微软 AI 电脑 Copilot+ PC 上运行。虽然微软是 OpenAI 的深度投资者且有很多合作,但在产品商业化上它依然选择多样性的模型。目前 Azure 的平台上既有 OpenAI 的 GPT 系列、Meta 的 Llama 系列、Mistral 的模型,现在新增了 DeepSeek。紧接着,AWS 也宣布,用户可以在 Amazon Bedrock 和 Amazon SageMaker AI 两大 AI 服务平台上部署 DeepSeek-R1 模型。再然后是英伟达于当地时间 1 月 31 日官宣,DeepSeek-R1 模型已作为 NVIDIA NIM 微服务预览版,在英伟达面向开发者的网站上发布。英伟达还在官网中表示,DeepSeek-R1 是一个具有最先进推理能力的开放模型。DeepSeek-R1 等推理模型不会提供直接响应,而是对查询进行多次推理,采用思路链、共识和搜索方法来生成最佳答案。此前,1 月 28 日,英伟达在对每经记者的回应中说到:" 推理过程需要大量英伟达 GPU 和高性能网络。"想要在 AI 算力领域挑战英伟达的 AMD 也毫不犹豫为 DeepSeek" 站台 "。1 月 25 日,AMD 宣布,DeepSeek-V3 模型已集成至 AMD InstinctGPU 上,并借助 SGLang 进行了性能优化。此次集成将助力加速前沿 AI 应用与体验的开发。阿斯麦总裁兼 CEO 富凯 1 月 29 日表示:" 任何降低成本的事情,对阿斯麦来说都是好消息 ",因为更低的成本意味着更多的应用场景,更多应用意味着更多芯片。DeepSeek 冲击波的深远影响:AI 的未来,何去何从?2020 年 1 月,OpenAI 发表论文《神经语言模型的规模法则》。规模法则表明,通过增加模型规模、数据量和计算资源,可以显著提升模型性能。在 AI 领域,规模法则被俗称为 " 大力出奇迹 ",也是 OpenAI 的制胜法宝。2024 年底,AI 界传出大模型进化遭遇 " 数据墙 " 的消息。美国技术研究公司 Epoch AI 预测,互联网上可用的高质量文本数据可能会在 2028 年耗尽。图灵奖得主杨立昆和 OpenAI 前首席科学家伊利亚 · 苏茨克维等人直言,规模法则已触及天花板。" 大力出奇迹 " 的忠实拥趸——硅谷巨头们开始将千亿美元级的资本投入算力。这场 " 算力竞赛 " 的疯狂程度从下面这些数据中可见一斑。图片来源:每经制图但是,DeepLearning 创始人吴恩达 1 月 29 日撰文提醒称,扩大规模并非是实现 AI 进步的唯一途径。一直以来 …… 人们过度关注扩大规模,而没有以更细致入微的视角,充分重视实现进步的多种不同方式。但算法创新正使训练成本大幅下降。DeepSeek-R1 开源至今已经过去 13 天,关于它的讨论还在继续。DeepSeek 的出现让人们开始重新审视开源的价值和风险,以及 AI 产业的竞争格局。这场由 DeepSeek 引发的 " 冲击波 ",将对全球 AI 产业产生深远的影响。未来的 AI 世界,是 " 大力出奇迹 " 的继续狂飙,还是 " 聪明 " 技术的异军突起?是巨头垄断的固化,还是百花齐放的繁荣?DeepSeek 出现,让 AI 界开始真正严肃地思考未来:是继续烧钱豪赌,还是让 AI 成果商业化、平民化和普惠化?随着训练成本降低、技术成熟以及开源,大语言模型将愈发成为一种普通产品。1 月 31 日,Hugging Face 联合创始人兼 CEO 托马斯 · 沃尔夫说:" 我认为人们正在从对模型的狂热中冷静下来,因为他们明白,得益于开源 …… 很多这类模型将会免费且可自由获取。"巧合地是,同日,OpenAI 正式推出了全新推理模型 o3-mini,并首次向免费用户开放推理模型。这是 OpenAI 推理系列中最新、成本效益最高的模型,现在已经在 ChatGPT 和 API 中上线。在 o3mini 正式推出之时,Sam Altman 携一众高管在 reddit 回答网友问题时,罕见承认 OpenAI 过去在开源方面一直站在 " 历史错误的一边 "。Altman 表示:" 需要想出一个不同的开源策略 "。koa12jJid0DL9adK+CJ1DK2K393LKASDad
编辑:杨勇
TOP1热点:冬天太冷了皮肤很干,各位都在用什么护肤品?有性价比高的吗?
据央行介绍,中日韩三国央行长期以来保持着良好的合作关系,三国行长间一直保持非正式对话。。
TOP2热点:有什么是去了广东才知道的?
2022年,日本向中国大陆出口的半导体制造设备金额超过8200亿日元(约合424.21亿元人民币),中国大陆是日企在该领域的第一大出口目的地,约占出口总额的30%。
辽宁省委书记郝鹏、省长李乐成与清华大学、北京大学分别举行会商,并签署战略合作框架协议。
TOP3热点:星舰七发二级失联助推器回收成功,新格伦入轨成功回收失败,哪个发射含金量更高?55岁大妈玩CSGO
始建于1971年的齐齐哈尔第三十四中学,先后被评为全国创新学习先进学校、省级首批示范初中、省“两全”先进学校、省一类学校等称号。在齐齐哈尔当地属于教学质量优秀的学校,并为排球、冰球等体育项目的青年人才选拔和训练做出过突出贡献。
7月14日,西安中考放榜。除了让“几家欢喜几家愁”的成绩外,最让西安家长关注的还有“回流生”。
TOP4热点:如何评价古装剧《国色芳华》的 16-19 集?缅北14may18_XXXXXL56endian
“这一个多月以来就没有几次晴天”,多名学生向中国新闻周刊提到,当天,当地也正在下雨。
TOP5热点:身为「女汉子」是种怎样的体验?37大但人文艺术yongyuxun
不可否认的是,娇娇长得确实很漂亮,2019年她22岁。
2019年10月16日,从事飞行工作的王超来到上海浦东公安局报警。他说,他怀疑自己被人诈骗了,被骗了10多万。
TOP6热点:陶哲轩跟佩雷尔曼谁的天赋更高?5G天天奭多人 运动入口在线网站
她找王超干什么呢?
TOP7热点:民法典婚姻家庭司法解释出台,重点解决同居财产分割及离婚时房产归属等问题,哪些信息值得关注?日本最大但的人文体艺术
不管她怎么闹,都不管用。
莫斯科还指责西方和基辅要为一名俄罗斯战地记者的死亡负责。莫斯科说,这名记者是被集束炸弹炸死的,并承诺将对肇事者作出“回应”。
TOP8热点:如何评价星铁 3.0 世界任务「我曾在阿卡迪亚」?全程不盖被子打扑克视频大全
同时附近还有一位邻居说,自己半夜起床照顾婴儿的时候,
TOP9热点:听说这一代的《真·三国无双:起源》特别特别好玩,是真的么?云缨用枪躁自己
2022年10月26日,颜勇被开除党籍、开除公职,其涉嫌犯罪问题被移送检察机关依法审查起诉。
TOP10热点:孩子不爱学习,要逼她学习吗?片多多在线观看免费完整版
中冶天工集团有限公司发布的效果图