少妇大叫太大太粗太爽了_法律新闻_硅谷巨头要学会接受：「DeepSeek 现象」只是开始

硅谷巨头要学会接受：「DeepSeek 现象」只是开始_少妇大叫太大太粗太爽了ZAKER新闻

融360数字科技研究院分析师刘银平也指出，2023年美元存款利率及美元理财产品收益率上涨较多，美元存款以1年及以内中短期居多，利率可以达到5%左右，远高于人民币存款利率。美元理财产品以固收类产品居多，通常也会配置一定比例的美元存款，平均业绩比较基准在4.5%以上，也要高于人民币固收类理财产品。“相对来看，美元存款利率更加稳定，更受投资者青睐。”

2025 年的春节无疑已被 DeepSeek 霸屏。过去三年每年的春节都有一次重磅的 AI 讨论：2023 年是 ChatGPT、2024 年是 Sora，这两股风潮都是由 OpenAI 掀起，而 2025 年则是 DeepSeek 的 V3 与 R1。除夕当天 1 月 28 日，DeepSeek 更是趁热发布了文生图模型 Janus-Pro，但后者没有 V3 与 R1 吸引的关注大，原因在于其没有像前者一样动摇了过去基座大模型的「奇迹」来源：算力。DeepSeek V3 的参数规模是 6710 亿，训练成本不到 560 万美元，训练时长在 280 万 GPU 小时。相比之下，GPT-4o 的训练成本约为 1 亿美元，Llama 3 405B 训练时长则为 3080 万 GPU 小时。Meta 的 Llama 3 是用 16000 张 H00 训练，此前还计划在 2024 年囤卡 60 万张英伟达 GPU 去做模型升级；马斯克创立的 XAI 甚至囤卡 10 万张 H100 建数据中心。根据媒体报道，DeepSeek V3 与 R1 发布后，Meta 在内的多家硅谷企业受到极大震撼，并开始质疑以往 OpenAI「大力出奇迹」的成功方法论，引起硅谷多家科技巨头的暴跌，比如英伟达一夜之间被干掉 4.3 万亿市值，相当于腾讯与美团两家中国互联网巨头加起来的市值。对于 DeepSeek 带来的震撼，业界不难联想到「漂亮国将出台一系列制裁政策」等等往日常规反应。值得注意的是，在 DeepSeek 给硅谷带来地震的不久前，1 月 15 日，美国才刚将中国最早的大模型创业公司「智谱 AI」列入实体清单。AI 1.0 时代，商汤、旷视等企业也被美国列入实体清单。被列入实体清单的一大掣肘就是难以购买海外英伟达生产制造的 GPU，其在短期内仍是基座大模型训练升级的一个重要条件。但 DeepSeek 的崛起证明了：无论他们采取怎样的「卡脖子」措施，都无法阻止中国 AI 技术的持续创新。他们将智谱列入实体清单，但没想到 DeepSeek 紧随其后，并且采用了更低的训练成本去做模型更新与开源。同样，哪怕他们再继续将 DeepSeek 列入清单，致力于开源的中国模型厂商还有面壁、智谱、阶跃等等团队不断推陈出新。另一个值得注意的事实是：OpenAI 在 2024 年 9 月发布推理模型 o1，但 DeepSeek 在不到 4 个月后发布的 R1 就已经能媲美 o1。这意味着，中国在大模型上的 AI 能力已经与美国的时间差距越来越小，从 2023 年到 2024 年底，这个时间差从超过一年缩短为 4 个月。加上多位 OpenAI 前员工作证 DeepSeek 的 R1 独立发现并实现了 o1 的一些独特思想，也意味着 2025 年中国大模型的创新会更加独立、超前，不再是跟随、而是独创。AI 的星星之火已经开始燎原，难以再被扑灭。燎原之势DeepSeek 在硅谷引起的震荡，验证了海外对中国 AI 技术创新的「始料未及」，同时也验证了中国 AI 创新的可能性与巨大潜力。此前在多数人包括国人的心中，中国的大模型没有独立创新能力，要跟随海外顶尖团队的步伐。也是因此，DeepSeek 带来的震撼才会如此之大。设想一下，如果是 OpenAI、Anthropic 或谷歌等美国公司发布了相似的成果，2025 年春节还会这么热闹吗？正是因为竞争来自从前未曾意料到的对手，昔日的巨人才会被打得措手不及。值得注意的是，在被忽视或吐槽的一年中，2024 年中国的大模型已经跋涉千里，且不像海外，国内多家创业公司的模型像 DeepSeek 一样都是开源的。2023 年被称为「百模大战」，主要集中在单一的文本模态，但 2024 年的模型更新实则更猛：不仅数量更多，模态、尺寸、性能覆盖也更多。海外团队必须开始正视一个既定事实：昔日他们眼中的技术「矮子」已茁壮成长，并可能成为下一个「巨人」。笔者粗略统计了一下，除去字节、阿里、百度等大厂，从 2024 年到 2025 年 1 月，单单是大模型创业公司就发布了超 50 个模型数量。先看第一梯队中两个对标 OpenAI、角逐基座模型的厂商智谱与阶跃：2024 年，智谱一共发布与升级了超 10 款基座模型，包括文本、图像、语音、视频、代码生成等多个领域，如基座语言大模型 GLM-4 与 GLM-4-Plus，垂类模型 CharacterGLM（6B 开源）、AutoWebGLM，视觉大模型 CogVLM2，文生图模型 CogView-3-Plus、图像 / 视频理解模型 GLM-4V-Plus、视频生成模型 CogVideoX，端到端语音大模型 GLM-4-Voice，CogVideoX 系列模型（2B、5B、5B-I2V）等等。智谱还开源多款模型，包括 GLM-4-9B、CodeGeeX 第四代模型、Video 版 CogVLM2、CogVideoX-2B 与 5B、CogAgent-9B、CogVideoX v1.5-5B 与 CogVideo v1.5-5B-I2V 等等超 10 款模型。1 月被列入实体清单后，智谱更发布了端到端模型 GLM-Realtime，同步升级了 GLM-4-Air 和 GLM-4V-Plus 模型。而阶跃星辰在 2024 年发布了超 8 款模型，包括多模态大模型 Step-1V 与 Step-1.5V、图像生成大模型 Step-1X、视频理解模型 Step-1.5v-turbo、视频生成模型 Step-Video、语音复刻和生成大模型 Step-tts-mini、语音识别大模型 Step-asr 与语音大模型 Step-1o Audio。2025 年 1 月，阶跃又更新发布升级了 6 款模型，包括多模态理解模型 Step-1o vision、语音模型 Steo-1o Audio 升级、视频生成模型 Step-Video 升级至 V2 版，发布了 Step 系列的首款推理模型 Step Reasoner mini，以及小模型 Step R-mini 和 Step-2 文学大师版。即使是在外界看来专注 C 端产品应用的月之暗面与 MiniMax，也发布了多款产品：月之暗面发布了 K0-math、Moonshot-v1 系列文本与多模态模型。MiniMax 发布了同是 MoE 架构的千亿参数模型 abab6 与万亿参数模型 abab6.5，2025 年 1 月又发布了基础语言大模型 MiniMax-Text-01、视觉多模态大模型 MiniMax-VL-01、视频模型 S2V-01、语音模型 T2A-01，并首度开源。专注医疗与行业应用的百川智能也发布了超千亿参数模型 Baichuan 3、Baichuan 4 等模型，但没有开源。除智谱外，另一家一直与 DeepSeek 相提并论的是清华团队面壁智能。此前，面壁小钢炮模型被斯坦福团队抄袭，在圈内引起轰动，其与 DeepSeek 一样押注模型的高效训练，一样开拓了模型架构的稀疏化创新路线，并通过端侧小模型验证了其所提出的「Densing Law」（即模型的能力每 3.3 个月翻一番），2024 年以来发布了 8 款基座模型、多模态模型，陆续把 GPT-4V、GPT-4o 等巨无霸标杆进行极致智能压缩，放到了迷你尺寸的端侧模型上。在芯片禁令下，这两家因高效低成本技术探索，从去年就双双成为外媒重点关注对象。（想进一步了解的读者可以阅读《大模型隐藏玩家上桌：DeepSeek 向左，面壁向右》）同样，面壁智能的模型也对外开源，与 DeepSeek、通义千问在海外被统称中国大模型的「开源三剑客」。DeepSeek 的崛起被认为不仅是中国大模型与美国大模型的对抗，也是开源模型与闭源模型的对抗——答案显而易见，开源模型更胜一筹。以 50 款基座模型的更新速度来计算，2024 年中国大模型圈平均每个月发布或升级 4-5 个 AI 模型，其中 1/3 在 GitHub 与 Hugging Face 上开源。综合种种，不难推断，美国想要通过管制人才、芯片等方式来遏制中国 AI 技术发展的时代已经过去。海外需要接受中国技术创新力量的崛起是既定事实，国人也要对国产创新有更大的信心。黑马赛出，竞争生变雷峰网创始人林军在书写中国科技史的过程中，通过观察中国互联网与移动互联网的崛起，总结出一个规律，其认为：每个时代角逐到最后，往往只有四类企业各凭本事胜出，一类是靠资本 / 资源，一类靠商业模式，一类靠技术 / 产品的创新，以及永远有一类是所有人都想不到的黑马。这个规律可以对应 PC 互联网与移动互联网时代的所有终局者，AI 时代也大约不会有太大的变化。大模型的竞争还未尘埃落定，最终赢家还未确定，但 DeepSeek 无疑已经是业内公认的一匹黑马，其 V3 与 R1 带来的影响甚至远超 OpenAI 的 o1。根据相关消息，DeepSeek 至今仍未计划对外融资，其主要依托幻方与梁文锋个人输血，但对中国其他大模型公司的融资与战略也将带来不小的震撼。据笔者观察，春节期间不仅硅谷动荡，国内其他几家主流的大模型公司也在加班拆解 DeepSeek 的模型秘籍。DeepSeek 的崛起，肉眼可见将从以下几个角度影响中国大模型的竞争：首先是技术创新的天花板被拉高。DeepSeek 不是第一家提出「要在 OpenAI 以外创新」的大模型团队，此前其他国产大模型团队的创始人也提出过相似的观点，但 DeepSeek 是第一家通过发布新技术、身体力行践行了这一观点的团队。V3 证明了训练千亿基座大模型的成本可以进一步将下降，R1 的独创（如完全用强化学习替代 SFT）证明了 OpenAI 并不是唯一能够提出 AGI 解法的公司。尽管 GPT-5 迟迟未发布、大模型一度被认为已停滞不前，但 DeepSeek 在近两个月的研究突破表明：大模型的潜在技术空间仍然是非常大的。放弃预训练的团队，或许是资源不足，也或许是技术创新力不够。这也验证了大模型的技术创新在短期内存在高壁垒，应心存敬畏。其次是「高效训练」的概念将得到重视。在当前的第一梯队大模型公司中，「高效训练」并不占主流观点。例如，MiniMax 的大模型虽然也是采用 MoE 架构，但在其他高效训练的方法创新上不见明显发力。反而是第二梯队的面壁智能一度通过端侧模型引起业内关注。但在 DeepSeek 受追捧前，即使面壁智能、乃至一切企图颠覆 Transformer 架构的基座模型研究都不受重视。此前大算力训练是基座模型厂商融资与构建壁垒的竞争砝码，但 DeepSeek V3 的参数规模为 6710 亿、训练成本却不足 560 万美金，过去大算力出奇迹的粗放方式也受到了质疑。接下来，高效模型不仅是 DeepSeek、面壁与通义等开源拥趸的追求，在其他模型团队的优先级上也会更加靠前。高效训练的目标在于用更小的参数规模、更小的训练成本来实现更高的性能。以面壁小钢炮系列为例：MiniCPM 3.0 只有 4B 参数就能带来超越 GPT-3.5 的性能，量化后的内存仅 2GB；MiniCPM-o 2.6 的参数规模仅 8B 就逼近了 GPT-4o，而且实现了实时流式的全模态看听说，在 " 真视频 " 等很多功能上达到了以端胜云的效果。DeepSeek 有训练条件，此前传出有一万张卡，其做法是先做大再做小，而面壁智能由于融资与算力所限，并没有采取先做大再做小的方法，而是直接做端侧小模型。蒸馏后的小模型更擅长特定任务，在部分任务上的表现或不如通用模型，但在个人移动设备的部署上已绰绰有余。未来或许可以结合定制化芯片开拓出新的市场。此外，大模型技术与产品创新的分野会更明显。事实上，在 DeepSeek 火爆之前，大模型的应用与技术竞争就已出现分流；DeepSeek 火爆后，分野会更加明显，且由于 DeepSeek 的模型均是开源，交付模型的商业模式或将产生新的变动。在 2023 年到 2024 年上半年，由于基座模型的进展较慢，交付基座模型与行业模型的商业模式尚有利润空间。虽然这一模式没有打破 AI 1.0 的范式，但其对创业公司的迅速增收是十分有利的。但随着 Llama 等开源模型的兴起，加上 DeepSeek 的开源，模型中文任务能力的信息差也被打破，模型的商业价格在开源的免费价格前失去优势，商业模式也或不复存在。如前所述，DeepSeek 的技术创新仍具有高壁垒，而技术的创新根源还是在人才。国内最顶尖的计算机人才在清华，传闻 DeepSeek 的研究团队也主要以清北竞赛人才为主，这意味着能够继续参与基座大模型竞争的团队也将越来越精、同时越来越少。国内除了 DeepSeek，另外集结了较多清北毕业生的团队只有智谱、面壁、月之暗面与阶跃。这也意味着，2025 年，大模型创业公司的格局或许还会进一步生变。此外，2024 年字节跳动也重金挖了很多牛人，但字节本就财大气粗，不作更多讨论。除了技术创新，产品想象力将成为 2025 年与之后参与大模型市场的主要条件。除了技术创新，通过拢资源、商业模式与产品创新来取胜，也是更多创业团队的形势所驱。举例来说，MiniMax 虽然没有在技术上取得头筹、但其仍受到业界追捧的一个重要原因，就是在于产品与商业模式的创新，在 C 端与出海上都领先其他团队。如外媒报道属实，MiniMax 在 2024 年的营收超过 7000 万美金，将是国内营收最高的大模型创业公司。加上 DeepSeek 强大基座模型的开源，AI 产品的创新动力也会更大。卷不起基座模型的创业团队将更多的精力放在卷产品与应用上，也不失为市场的幸运。当前业内心照不宣的观点是：靠产品与商业模式取胜的前景远比技术创新取胜更大。以 AI 1.0 时代的一家独角兽为例，其上市前估值 2000 亿港币、开盘后 800 多亿，最低跌到 200 多亿，如今只有 500 多亿。如果单靠技术创新与传统的商业模式来盈利，多位 VC 认为技术驱动的大模型公司也无法打破上一代独角兽的天花板。雷峰网对于大模型企业来说，可参考的发展对象是上一代 AI 独角兽。因此，当前哪怕是智谱、阶跃等被视为技术主导的大模型公司在商业模式上也不断求新，并谋求突破 C 端的应用与收入。最后，是中美 AI 的较量会得到重新思考。随着 DeepSeek 与面壁等团队在高效训练上的成功实践，被 GPU 卡脖子的危机也将降低，国产模型与应用的更新自主性也会加大。如前所述，此前国产大模型在训练上受到 GPU 数量与规模的限制，大家在思考破局之路时也是首先从芯片端入手，但无奈国产芯片的进展迟迟无法替代英伟达。但 DeepSeek 的 V3 发布后，大家开始注意到：算法架构的创新同样可以实现大模型训练与部署的成本下降。雷峰网例如，DeepSeek 的 R1 采用了混合专家模型（MoE）、多头潜注意力（MLA）、多令牌预测（MTP）、长链式推理 ( CoT ) 、DualPipe 算法等设计，并进行了只采用 RL 而不作 SFT 的训练尝试，但在数学、代码、自然语言推理等任务上性能比肩 OpenAI o1 正式版。R1 的训练成本暂未披露，但不难推测其远远低于 o1 的训练成本。此前爆料 DeepSeek 的 GPU 卡规模是一万，这个数字比国内的许多大模型公司都多，可跟硅谷的多家巨头比是「小巫见大巫」，但也未见 Meta 等团队率先发布能够媲美 o1 的模型。同样，先不论 DeepSeek，此前面壁也曾用一个 2.4B 的小模型 MiniCPM 实现了对标 Llama 2 13B 的性能，而前者具体数据的配比、参数配置是用十分之一甚至更小的模型训练、预测出的。这种以小见大的路径证明了：当参数潜力被激发，小模型完全能使用更高效的训练方式实现更好的性能。届时，无论是 OpenAI、Anthropic 是否坚持闭源，或漂亮国坚持芯片出口的管制，在 DeepSeek、面壁这类团队的研发创新下，用更小的算力成本来独立开拓更强的 AI 模型都不再是天方夜谭，反而潜力与日俱增。再加上国内 AI 人才培养较之十年前已是另一番模样，且 AI 应用爆发后，擅长推理的国产芯片呼之欲出，国产 AI 的独立创新、快速落地实则早已孕育胎中。身处局中的我们，要学会的第一件事，或许就是：AI 技术的民族自豪感。雷峰网

koa12jJid0DL9adK+CJ1DK2K393LKASDad

编辑:宗敬先

TOP1热点：呼和浩特市农牧局致歉：邀请“李维刚”直播带货期间，对经销商审核把关不到位

董希淼提到，央行13日下调7天逆回购操作利率，传递出政策利率有所松动的迹象。随后，SLF和MLF利率也下降10个基点。政策利率下降，有助于进一步降低银行资金成本。。

在13日连涨期间，特斯拉股价累涨超41%，并屡次刷新八个月最高；6月刚过去一半，该股月内累涨近27%，2023年迄今股价翻倍并累涨近110%，而且华尔街还在不断提升特斯拉目标价。

TOP2热点：网红李维刚再回应“牛肉卷事件”：已送检并报案，先按假一赔十赔付

此外，据德国媒体周四报道，英特尔已经和德国政府接近达成协议，若英特尔大幅增加对德国工厂的整体投资，其将获得高达99亿欧元的补贴，大幅高于此前协定的68亿欧元。

TOP3热点：支付宝回应“打八折事故”：未发送资金追回短信，成本自担开过张的女生是不是一直想

“我们坚信，自动驾驶的机器人出租车可能比有生之年的任何其他事务都能改变社会，并占到特斯拉未来价值的70%以上。若对机器人出租车的需求激增，特斯拉市值或再增加1550亿美元。

针对当前经济运行情况，董希淼认为，下一步，还需尽快采取针对性的措施，稳住市场主体预期，提振市场主体信心，进一步提振消费和投资。

TOP4热点：新城市志｜国际航运中心建设，上海做对了什么？仙踪林国精产品视频

中金公司相关研报显示，央行“降息”已打头阵，后续可能会陆续迎来其他政策落地，不排除其他政策的推出可能也会较为靠前。目前，债券利率可能尚未充分计入足够宽松的预期，利率可能突破前期震荡慢牛的模式，转为加速下行，三季度债券利率创下年内低点的可能性正在抬升。此轮债券牛市具有长尾效应，虽然利率下行已有一段时间，但未来继续下行的时间可能还会很长。