体育快讯-"不小心缩小掉进女生的午饭里"-不小心缩小掉进女生的午饭里抢夺资金、人才、用户，AI“六小虎”进入“破局时刻”

不小心缩小掉进女生的午饭里抢夺资金、人才、用户，AI“六小虎”进入“破局时刻”_ZAKER新闻

而阿里的每一次变革，都会引发一系列蝴蝶效应。其也在全员信中提到，每一次面向未来的主动变革，都给阿里巴巴带来了脉冲式的新发展。

编者按：DeepSeek 的爆火不仅掀起技术狂欢，更将中国大模型创业圈推入价值重估的十字路口。当行业开始追问 " 为什么大模型六小虎没有成为 DeepSeek" 时，更深层的行业洗牌暗流已然涌动。在这场价值重估多维度发酵之际，《科创板日报》将推出系列报道，追踪国内外基础大模型、AI 应用创业及投资的发展和变化，力求还原一个真实、全面且充满活力的大模型行业全景，为读者带来深度、专业且富有前瞻性的行业洞察。《科创板日报》2 月 16 日讯（记者陈美）一石激起千层浪。当 DeepSeek 以迅猛之势搅乱 AI 江湖的原有格局之后，之前独领风骚的 AI " 六小虎 " 正面临 " 破局 " 的关键时刻。某央企技术负责人对《科创板日报》记者表示，"DeepSeek 给业界指了 " 一条明路 "：使用以 GRPO 为代表的强化学习，加上高质量 Long CoT 数据，理论上可令任意通用大模型显著提升其推理能力；在部分细分领域，哪怕 1.5 参数量的模型，经训练后也可达到媲美 o1 的效果，这使得大模型训练与推理的算力资源成本大大降低。"最新消息显示，字节 CEO 梁汝波已反思 Deepseek，称跟进速度不够，今年要追求智能上限。OpenAl 首席执行官 SamAltman 也宣布 GPT 4o 升智，智力要达到 o3 pro 水平，并表示更新后的 GPT 4o 还是最好的 AI 搜索产品。这意味着 2025 年大模型领域，将迎来一场全方位的竞争。然而，面对单次预训练 300 万美元的烧钱门槛、8 位数年薪的人才争夺战、以及用户留存与投流成本的剪刀差，以及 DeepSeek 的搅局、大厂的追击，在资金储备、人才密度与用户增速的路上，AI" 六小虎 " 亟需自行探明。DeepSeek 来了，Kimi 首当其冲？在 DeepSeek 崛起之前，AI" 六小虎 " 在大模型领域崭露头角，吸引了大量资本注入。财联社创投通数据显示，2024 年 AI" 六小虎 " 融资火爆。其中，月之暗面先后完成超 13 亿美元融资，投后估值高达 33 亿美元，约 220 亿元；智谱同样表现亮眼，2024 年完成三轮融资，累计融资额保守估计超 40 亿元，估值水平也跻身 200 亿元水平。但高昂的训练成本，对于资金相对薄弱的 AI " 六小虎 " 而言，仍是巨大挑战；另一方面，为抢占用户心智的巨额投流，也让 C 端营销成本不断攀升。一位投资人告诉《科创板日报》记者，由于月之暗面的 Kimi 与 DeepSeek 均涉及国内 to C 领域大语言模型，且在技术路径上，Kimi 与 DeepSeek 完全不同。因此，在这波冲击中，Kimi 尤为受到关注。《科创板日报》记者了解到，在技术路线上，智谱、百川智能、零一万物、MiniMax、阶跃星辰，与 DeepSeek 一样，都采用了 MoE（混合专家）模型，进行训练。在 C 端产品对垒中，DeepSeek-R1 模型发布的同一天，1 月 20 日 Kimi 也发布了 Kimi k1.5，并强调超长逻辑链能力，将强化学习的上下文窗口扩展到 128k。一位不愿具名的投资人向《科创板日报》记者分析，"128k 是指模型‘窗口’的大小，虽然含义是 12.8 万个 token，但考虑到输出性能，比如背后调用多少算力，且每家模型的 token 计费逻辑不同。在 DeepSeek 开源情况下，对应 Kimi 的投流，Kimi k1.5 的总体成本应该高于 DeepSeek。"" 此外，DeepSeek 的‘思考’部分很长，在用户提出同样问题时，DeepSeek 的输出长度可能是别人的好几倍。这也可能使得 Kimi 即便投流，依然陷入获客成本很高的境地。"用户活跃度上，Kimi 的 C 端领域标杆产品，月活已受到冲击。第三方榜单显示，1 月份，豆包以 7861 万 MAU 位列大模型 C 端产品榜首；第二名则是 DeepSeek，为 3370 万 MAU；Kimi 则位列第三，MAU 为 1943 万。或许正因如此，在原金沙江投资人、月之暗面联合创始人张予彤也做出发声。近日，她在朋友中圈称，很高兴 Kimi 新版本上线后用户量又创新高：一是长文本 + 推理，让搜索问答更全面，及时、准确；二是多模态能力，文字 + 图像输入，让 Kimi 能看懂现实世界的复杂问题。" 创新基础模型架构 " 打响人才、资金之争在各公司纷纷接入 DeepSeek 之时，对于大模型创业公司来说，逼迫 " 基础模型架构创新 " 的时刻已到来。多位投资人告诉《科创板日报》记者，大模型的核心依然是技术创新。" 这需要加大研发投入，探索多模态融合、强化学习等新技术路径，以提升模型性能和智能化水平。"归根结底，这是一场 " 人才 " 的竞争。某产业机构投资人士表示，人才的价值，一是在于能及时调整和优化模型，寻找新的架构方向。此次字节这么快推出全新模型架构，依赖的也是人才的壁垒，让企业 " 跑得更快 "；二是，面向应用端的有效落地，比如 AI for Science、AI 陪伴，AI 视频等，顶尖人才的汇聚，能够在高价值领域快速构建价值产品，实现商业模式快速验证与直接创收。字节得以迅速推出的稀疏架构，很大程度上也得益于它在 AI 人才上的积累。2024 年，张一鸣已亲自下场挖人，包括原阿里通义千问大模型技术负责人周畅加入字节，年薪高达 8 位数。此外，零一万物原联合创始人和预训练负责人黄文灏也选择加入；智谱 AI 等公司中多名顶尖 AI 工程师和研究人员也被传已跳槽至字节。引领当前行业风潮的 DeepSeek，更是以擅于挖掘人才著称，并且仍在以百万年薪 " 招兵买马 "**。而 DeepSeek 创始人梁文峰，本身也是浙大 " 学霸 "，为 " 极致技术理想主义者 "。此外，传统大厂庞大的研发团队、海量数据资源，也让 " 六小虎 " 感到压力。" 尤其是，大厂们不断推出 AI 新产品和服务的能力，以及在基础设施建设、产学研合作等方面优势明显，让行业竞争加剧。" 上述产业机构投资人士认为。与此同时，资金实力也是不下 " 牌桌 " 的关键一环。李开复曾公开透露，一次预训练成本约三四百万美元，即便是成本更低的 Yi-Lightning，在训练时也用了 2000 张 GPU，耗时一个半月，花费三百多万美元。这意味着在大模型预训练上，烧钱是公认的事实。在这方面，相较于 " 六小虎 " 而言，大厂、DeepSeek 均实力雄厚。多位投资人表示，" 由于有了成本比较，大模型创业公司的后续融资，或许与预期算力消耗有关 "。双重夹击下的 " 破局 " 时刻DeepSeek、大厂的双重夹击，让 AI " 六小虎 " 不得不寻找 " 破局 " 之法。零一万物已做出选择。在年初回应部分团队并入阿里的消息的采访中，李开复表示，去年 5 月发布 Yi-Large 模型时，团队已经意识到，模型在速度和性价比上存在不足，并在当时就决定放弃了原计划开发的超大杯模型 Yi-X-Large。随着进入 B 端市场，李开复认为，零一万物 2025 年的机会是挖掘 To B 大模型的 PMF。智谱 CEO 张鹏在回复《科创板日报》记者采访时称，" 将 All in AGI，其他的都是路径。而在路径上，智谱 AI 每天都在优化。"MiniMax 方面，1 月 15 日，其已发布并开源新一代 01 系列模型，相比 Kimi k1.5 的 12.8 万个 token，01 系列模型支持最多 400 万个 token 的上下文输入；百川智能则专注于大模型在医疗领域的应用落地，近期其与国家儿童医学中心北京儿童医院签署战略合作协议，双方计划共同推出 " 一大四小 " 共 5 款 AI 医疗产品。某央企技术负责人在接受《科创板日报》记者采访时表示，"DeepSeek 的模型架构和训练模式，证明了大模型在推理过程中，可生成大量高质量训练数据，这再次印证了行业对‘合成数据’的价值共识，即构建的模型越被使用，高质量数据越多。"" 因此，谁拥有更多用户，谁就将拥有更多高质量的数据，实现‘左脚踩右脚’式的模型迭代。" 该央企技术负责人称，也正是这种 " 自我强化 " 飞轮效应，使得 DeepSeek 实现了 " 正循环 "，并以相对优势持续突破技术天花板。在融资上，另有投资机构人士对《科创板日报》记者表示，面对 DeepSeek 技术、开源的优势，AI ‘六小虎’亟需证明自己的产品，特别是 " 用户数 " 和 " 留存用户数 " 两个关键指标。如果没有规模增长用户留存数，其产品、技术、模型能力可能受到质疑，为后续融资埋下隐患。另一产业机构投资人告诉《科创板日报》记者，大模型的 " 特色价值 " 是关键：" 估值的下限是企业实力与影响力。对大模型企业而言，一定要从最基础、最本质的模型下手，提升模型效果，使得其在高价值场景的具有突出能力、牢固占据板块，拥有稳定的市场基本盘（即用户数），而这通常要求企业有强大的资金储备或融资能力，且与成本优化、人才队伍及企业愿景息息相关。"" 大模型公司估值的上限，则是企业服务的应用领域。大模型本身不是创收与壁垒的高地，只有聚焦高价值应用场景，比如医药领域 AI For Science 等，并在市场形成稳固的产品与业务壁垒，才是获取资本信任与长期价值的关键。"在这方面，智谱、百川智能已在采取进一步行动，除了在自身业务上聚焦外，这两家公司还纷纷成立投资基金，以带动产业链上下游，以推进应用场景的落地。