体内㓔精69XXXXXx_实时访谈_满血版DeepSeek免费用，7种国产AI芯片打通！一条“中国特色”算体内㓔精69XXXXXx力路线浮出水面

满血版DeepSeek免费用，7种国产AI芯片打通！一条“中国特色”算体内㓔精69XXXXXx力路线浮出水面_ZAKER新闻

拿不出钱的王女士向纳雍县公安局求救。接到报警后，民警添加了阿贵的QQ，以便获取他的具体位置。看到民警QQ空间身穿制服的照片，阿贵立即删除了对方，“如果被公司看到我要被打死。”

智东西（公众号：zhidxcom）作者 | ZeR0编辑 | 漠影DeepSeek 的爆火，让一条 " 中国特色 " 的算力路线浮出水面。智东西 2 月 11 日报道，今日，AI 基础设施创企无问芯穹上线了满血版 DeepSeek-R1 的国产适配版，且正逐一打通 DeepSeek 模型在 7 家国产 AI 芯片上的部署与推理服务。至此，无问芯穹 Infini-AI 异构云大模型服务平台成为首个同时支持 DeepSeek 多芯片适配和推理的平台。开发者不仅能一键获取 R1、V3 模型，还将能选用来自壁仞科技、海光信息、华为昇腾、摩尔线程、沐曦、燧原科技、天数智芯这 7 家国产 AI 芯片品牌的算力。无问芯穹演示了在 Infini-AI 平台上顺畅调用 DeepSeek-R1 模型及沐曦 C550 AI 加速卡的流程和效果。这将 DeepSeek 擂响的 " 国产算力替代 " 战鼓声，推至新的高潮。比起仅仅比拼模型精度优势的竞速赛，时代的气运已经将 AI 竞赛的焦点，推向一场更大组织之间完整产业链实力的比拼。技惊四座的 DeepSeek 大模型，用一系列创新打破了 AI 算力的游戏规则，降低了训练顶尖模型所需的硬件门槛，令本土替代雄心高涨。但如何利用好 DeepSeek 模型带来的算力优化启示，高效盘活国产算力资源？这个难题依然待解。DeepSeek 引爆的国产算力狂欢能持续多久？狂欢过后，国产 AI 芯片的路又该如何往前走？其论文提出对未来硬件设计的发展建议对国产芯片有何参考价值？国产大模型的发展会对算力紧缺和算力闲置并存的现象产生何种影响？未来大模型训练的比拼是否会演变为系统能力主导？近日，智东西独家对话无问芯穹联合创始人兼 CEO 夏立雪，深入探讨在算力受限的条件下，国产模型、AI 芯片及智算产业如何从 DeepSeek 的成功汲取经验，通过精耕细作来降低算力成本，发挥出国内智算资源的实用价值。▲无问芯穹联合创始人兼 CEO 夏立雪一、用有限算力训练更大模型：解读 DeepSeek 的技术秘籍，如何做到对算力的极致利用？DeepSeek 大语言模型共发布了 3 个大版本，参数规模从 67B 扩大到 236B 再到如今 671B，所用的训练算力并未与模型尺寸等比例的成倍增长。在美国芯⽚封锁的背景下，DeepSeek 通过算法、架构、⼯程的软硬件协同优化创新，以有限算⼒、超低成本实现了性能比肩顶尖国外模型的国产模型，印证了软硬协同这一技术路线对推动 Scaling Law、突破算⼒瓶颈的有效性和巨⼤潜力。具体表现为两大类方法：一是深⼊到底层硬件的硬核优化——需要对底层的硬件有充分理解，并能够在硬件层⾯得到⾜够开放的软件⽣态。典型技术包括底层 PTX 编程、精细流⽔线编排、极致的内存优化。底层 PTX 编程：DeepSeek 团队通过⽐ CUDA 更底层的硬件接⼝编程实现更精细的通信任务管理，将跨节点通信的效率提⾼了 60%，比起 " 绕开 CUDA" 更像是 " 穿透 CUDA"。精细流水线编排：采⽤混合专家（MoE）结构，通过缩减模型激活参数量和限制通信范围，牺牲通信换取模型规模增⼤，再通过细致的计算通信编排，实现了通信时间和计算时间将近 100% 重叠，成功掩盖这些开销。极致的内存优化：通过参数共享、计算换存储、协同使⽤内存显存等技术，将显存需求量降低了 1/4 以上，有效改善显存开销对限制模型规模的影响。二是打通从算法到硬件的协同优化——需要对于从算法到硬件各层次都有充分理解，并具有极致的⼯程实现能⼒。典型技术包括：模型结构配合系统需求、使⽤更低精度训练、MoE 负载均衡。模型结构配合系统需求：修改标准 Transformer（存储⼤量计算中间结果会严重制约模型能处理的上下度），使⽤隐空间注意⼒计算机制 MLA，计算换存储，在有限显存中完成注意⼒计算。在⼏乎不损失算法精度的情况下，将显存占⽤量降低 1-2 个数量级。使⽤更低精度训练：通过算法上的精细分组量化、系统上 CUDA 核⼼与张量核⼼的并⾏计算，结合⼤量数据实验，率先实现了利用英伟达 H800 上 FP8 低⽐特计算单元训练出⾼质量模型，充分榨⼲硬件潜⼒。MoE 负载均衡：在 MoE 常⽤的负载均衡损失函数外，额外加⼊了限制极端情况的损失限制，并提出 Auxiliary-Loss-Free 技术减少负载均衡限制导致的模型精度损失，不仅将负载不均衡程度从超过 50% 降低到 5% 以内，也保证了 MoE 训练精度。⽂⻓依托于深厚的系统能力，DeepSeek-R1 是第⼀个成功使⽤强化学习实现推理能⼒增强、达到世界最优性能，并完全开源的类 OpenAI o1/o3 ⽅案。DeepSeek-R1-Zero 更是探索出一条全新的无需人类思考数据，直接自我迭代的技术路线，对大模型技术发展起到了深刻影响。二、DeepSeek 的软硬件优化策略，对国产算力产业有哪些启示？软硬件联合优化是连接硬件和算法的桥梁，区别于各种算法层面优化方法，和硬件本身迭代的方法，而是随着硬件变化，让软件也不断优化，或根据软件的迭代来定义未来的底层电路实现，以更好地⽀持 AI 算法的运⾏。夏立雪认为，DeepSeek 通过软硬件协同降低算⼒成本，给国内的启⽰在于这套⽅法论可以打破现在的闭环⽣态瓶颈。在美国，模型、系统、芯片三个关键因素已经形成闭环生态。而国内多数大模型是通过国外芯⽚（如英伟达）训练得到的，与国内的系统、芯⽚难以形成闭环。未来，中国需要依托国产模型、国产芯⽚、国产系统，形成⾃主可控的全国产 AI ⽣态闭环。实现这个⽬标需要分三步⾛：第⼀步，⾯向国外芯⽚开展极致的软硬件协同优化，以有限算⼒实现国产模型能⼒追赶国外模型。DeepSeek 已经成功完成了第⼀步的探索，依托极致的软硬件协同优化，⽤ 2048 块 H800 GPU 完成了 V3 模型的预训练，整体训练成本仅为 558 万美元。而海外训练同等能⼒模型所需的成本通常⾼达数千万美元。第⼆步，依托国产和国外芯⽚搭建 " 异构 "AI 系统，解决算⼒缺⼝以实现国产模型能⼒超越国外模型。据估算，OpenAI 正在研发的 GPT-5 模型的参数量预计是 GPT-4（参数量 1800B）的 5 到 10 倍，⾄少需要 5 万块 H100 GPU 进⾏训练。我国现有符合条件的算力储备和供给，距离实现自主可控的下一代模型能力超越，仍有较大算力缺口，需要搭建⼀套开放⽣态的异构 AI 系统，推动国产芯⽚⼚商开放底层软件⽣态，实现国产算⼒的优势资源集聚。第三步，构建国产芯⽚ " 同构 "AI 系统，软硬协同垂直打通实现国产模型 Scaling Law 的持续发展。国外闭环 AI ⽣态是⼀个同构的 AI 系统，核⼼竞争⼒在于 CUDA-X 的垂直整合能⼒。国内可通过调动跨越软硬件和上下游的⽣态，加⼤投⼊ " 模型 - 芯⽚ - 系统 " 协同优化和垂直打通。例如根据新⼀代模型架构来定义未来芯⽚的底层电路实现，根据国产 AI 系统的互联通信⽅式来设计⾼效的 MoE 模型结构，充分整合上层模型、中间系统、底层芯⽚的产业链资源，集中优势资源，助⼒实现国产模型 Scaling Law 持续发展。在夏立雪看来，未来大模型训练的比拼，要同时考虑算法精度、系统效率甚⾄是国家战略。这需要沿着软硬件协同的路径，考虑中美差异，兼顾模型、系统与芯⽚，最终实现模型训练和落地成本的指数级降低，去牵引更⼤范围的产业升级。三、国产 AI 芯片大练兵，用 " 系统自信 " 调动 " 算力自信 "对于国内智算产业来说，DeepSeek 是激励，更是绝佳的商业化试炼场。DeepSeek 刺激应用需求暴涨，激发了大量推理算力需求。几乎主流云厂商均已宣布提供 R1 模型服务，但全网还是很难找到服务不繁忙的 " 满血版 "。在推理需求愈发旺盛的背景下，国产算力还有很大被利用的空间。完善国内算⼒基建迫在眉睫。以前，国产 AI 芯片各行其是，各自豪言支持大模型部署，奈何观望者众多，实际使用者寥寥。现在 DeepSeek 相当于将 AI 芯片公司拉到同一个考场，给出统一考题：你的芯片能不能支楞起来？于是在短短 10 天内，20 家国产 AI 芯片企业摩拳擦掌，各显其能，争相适配或上线 DeepSeek 模型，以期抓住这千载难逢的增长机遇。这反映了中国当前特有的 AI 基础设施格局：有的是芯片和算力资源，只是没被利用起来。如何将大量不同架构的国产芯片变得能用、好用，并在使用过程中形成硬件与算法之间的正向循环？无问芯穹的策略是做异构云，即统筹模型和算力需求，把分散在不同地方的异构算力整合起来，实现不同模型和不同硬件之间的统⼀部署和联合优化，提供给需要算⼒和模型的客⼾。这种将异构算力资源统一转化成标准的算力服务、规模化复制的做法，有助于扩⼤国内⼤模型产业可⽤算⼒的范围，提升算⼒利⽤效率。无问芯穹由清华大学电子工程系教授、系主任汪玉发起，他带领的清华大学纳米集成电路与系统实验室高能效计算组（NICS-EFC）早在 2018 年总结出软硬件联合优化技术路线。无问芯穹联合创始人、CEO 夏立雪，联合创始人、首席科学家戴国浩，均毕业于 NICS-EFC；联合创始人、CTO 颜深根现任清华大学电子工程系副研究员。这些背景使得无问芯穹吸纳了 AI 基础设施领域的头部研发人才，足够了解在⼤模型各种场景下的异构计算卡性能，并与多家硬件公司有充分信任关系。其推理加速技术 Flash Decoding++ 通过异步⽅法实现注意⼒计算的真正并⾏，在 10+ 种芯⽚上实现⾏业第⼀推理加速效果。夏立雪谈道，做国产芯⽚适配的主要挑战来自硬件⽣态系统封闭且互不兼容，不同芯⽚有着不同的架构和相应⼯具链。比如⽤ A 卡的开发者，⽆法轻易迁移⾄ B 卡上展开⼯作，也很难同时⽤ A 卡和 B 卡做⼤模型训练或推理。如果⼀个算⼒集群中存在多种芯⽚，算⼒使⽤⽅会⾯临很多技术挑战，⽐如不同硬件平台适配不同的软件栈和⼯具链，需要为每种芯⽚定制和优化代码，令开发和维护的复杂性⼤增。去年 7 ⽉，无问芯穹就在业内⾸次实现千卡规模的 4+2 种芯⽚（天数智芯、华为昇腾、沐曦、摩尔线程与 AMD、英伟达）异构混训，集群算力利⽤率最⾼达到 97.6%，其运营算力已经覆盖全国超 13 座城市。据夏立雪分享，在不稳定的生态环境中，需要一个从算法、硬件到模型都深入理解的团队，无问芯穹便具备这样的全栈垂直优化能力。无问芯穹也在持续跟进业界领先的模型架构，未来如果有更专⽤的、针对模型结构的计算芯⽚出现，则可以更好地利⽤这些专⽤计算芯⽚，软硬协同优化，减少模型计算时间和硬件资源需求，降低⼤模型的开发应⽤成本。结语：产业链⾃主可控是长远之策，盘活国产智算资源一盘棋今年春节，DeepSeek 和《哪吒之魔童闹海》两匹国产黑马，扭转了中国企业技不如人的成见，也例证了只要实力强，自有不分国界的人鼓掌。西方的经验毕竟是过往，未必全对。在劈开算力封锁的路上，DeepSeek 踏出了成功的一步，接下来的 " 国产模型 + 国产算⼒ + 国产云服务 + 国产应⽤ " 全国产化 AI 之路，还要靠产业链上下游的生态伙伴合力闯出来。近期，MIT 科技评论的一篇《除 DeepSeek 之外值得关注的 4 家中国 AI 初创公司》报道引起广泛关注。无问芯穹是其中唯一一家专注于 AI 基建和算力供给、让现有算力资源发挥出价值的公司。DeepSeek 证明了利用有限算力加上软件和工程创新，足以做出强大的模型，也让国际意识到中国还存在若干路径独特的团队，正在探寻 " 用 Scaling Law 比拼模型精度的巨头竞赛 " 之外可能出奇制胜的路径。这些路径能够跨越软硬件，攒动上下游，从而产生意外的战略奇袭。最终，只有中国 AI 开发应用成本降下来、中国算力资源用起来，才能摆脱算力限制和算力闲置的掣肘，推动实现千行百业的大模型应用繁荣。

koa12jJid0DL9adK+CJ1DK2K393LKASDad

编辑:孙顺达

TOP1热点：什么才算是真正的『绝望』

齐齐哈尔市第三十四中学女子排球队。图片来源：学校微信公众号。

邱勇

TOP2热点：B站春晚来了，留着过年看

事实上，执政一年多以来，尹锡悦本人也屡屡因言“翻车”。7月21日，民调机构韩国盖洛普发布调查结果显示，尹锡悦的好评率为33%，差评率为58%，差评率创近两月来新高。现任总统妻子岳母接连被查，施政差评率创新高，“青瓦台魔咒”的阴影再度笼罩在韩国政坛……有学者向南都、N视频记者指出，尹锡悦居高不下的民调差评率已是常态，其本人习惯于发号施令不善于兼收并蓄，而且极为强势，在这种政治氛围下，尹锡悦政府内部自我调适的机制基本失灵。另外，尹锡悦的表现表明韩国政府外交能力的巨大下滑。