艺术焦点-"明星造梦工厂入口"-CNBC专访分析：DeepSeek是中国的Cha明星造梦工厂入口tGPT时刻，他们不是在复制，而是在创新

CNBC专访分析：DeepSeek是中国的Cha明星造梦工厂入口tGPT时刻，他们不是在复制，而是在创新_ZAKER新闻

2003年换届时，因我被调到一个小镇任党委书记，因而对组织心生不满，进而懈怠工作，坐等换届。期间，前妻多次劝慰我要正确对待，但我不但听不进去，反而讨厌她多管闲事，甚至借题发挥与其离婚。其实，我这样做的真实目的，是想再婚生男孩，因为自己的思想深处一直都有传宗接代的封建观念。正是这个荒唐的大错引发了后来的许多错误，使得自己美好的家庭最终妻离子散，大好前程毁于一旦。

作者 | CNBC来源 | Z Potentials 管理智慧咨询合作 | 13699120588文章仅代表作者本人观点DeepSeek 效应正在不断发酵。英伟达暴跌近 17%，市值蒸发 5,927 亿美元，创下美股史上最大单日市值损失纪录。CNBC 用近一小时时间与北美最火的 AI 搜索独角兽讨论 DeepSeek 对全球人工智能产业的影响，也全面展示了美国当下的最真实心态，美国 AI 初创公司 Perplexity CEO 分析为何 DeepSeek 会引发人们对美国在 AI 领域的全球领先地位是否正在缩小的担忧。图片来源：CNBC" 需求是发明之母 "，Aravind Srinivas 谈起 DeepSeek，" 因为他们必须想办法绕过限制，最终实际上打造出了效率更高的东西。"在对话中，Aravind Srinivas 不仅分析了 DeepSeek 对美国 AI 的影响，对 DeepSeek 的创新给予了较高的评价，没有一味搞对立，还是比较中肯的。以下是对话原文（不影响原意的情况下翻译略有删改）：主持人：请描述中美之间的 AI 竞赛，以及其中的利害关系。Aravind Srinivas: 首先，中国在与美国的竞争中存在很多劣势。第一，他们无法获得我们这里能够使用的所有硬件资源。他们基本上在使用比我们低端的 GPU，几乎像是上一代的 GPU。由于更大的模型往往更智能，这自然让他们处于劣势。但另一方面，需求是发明之母。因为他们不得不寻找变通方案，最终他们实际上构建了更高效的解决方案。这就像说：" 嘿，你们必须构建一个顶级模型，但我不会给你们资源，你们得自己想办法。" 除非数学上证明这是不可能的，否则你总能尝试找到更高效的解决方案。这可能会让他们比美国找到更高效的解决方案。当然，他们有开源模型，我们也可以在这里采用类似的东西。但他们培养的这种人才将逐渐成为他们的优势。目前，美国领先的开源模型是 Meta 的 Llama 系列，它非常出色，几乎可以在你的电脑上运行。尽管它在发布时接近 GPT-4 的水平，但最接近质量的模型是巨大的 405B 参数模型，而不是你可以在电脑上运行的 70B 模型。因此，仍然没有一个既小又便宜、快速且开源的模型能够与最强大的闭源模型相媲美。然后，这些中国团队推出了一个疯狂的模型，API 价格比 GPT-4 便宜 10 倍，甚至比 Claude 便宜 15 倍，速度极快，并且在某些基准测试中与 GPT-4 相当，甚至更好。他们只用了大约 2048 个 H800 GPU，相当于 1500 到 2000 个 H100 GPU，这比 GPT-4 通常训练的 GPU 数量少了 20 到 30 倍。他们总共只花了 500 万美元的计算机预算，就做出了如此惊人的模型，并且免费公开了技术论文。主持人：当你理解他们所做的一切时，你的惊讶是什么？Aravind Srinivas: 我的惊讶是，当我阅读他们的技术论文时，他们提出了许多聪明的解决方案。首先，他们训练了一个混合专家模型（Mixture of Experts），这并不容易训练。主要原因是人们发现很难跟上 OpenAI 的步伐，尤其是在 MoE 架构上，因为存在很多不规则的损失峰值，数值不稳定，经常需要重新启动训练检查点。他们提出了非常聪明的解决方案来平衡这一点，而不需要额外的技巧。他们还提出了 8 位浮点训练，至少在部分数值上。他们巧妙地确定了哪些部分需要高精度，哪些部分可以低精度。据我所知，8 位浮点训练在美国并不常见，大多数训练仍然在 16 位进行，尽管有些人正在探索这一点，但很难做到正确。由于需求是发明之母，他们没有那么多内存和 GPU，因此他们找到了许多数值稳定的方法，使他们的训练能够顺利进行。他们在论文中声称，大部分训练是稳定的，这意味着他们可以随时重新运行这些训练，使用更多的数据或更好的数据。整个训练只花了 60 天，这非常惊人。主持人：你刚才说你很惊讶。Aravind Srinivas: 通常的认知是中国人擅长复制。如果我们停止在美国发表研究论文，停止描述我们的基础设施架构细节，停止开源，他们将无法赶上。但现实是，DeepSeek 3 中的一些细节非常出色，我甚至不会惊讶 Meta 会借鉴其中的一些内容，并将其应用到 Llama 模型中。这并不是说他们在复制，而是他们在创新。主持人：我们并不完全知道他们训练的数据是什么，尽管它是开源的，我们知道一些训练方式，但并不是全部。有一种观点认为，它是基于 ChatGPT 的公开输出训练的，这意味着它只是复制品。但你说它超越了这一点，有真正的创新。Aravind Srinivas: 是的，他们训练了 14.8 万亿个 token。互联网上有太多 ChatGPT 生成的内容，如果你现在去看任何 LinkedIn 帖子或 X 帖子，大多数评论都是由 AI 写的。甚至在 X 上，有 Grok 推文增强器，LinkedIn 上有 AI 增强器，Google Docs 和 Word 中也有 AI 工具来重写你的内容。如果你在这些地方写了东西并复制粘贴到互联网上，自然会带有一些 ChatGPT 的训练痕迹。很多人甚至懒得去掉 " 我是一个语言模型 " 的部分。因此，这个领域很难控制。所以我不会因为某些提示（比如 " 你是谁 " 或 " 你是哪个模型 "）而忽视他们的技术成就。在我看来，这并不重要。主持人：长期以来，我们认为中国在 AI 领域落后。这场竞赛对这场竞争有何影响？我们能说中国正在迎头赶上，还是已经赶上了？Aravind Srinivas: 如果我们说 Meta 正在赶上 OpenAI 或 Anthropic，那么同样的说法也可以用于中国赶上美国。事实上，我看到中国有更多论文试图复制 OpenAI 的成果，甚至比美国还多。DeepSeek 能够使用的计算资源与美国的博士生相当。主持人：你会将 DeepSeek 整合到 Perplexity 中吗？Aravind Srinivas: 我们已经开始使用它了。他们有 API，并且开源了，所以我们也可以自己托管它。使用它实际上让我们能够以更低的成本做很多事情。但我在想的是，他们实际上能够训练出如此出色的模型，这对美国公司来说不再有借口不去尝试类似的事情。主持人：你听到很多生成式 AI 领域的意见领袖，无论是研究还是创业方面，比如 Elon Musk 等人，都说中国无法赶上，因为赌注太大。谁主导了 AI，谁就将主导经济，主导世界。你对中国证明自己能够做到的事情感到担忧吗？Aravind Srinivas: 首先，我不确定 Elon 是否说过中国能赶上，我只知道他提到了中国的威胁。Sam Altman 也说过类似的话，我们不能让中国赢。我的观点是，无论你做什么来阻止他们赶上，最终他们还是赶上了。需求是发明之母。更危险的是，他们拥有最好的开源模型，而所有美国开发者都在基于此构建。那样的话，他们将拥有用户心智份额和生态系统。如果整个美国 AI 生态系统都依赖于中国的开源模型，那将是非常危险的。历史上，一旦开源软件赶上或超越了闭源软件，所有开发者都会迁移到开源。当 Llama 被构建并广泛使用时，人们曾质疑是否应该信任扎克伯格，但现在的问题是，我们是否应该信任中国？Aravind Srinivas: 从某种意义上说，这并不重要，因为你仍然可以完全控制它，你可以在自己的计算机上运行它，你是模型的主人。但对于我们自己的技术人才来说，依赖别人的软件并不是一个好现象，即使它是开源的。开源也可能有一天不再开源，许可证可能会改变。因此，重要的是我们美国自己有人才在构建这些技术，这就是为什么 Meta 如此重要。我认为 Meta 仍然会构建出比 DeepSeek 3 更好的模型，并将其开源。我们不应该把所有的精力都放在禁止他们、阻止他们上，而是应该努力超越他们，赢得竞争。这就是美国的方式，做得更好。我们听到越来越多关于这些中国公司的消息，他们以更高效、更低成本的方式开发类似的技术。这确实让人感到压力。Aravind Srinivas: 是的，如果你筹集了 100 亿美元，并决定将 80% 的资金用于计算机集群，那么你很难像那些只有 500 万美元预算的人一样，找到同样高效的解决方案。这并不是说投入更多资金的人没有尽力，他们只是试图尽快完成。当我们说开源时，有很多不同的版本。有些人批评 Meta 没有公开所有内容，甚至 DeepSeek 本身也并不完全透明。你可以说开源的极限是能够完全复制他们的训练过程，但有多少人真的有资源做到这一点呢？相比之下，他们在技术报告中分享的细节已经比许多其他公司多得多。主持人：当你想到 DeepSeek 做这件事的成本不到 600 万美元时，再想想 OpenAI 开发 GPT 模型花费了多少。这对闭源模型的生态系统轨迹、发展势头意味着什么？对 OpenAI 又意味着什么？Aravind Srinivas: 很明显，我们将拥有一个开源版本，甚至比闭源版本更好、更便宜。OpenAI 可能不会关心这是否由他们制作，因为他们已经转向了一个新的范式，称为 o1 系列模型。OpenAI 的 Ilya Sutskever 曾说过，预训练已经遇到了瓶颈。这并不意味着扩展已经结束，而是我们在不同的维度上进行扩展，比如模型思考的时间、强化学习等。OpenAI 现在更专注于让模型在遇到新提示时进行推理、收集数据并与世界互动，使用各种工具。我认为这是未来的方向，而不仅仅是更大更好的模型。我认为 DeepSeek 也会将注意力转向推理，这就是为什么我对他们下一步的成果感到兴奋。那么，OpenAI 的下一步是什么？我认为目前还没有人能够构建出类似 o1 的系统。尽管有人质疑 o1 是否真的值得，但在某些提示下，它的表现确实更好。至少他们在 O3 中展示的结果显示，它在竞争性编程中的表现几乎达到了 AI 软件工程师的水平。主持人：这是否只是时间问题，互联网上充满了推理数据，DeepSeek 也能做到？Aravind Srinivas: 有可能，但没有人知道。在它实现之前，不确定性仍然存在。主持人：到今年年底，推理领域是否会有多个玩家？Aravind Srinivas：我绝对认为是这样。主持人：我们是否正在看到大型语言模型的商业化？Aravind Srinivas: 我认为我们会看到类似的轨迹，就像预训练和后训练系统逐渐商业化一样。今年会有更多的商业化，推理模型也会经历类似的轨迹。最初可能只有一两个玩家知道如何做到，但随着时间的推移，更多的玩家会加入。谁知道呢，OpenAI 可能会在推理领域取得新的突破。现在推理是他们的重点，但技术进步会不断发生。随着时间推移，今天的模型所具备的推理能力和多模态能力，将会以更低成本的开源模型形式出现。唯一不确定的是，像能够在推理时进行思考的模型，是否能够便宜到足以在我们的手机上运行。主持人：感觉随着 DeepSeek 所证明的能力，整个 AI 领域的格局已经发生了变化。你能称之为中国的 ChatGPT 时刻吗？Aravind Srinivas: 有可能。我认为这无疑给了他们很多信心，表明他们并没有落后。无论你如何限制他们的计算资源，他们总能找到变通方案。我相信团队对他们的成果感到非常兴奋。主持人：这如何改变投资格局？那些每年花费数百亿美元在计算资源上的超大规模公司，以及 OpenAI 和 Anthropic 等筹集数十亿美元用于 GPU 的公司，DeepSeek 告诉我们，你并不一定需要那么多资源。Aravind Srinivas: 我认为很明显，他们会更加专注于推理，因为他们明白，无论他们过去两年在构建什么，现在都变得非常便宜，以至于继续投入大量资金不再合理。他们是否需要同样多的高端 GPU，还是可以使用 DeepSeek 那样的低端 GPU 进行推理？这很难说，除非被证明不行。但在快速前进的精神下，你可能会希望使用高端芯片，以便比竞争对手更快。最优秀的人才仍然希望加入那些最先实现突破的团队。总有一些荣耀属于真正的先驱者，而不是快速跟随者。主持人：这有点像 Sam Altman 的推文，暗示 DeepSeek 只是复制了别人的成果。Aravind Srinivas: 但你也可以说，在这个领域，每个人都在复制别人。你可以说 Google 最先提出了 Transformer，OpenAI 只是复制了它。Google 构建了第一个大型语言模型，但没有优先发展它，而 OpenAI 则将其作为优先事项。所以你可以说这些，但在很多方面，这并不重要。主持人：我记得我问过你，为什么你不想构建模型。你说那是一场极其昂贵的竞赛，而现在一年后，你看起来非常聪明，没有卷入这场竞争。你现在在大家想要看到的领域——生成式 AI 的杀手级应用——占据了领先地位。请谈谈这个决定，以及你如何看待 Perplexity 的未来。Aravind Srinivas: 一年前，我们甚至没有像 GPT-3.5 这样的模型。我们有 GPT-4，但没有人能够赶上它。我的感觉是，如果那些拥有更多资源和更多才华的人都无法赶上，那么参与这场游戏是非常困难的。所以我们决定玩一个不同的游戏。无论如何，人们都想使用这些模型，而一个方向是提出问题并获得准确的答案，附带来源和实时信息。在模型之外，确保产品可靠运行、扩展使用规模、构建自定义 UI 等方面还有很多工作要做。我们会专注于这些，并受益于模型变得越来越好。事实上，GPT-3.5 让我们的产品变得非常好。如果你在 Perplexity 中选择 GPT-3.5 作为模型，几乎很难找到幻觉。这并不是说它不可能发生，但它大大减少了幻觉的发生率。这意味着，提问、获得答案、进行事实核查、研究、询问任何信息的问题，几乎所有的信息都在网上，这是一个巨大的解锁。这帮助我们在过去一年中用户量增长了十倍。我们在用户方面取得了巨大进展，很多大投资者都是我们的粉丝，比如黄仁勋，他在最近的主题演讲中提到了我们，他实际上是一个经常使用的用户。主持人：一年前，我们甚至没有谈论商业化，因为你们还很新，只想扩大规模。但现在你们正在考虑广告模式。Aravind Srinivas: 是的，我们正在尝试。我知道这引起了一些争议，比如为什么我们要做广告，是否可以在有广告的情况下仍然提供真实的答案。在我看来，我们一直非常积极地思考这个问题。我们说过，只要答案始终准确、无偏见，并且不受广告预算的影响，你只会看到一些赞助问题。甚至这些赞助问题的答案也不受广告影响。广告商也希望你知道他们的品牌，并了解他们品牌的最佳部分，就像你在介绍自己时希望别人看到你最好的一面一样。但你仍然不必点击赞助问题，你可以忽略它。我们目前只按 CPM 收费，所以还没有激励你去点击。考虑到所有这些，我们实际上是在尝试长期做对的事情，而不是像 Google 那样强迫你点击链接。主持人：我记得一年前人们谈论模型商品化时，你认为这是有争议的，但现在这不再有争议了。这种情况正在发生，你关注这一点是明智的。Aravind Srinivas: 顺便说一句，我们从模型商品化中受益匪浅，但我们还需要为付费用户提供一些额外的价值，比如一个更高级的研究代理，能够进行多步推理，进行 15 分钟的搜索，并给出分析类型的答案。所有这些都将保留在产品中，不会有任何变化。但免费用户每天提出的 1 万亿个问题需要快速回答，这些必须保持免费。这意味着我们需要找到一种方法，使这些免费流量也能够货币化。主持人：你并不是试图改变用户习惯，但你正在试图教广告商新的习惯。他们不能像在 Google 的蓝色链接搜索中那样获得一切。到目前为止，广告商的反应如何？他们愿意接受这些权衡吗？Aravind Srinivas: 是的，这就是为什么他们在尝试与我们合作。许多品牌都在与我们合作测试。他们也很兴奋，因为无论喜欢与否，未来大多数人都将通过 AI 提问，而不是传统的搜索引擎。每个人都明白这一点，所以他们都希望成为新平台、新用户体验的早期采用者，并从中学习，共同构建未来。主持人：我笑了，因为这完美地回到了你今天一开始提到的观点：需求是发明之母。广告商们正在看到这个领域的变化，他们必须学会适应。Aravind Srinivas: 没错，这就是广告商们正在做的事情，他们说这个领域正在变化，我们必须学会适应。