美国人与畜禽Croproation365_娱乐动态_Meta首席AI科学家杨立昆演讲：当前处于AI什么阶段，以美国人与畜禽Croproation365及我们距离实现真正通用AI还有多远？

Meta首席AI科学家杨立昆演讲：当前处于AI什么阶段，以美国人与畜禽Croproation365及我们距离实现真正通用AI还有多远？_ZAKER新闻

两岸关系发展根基在民间，动力在人民。两岸一家人是与生俱来的天然基因，走近走亲、常来常往是骨肉同胞的朴素愿望。海峡论坛专为两岸基层民众交流而创设，始终坚持“民间性、草根性、广泛性”的定位，不断丰富内涵、创新形式、提升实效，已成为规模最大、涉及范围最广的两岸民间交流盛会，深受广大同胞认可，被誉为跨越海峡的“百姓论坛”。

The following article is from AI 深度研究员 Author AI 深度研究员第二期华夏基石数智时代领导力特训营热招中！报名即送十月管理论坛名额一个！价值 12800 元！来源 | AI 深度研究员，管理智慧咨询合作 | 13699120588文章仅代表作者本人观点，图片来源于 pixabay人工智能 ( AI ) 正在飞速发展 , 但我们距离实现真正的人类水平 AI 还有多远 ? 为了深入探讨这个问题 , 最近 "AI 未来论坛 " 上我们有幸聆听到了 AI 领域的顶尖专家杨立昆 ( Yann LeCun ) 教授的一些个人独家观点。杨立昆是 Meta 公司的首席 AI 科学家和 Facebook AI 研究院 ( FAIR ) 的领军人物 , 同时也是纽约大学教授。他在 AI 领域贡献卓著 , 曾获 2018 年图灵奖等多项殊荣 , 并当选为美国国家工程院院士。近年来 ,AI 技术取得了显著进展 , 尤其是自监督学习技术的崛起让我们看到了希望。自监督学习的核心在于训练系统有效表示输入数据 , 而非针对特定任务。然而 , 现有的语言模型在推理能力和处理连续数据等方面仍存在局限。要实现真正的人类水平智能 , 我们仍需突破一些关键技术瓶颈。杨立昆认为 , 这一目标的实现可能需要几年到几十年的时间 , 其难度可能超出我们的想象。尽管如此 , 他相信机器终将超越人类智能。在本次演讲中 , 他将深入探讨 AI 发展的现状、挑战及未来展望。今天我要讲的是人类水平的人工智能，或者说我们如何实现它，以及为什么我们现在还达不到这个目标。首先，我们确实需要具备人类水平的 AI，因为未来大多数人可能都会戴着智能眼镜或其他设备与之交流，这些设备会有助理系统，也许不止一个，而是一整套虚拟助手。这意味着每个人都会有一群智能的虚拟助手为其服务，尽管这些助手不是实际的真人。智能的虚拟助手我们需要打造这些系统，以扩展人类的智能，提升人们的创造力和生产力。为此，我们需要能够理解世界的机器，它们要能够记住事情，拥有直觉和常识，能够像人类一样推理和规划。然而，尽管有人可能声称现有的 AI 系统已经能够做到这些，但实际上，当前的 AI 系统根本无法实现这些功能。我们需要的系统是那些能够学习并建立世界模型的系统，它们需要有关于世界如何运作的 " 心理模型 "。实际上，所有动物都有这种模型，比如你家的猫，它的世界模型比任何现有的 AI 系统都要复杂得多。当前的 AI 系统还缺乏持续的记忆能力，无法像人类一样规划复杂的行动序列，也无法做到完全可控和安全。因此，我提出了一种叫做 " 目标驱动的通用 AI"（Objective-driven AI）的架构，我两年前写了一篇关于这个构想的文章，并在 FAIR 内部得到了很多人的响应。现在，FAIR 更加注重于长期的、下一代 AI 系统的研究，而不再专注于当前的语言模型。近年来，AI 技术的成功，尤其是自监督学习技术的崛起，让我们看到了一些希望。自监督学习的核心思想是让系统不是为了某个特定任务进行训练，而是为了能够以某种有效的方式表示输入数据。比如，你可以通过让系统从损坏的数据中重建完整的输入来实现这一点。但现有的语言模型在很多方面仍存在局限，特别是在推理能力和处理连续数据上的不足。要想真正实现人类水平的智能，我们仍然缺少一些关键的技术。我这里并不是在谈论人类水平的智能，但即便是你的猫或狗，它们也能完成一些令人惊叹的壮举，而这些事情目前的 AI 系统仍然无法做到。比如，任何一个 10 岁的孩子只需要一次就能学会收拾餐桌并装满洗碗机，根本不需要反复练习。而一个 17 岁的青少年通常只需大约 20 小时的练习就能学会开车，但我们仍然没有能够实现完全自动驾驶的 5 级自动驾驶汽车，也没有能够帮忙清理餐桌、装洗碗机的家用机器人。这说明我们确实缺少了一些关键的东西，否则我们应该早就能用 AI 系统完成这些任务了。我们经常碰到一个叫做 Moravec 悖论的现象，即那些看似对我们来说微不足道、不需要智能的任务，对机器来说却非常困难，而那些高层次的、复杂的抽象思维，比如语言处理，反而对机器来说很容易，比如下棋或围棋等。大型语言模型也许这背后的原因之一是这样的：一个大型语言模型（LLM）通常在 20 万亿个词元（tokens）上进行训练。一个词元大约是四分之三个单词，而 20 万亿个词元大约是 1.5 乘以 10 的 13 次方的单词。这相当于大约 6 乘以 10 的 13 次方字节的数据，而普通人一生都不可能读完这些数据，这基本上就是互联网上所有公开的文本。然而，一个 4 岁的小孩在其生命中清醒的时间大约是 16,000 小时，这相当于大约 30 分钟的 YouTube 视频上传量。而我们每个人的视神经大约有 200 万个神经纤维，每根纤维大约每秒传输一个字节，或者大约每秒半个字节。这些数据量大致在 10 的 14 次方字节左右，和大型语言模型的训练数据量处于同一个数量级。所以，这表明，仅靠文本训练是不可能达到人类智能水平的。我们还需要训练 AI 系统去理解常识和物理直觉，可能通过看视频或在现实世界中学习。系统通过找到与输入最匹配的输出值来计算输出。你可以想象这个目标是某种能量函数，然后你通过对输出进行优化来最小化这个能量。可能会有多个解，系统可以通过某种方式在这些解中进行选择。人类的感知系统也会有类似的处理方式，当你对某个感知有多种解释时，大脑会自动在这些解释之间循环切换。这方面确实有一些证据表明此类现象存在。接下来，我回到架构的讨论。根据通过优化进行推理的原则，人们的思维方式可以假设为这样：你对世界进行观察，感知系统给你提供当前世界状态的一个想法，但它只能给你当前能够感知到的部分状态。你可能会根据记忆对世界的其他状态有所了解，这些记忆会与当前感知结合，被输入到一个世界模型中。什么是世界模型呢？世界模型就是你对世界如何运作的心理模型。你可以想象自己采取的某些行动序列，并通过世界模型预测这些行动对世界的影响。你把假设的行动序列输入到世界模型中，它会预测世界的最终状态，或者整个世界状态的变化轨迹。然后，系统会将这些预测结果输入到一系列目标函数中，其中一个目标函数是衡量任务的完成度，其他目标则是一些 " 安全护栏 "，用于衡量这些行动是否对机器人或周围的人类是安全的。推理能力推理过程是这样的：不是通过学习，而是通过找到最优的行动序列来最小化这些目标。你可以通过搜索离散的选项来实现这一点，但这种方式效率不高。更好的方法是让所有的模块都是可微分的，然后通过梯度下降法更新行动序列。这个想法其实并不新，已经有超过 60 年的历史了，特别是在最优控制理论中，这种方法被称为模型预测控制。你有一个系统模型，比如火箭、飞机或机器人，你可以利用世界模型计算一系列控制命令的效果，然后优化这些命令，使运动达到你想要的目标。传统的机器人运动规划就是这样完成的。新颖之处在于，我们现在要学习世界模型，并学习感知系统，以提取适当的抽象表示。在这个过程中，你可以构建一个包含所有这些组件的 AI 系统：世界模型、目标函数、演员模块（用来找到最优的行动序列）以及记忆和感知系统等。如果你的行动不是单个的，而是一系列行动，世界模型可以告诉你，在时间 T 的世界状态下，采取某个行动后，时间 T+1 的世界状态会如何变化。你可以多次运行世界模型来预测多个行动的效果，最终通过梯度优化找到能最小化成本的行动序列。潜变量（latent variables）基本上是可以在一组值中切换或从分布中抽取的变量，它们使得世界模型能够在多个与观察结果兼容的预测之间切换。因为世界并不是完全可预测的，所以在做出预测时，你可能需要处理这种类型的不确定性。更有趣的是，人类和许多动物能够进行层次规划。例如，如果你计划从纽约到巴黎的旅行，你可以使用你自己的世界模型，规划从现在的位置到巴黎的整个过程。但你不会详细到每一步都涉及低级的肌肉控制，对吧？你不会每 10 毫秒就计划一下要控制哪些肌肉来移动，而是进行更高层次的规划。举个例子，你计划去巴黎时，首先会想到要去机场乘飞机。为了去机场，你可能会考虑如何打车，这就是较高层次的计划。然后，你再细化到如何从椅子上站起来，走到门口，按电梯按钮等等。这种分层规划在 AI 系统中如何实现，目前完全没有解决方案。我们需要如何去学习拥有多层次抽象能力的世界模型呢？这是一个大挑战。人类和动物在非常小的时候就开始学习关于世界的基本概念，比如直觉物理。心理学家和认知科学家研究发现，婴儿在学习语言之前，就已经开始理解一些基本的物理现象。比如，婴儿很早就能分辨出动物和非动物的运动方式。物体的恒常性，即当一个物体被另一个物体遮挡时，它仍然存在，这也是婴儿早期学会的概念。再比如，关于重力、惯性和动量的概念，婴儿通常要到九个月大左右才能理解。如果你给六个月大的婴儿展示一个场景，比如一个小车从平台上推下去但却漂浮在空中，六个月大的婴儿可能不会注意到。但如果是十个月大的婴儿，她会惊讶地看着这个场景，因为她已经理解了物体应该掉下来。如果事情的结果出乎意料，这意味着她的世界模型有问题，因此她会更加注意，因为这可能会影响她的安全。神经网络训练我们需要的学习方式非常类似于我们之前提到的自监督学习。比如，给系统输入一个视频，破坏其中的部分内容，然后训练神经网络去预测缺失的部分。如果我们能训练系统像预测文本一样预测视频中的内容，或许它们就能学会常识。坏消息是，我们已经尝试了十年，但目前完全没有成功。我们从未成功开发出能真正通过预测视频像素来学习一般性世界知识的系统。虽然有一些生成漂亮视频的系统，但它们并没有学到真正的常识。但实际上，这些生成模型并不能很好地模拟物理世界，它们无法用来解决这个问题。我们曾经尝试通过生成模型预测视频中的下一帧，并期望系统能 " 神奇地 " 理解世界的结构，然而，这完全失败了。我们尝试了很多方法，历时十年，但都未能成功。失败的原因是，未来有很多种可能性，而在离散空间（如文本中），虽然我们无法确切预测下一个词是什么，但可以生成所有可能词的概率分布。然而，对于视频帧，我们没有一种有效的方式来表示视频帧的概率分布。实际上，这个任务几乎是不可能的。比如，我拿着摄像机拍下这个房间的一部分，然后停下视频，接着让系统预测接下来会发生什么。系统可能会预测房间的剩余部分，有墙，有坐着的人，密度可能和左边的区域相似，但它绝不可能在像素级准确预测你们每个人的长相、墙的纹理以及房间的具体大小等细节。这些都无法准确预测。为了解决这个问题，我提出了一种称为 " 联合嵌入预测架构 "（Joint Embedding Predictive Architecture, JEPA）的方法。这个想法就是放弃像素预测，而是学习一个抽象表示，然后在这个表示空间中进行预测。具体来说，这个架构通过编码器对输入的被损坏版本进行处理，得到一个表示；然后对目标也进行编码，得到另一个表示，接着让系统根据输入表示来预测目标表示。而这个过程的关键是防止系统 " 崩溃 "，即学到一个恒定的表示，因为这会使预测变得过于简单但没有信息量。实际上，我们已经有大量的实验证据表明，在图像表示学习方面，最好的方法就是使用这种联合嵌入架构。所有试图通过重建来学习图像表示的方法效果都不好。曾经有很多大型项目宣称这些方法有效，但它们实际上并不奏效。最好的表现总是来自于使用联合嵌入架构的模型。如果你思考一下，实际上这就是智能的本质——找到一个好的表示，使我们能够进行预测。这也是科学的精髓。比如，如果你想预测行星的轨迹，尽管行星是一个非常复杂的对象，有气象、温度、密度等许多复杂的因素，但要预测它的轨迹，你只需要知道六个数字：三个位置和三个速度，这就足够了。因此，预测的本质在于找到一个良好的表示。为了防止系统 " 崩溃 "，我们需要一个成本函数来衡量从编码器输出的表示的 " 信息量 "，同时最小化表示空间中的预测误差。这样系统就能在信息提取和预测之间找到一种平衡。不过，衡量信息量的方式非常复杂，涉及到一些数学理论，比如训练基于能量的模型和能量函数，但我今天没有时间详细讲解这个部分。总的来说，我的建议是：放弃生成模型，转向这种联合嵌入预测架构，放弃概率模型，转向基于能量的模型，也放弃对比学习方法。强化学习我之前没提到这个，因为马上会讲到这个话题，还会涉及到强化学习。不过，我已经讲了十年了，这也是当前机器学习的四个最受欢迎的支柱之一，所以目前我并不太受欢迎（笑）。其中一种方法是估计编码器输出的信息量，目前有大约六种方法可以实现这一点。我还漏了一种叫做 MMCR 的方法，它是我在纽约大学和 Flatiron 的同事提出的。这个想法是防止系统 " 崩溃 " 并生成常量。我们需要确保从编码器输出的变量有非零的标准差。你可以通过在一组样本上应用一个成本函数，确保这些变量不会变成常量。这听起来很简单，但是系统可能会 " 作弊 "，让所有变量相等或高度相关。因此，我们需要加入另一个项，最小化这些变量的协方差矩阵的非对角线项，以确保它们不相关。当然，这还不够，因为变量可能依赖但不相关。于是我们采用了另一个技巧，将 Sx 扩展到更高维度的 Vx，然后在这个空间中应用方差协方差正则化。这种方法似乎有效，但实际上我在这里最大化的是信息量的上限，我希望实际信息量也会随之增加。然而，我们并没有信息量的下限，也不知道如何计算它。另一套方法叫做蒸馏方法，它的工作原理非常神秘。如果你想知道它具体是如何工作的，可以去问坐在这里的 S. Guli，他写了一篇相关的论文。我自己也有些疑惑，但它效果非常好。这种方法的核心是只更新架构的一半，而不在另一半上反向传播梯度，同时以一种特殊的方式共享权重。有很多论文表明，这种方法在完全自监督学习的图像表示上效果很好，尤其是当图像的破损部分被遮盖时。我们最近也有一些关于视频的工作，通过遮盖视频中的部分内容，在表示空间中进行预测，并利用蒸馏技巧防止系统崩溃。这一方法也效果显著。未来，如果我们成功实现这些目标，并最终开发出能够推理、计划并理解物理世界的系统，可能需要几年甚至几十年才能全部实现。马克 · 扎克伯格一直问我需要多长时间才能做到这一点（笑）。如果我们成功，这些系统将成为我们与数字世界互动的中介，它们将随时为我们提供解答，成为人类知识的储存库。这些 AI 平台将会像互联网一样，成为一种基础设施，而不是一种产品。这些 AI 平台必须是开源的，我不需要向 IBM 的人解释这一点，因为 IBM 和 Meta 是 AI 联盟的一部分，推动开源 AI 平台。我们需要这些平台开源，因为我们需要让 AI 助理能够理解世界上的所有语言、文化和价值观。而这不可能仅靠一家美国公司来实现。训练和微调 AI 模型非常昂贵，只有少数几家公司能够做到这一点。如果像 Meta 这样的公司能够提供开源的基础模型，世界各地的公司就可以根据自己的需要对它们进行微调。因此，开源 AI 不仅仅是个好主意，它对于文化多样性，甚至是民主的保护，都是必要的。总之，训练和微调将由整个生态系统中的初创企业和其他公司完成。AI 初创公司的蓬勃发展，正是得益于这些开源 AI 模型的出现。要达到人类水平的 AI 可能需要几年到几十年，这中间有许多问题需要解决，几乎可以肯定这比我们想象的要难。机器确实会超越人类的智能，但它们将会被控制，因为它们是目标驱动的。我们赋予它们目标，它们就会完成这些目标。原视频链接：https://www.youtube.com/watch?v=4DsCtgtQlZU&ab_channel=Hudsonforum

koa12jJid0DL9adK+CJ1DK2K393LKASDad

编辑:李秉贵

TOP1热点：人事时间｜全国社保基金理事会党组书记一般由谁担任

“三明医改已启动11年。以增进人民群众健康为目标，三明将把全民健康管理作为深化医改的重中之重，努力为人民群众提供更好的医疗卫生和健康服务。”三明市副市长张元明说。。

新华社厦门6月17日电（记者许雪毅、陈键兴、邓倩倩）第十五届海峡论坛在福建登场，论坛大会17日在厦门隆重举行。这是大陆疫情防控平稳转段后举办的规模最大两岸民间交流盛会。跨过浅浅海峡，台湾各界朋友前来共聚一堂，两岸同胞相见甚欢，互道“好久不见”，场面温馨感人。

TOP2热点：体坛联播｜欧冠小组赛结束，曼城惊险出线附加赛或遭遇皇马

他们努力拼搏肯奋斗——

“两岸年轻一代要肩负起历史责任，共同为中华民族伟大复兴而努力奋斗。”台湾青年张立齐表示，民族复兴、国家统一是大势所趋、大义所在、民心所向。习近平总书记的贺信让自己的目标更加明确、信念更加坚定。

TOP3热点：NBA篮网队举办中国春节赛，驻美大使谢锋到场狗狗配人怎么配

人民网拉萨6月18日电（韦衍行）流光溢彩的唐卡艺术、工整严谨的藏文书法、花样繁复的藏毯编织……在第五届中国西藏旅游文化国际博览会上，荟萃着众多文物和非遗的“文化西藏”展区吸引了许多参观者的目光。

中国贸促会会长、中国国际商会会长任鸿斌表示，APEC作为亚太地区重要的经济合作机制，在推动亚太区域经济体交流合作、深化区域经济一体化等方面发挥了重要作用。希望亚太工商界继续助力全球经济增长，打造稳定畅通的全球产业链供应链；秉持可持续发展理念，推动亚太绿色低碳发展；坚守合作初心，支持深化亚太区域经济一体化进程。中国贸促会将充分发挥联通政企、融通内外、畅通供需功能，织密服务企业网，扩大国际朋友圈，积极推动中国工商界深入参与APEC合作，为推动构建亚太命运共同体作出新的更大贡献。

TOP4热点：钱多事少离家近，不断“向下就业”的内马尔才是人生真赢家？好吊视频一区二区三区

6月5日下午，一场备受青年教师关注的制度宣讲会在清华大学第二教学楼举行。

郭召芬表示，直播等新模式加速了线上线下消费融合，也将极大激发中小商家发展活力。为进一步促进消费对经济增长的拉动作用，她建议，对低收入群体、弱势群体等定向发放消费券、补贴；加强中高端消费基础设施、产品服务等供给能力；推动汽车、家电、家居等的循环消费；并引导加大对绿色低碳、数字科技、适老化产品的研发生产。

TOP5热点：第一个上春晚的外卖诗人，为春节写下了这些诗老婆出轨时给老公打电话

抚远市黑瞎子岛探秘野熊园里的黑熊。本报记者闫汇芳摄

TOP6热点：超17亿！蛇年大年初一票房打破中国电影史单日票房历史纪录开过张的女生是不是一直想

“每年五四前后，这个时间我是留给青年人的”。习近平总书记为自己定下的“日程”，体现着青年在他心中的分量。

人民网北京6月17日电（记者杨迅）由中国贸促会、中国国际商会主办的2023年APEC工商领导人中国论坛17日在京举办，主题为“创造更高质量的可持续发展”。亚太经合组织（APEC）各经济体政商学界代表共350余人出席论坛。

TOP7热点：机构：1月百强房企拿地总额同比增四成，土地市场点状回暖态势显著狗狗配人怎么配

不久后，在10月31日举行的联合国大会第三委员会会议上，60多个国家作共同发言，支持中方在涉疆、涉港、涉藏问题上的立场，反对以人权为借口干涉中国内政。另有30多个国家以单独发言、联合致函等方式支持中国。

上海兴业路76号，沐浴在晨辉中的石库门，青砖黛瓦、庄严肃穆，朱红窗棂历经百余个春秋却芳华依旧。

TOP8热点：澎湃AI晚新闻丨2025年1月28日怎么奖励自己的隐私位置

首场考试共有来自港九新界30所小学的114名小一至小六考生报名参加，由经专业培训且取得资格认证的国家级测试员面对面以口试形式进行考核，通过朗读音节、朗读字词、朗读句子或短文、聆听理解或复述、命题说话等项目准确评定考生普通话的水平等级。

TOP9热点：塞尔维亚总理辞职，总统武契奇：不会设立过渡政府天美麻花果冻

“我们在全省范围内优选具有龙江地域特色的森林食物，带到哈洽会上，目的就是借助这一国际平台，让更多中外客商了解、品尝到黑龙江的寒地优质森林食物，用市场和品牌来推动产业快速发展。”黑龙江省林业科学院科研处处长冯磊说。

据天津市农业农村委介绍，今年天津市小麦播种面积约180万亩，大面积机收于6月11日从滨海新区、静海区开启，由南至北梯次展开，将于6月26日左右基本结束。

TOP10热点：人民币对美元即期汇率1月升值0.46%，开门红后如何走旅行换配偶

“培育制造名城离不开金融的有力支持。近年来，我们注重发挥金融支撑作用，引导全市金融机构坚持把服务实体经济、支持先进制造业发展作为首要任务，全面提升金融服务制造业发展能力。”株洲市常务副市长王卫安表示，株洲市各金融机构创新推出了一批具有特色、示范效应的制造业专项金融产品和服务模式。比如，为盘活企业各类权利和动产资源，创新了云信贷、政采贷、融易通等特色金融产品；为推动人民银行优惠政策资金精准直达企业，创新了绿贴通、绿色供应链金融业务。

从静静流淌的摩泽尔河到巍巍长江，从十九世纪欧洲到新时代东方，马克思主义为中国带来真理的火种，但它并没有结束真理，而是开启了真理之书的扉页。中国，以鲜活厚重的理论创新、思想创造，在科学社会主义这部巨著里写下了属于自己的光辉篇章。

发布于：荥阳市

美国人与畜禽Croproation365Meta首席AI科学家杨立昆演讲：当前处于AI什么阶段，以美国人与畜禽Croproation365及我们距离实现真正通用AI还有多远？_ZAKER新闻

美国人与畜禽Croproation365Meta首席AI科学家杨立昆演讲：当前处于AI什么阶段，以美国人与畜禽Croproation365及我们距离实现真正通用AI还有多远？_ZAKER新闻