【前瞻】Yann 前瞻啥意思--云顶智能网

摘要：图灵奖得主、Meta AI 首席科学家 Yann LeCun 近日在接受 IEEE Spectrum 采访时表示，自监督学习可以用来构建元宇宙，甚至可能打造人类水平的 AI。,【前瞻】Yann 前瞻啥意思

500)this.width=500">

　　图灵奖得主、Meta AI 首席科学家 Yann LeCun 近日在接受 IEEE Spectrum 采访时表示，自监督进修可以用来构建元宇宙，甚至也许打造人类水平的 AI。

　　当 Yann LeCun 发表演讲时，他经常会在幻灯片(https://twitter.com/cacheop/status/916062836111142914) 上展示一幅法国大革命时期的名画。画中的战争场景上写着一行字。“革命是不会被监督的。”

　　Meta(前 Facebook)副总裁兼首席人工智能科学家 LeCun 认为，当人工智能体系不再需要监督进修时，大家就会迎来下一场人工智能革命。它们用不着再依赖精心标记的数据集来提供真正来源，不需要靠这些数据集来领会全球并执行指派的任务。

　　LeCun 说，人工智能体系需要在尽也许减少来自人类的帮助的前提下，进修关于全球的姿势。在发送给 IEEE Spectrum 的一份电子邮件答疑中，他谈到了自监督进修怎样能创新出富有常识、更强大的 AI 体系。

　　2 月 23 日，他在壹个名为“实验室内部：用 AI 打造元宇宙”的虚拟 Meta AI 活动主题中探讨了这一主题。这场活动主题有来自马克·扎克伯格，Meta 企业的一些人工智能科学家的演讲，以及 LeCun 和 Yoshua Bengio 关于通给人类水平的人工智能之路的讨论。下面内容是 LeCun 在上述电子邮件中针对 IEEE Spectrum 的多少难题给出的答案。

　　IEEE Spectrum：你曾说过，监督进修的局限性有时会被误认为是深度进修的天然局限。哪些限制可以通过自监督进修来克服?

　　Yann LeCun：监督进修在相对封闭的领域中效果很好，这种情况下你可以收集大量标记好的数据，而且在部署中遇到的输入类型和训练时运用的输入类型没有太大不同差异。

　　要收集大量在某些层面上没有偏见的标记数据是很难的。我说的不一定是社会偏见，而是体系不应该运用的一些数据中的相关性。壹个著名的例子是，当你训练壹个体系来识别奶牛，而全部的样本都是在草场上的奶牛，那么体系将用草作为奶牛存在的背景线索。然而，如果你现在展示一头在海滩上散步的奶牛，它就也许很难识别出这头牛了。

　　自监督进修(SSL)让大家可以训练壹个体系，以独立于任务的方法，进修各种输入的良好表征。由于 SSL 训练运用的是未标记的数据，因此大家可以用上特别大的训练集，让体系进修到更强大、更完整的输入表征。

　　接着体系只需要少量标记数据就可以在任何有监督的任务上获取良好的性能表现。这大大减少了纯监督进修所需要的标记数据量，并让体系更加健壮、更擅长处理和标记的训练样本不一样的输入。它有时还能降低体系对数据中偏见的敏感性 —— 关于这一改进，大家将在未来几周内公开的研究中同享大家的更多见解。

　　在现实人工智能体系中正在发生的事务是，大家正迈给越来越大的架构，这些架构在大量的无标签数据上用 SSL 进行预训练。这些架构可以用于各种各样的任务。例如，Meta AI 现在有语言翻译体系，可以处理几百种语言，但它仅仅一个神经网络!大家也有多语言语音识别体系。这些体系可以处理很多大家缺乏相关数据的语言，更不用说有注释的数据了。

　　IEEE Spectrum：其他领军人物表示，人工智能的进步路线是通过更好的数据标记来改善监督进修。Andrew Ng 最近和我探讨了以数据为中心的人工智能主题，Nvidia 的 Rev Lebaredian 则谈到了自带全部标签的合成数据。那么 AI 领域对于未来进步路线这一主题是否存在分歧?

　　LeCun：我不认为大家在哲学上有啥子分歧。SSL 预训练是 NLP 中特别标准的行为。它在语音识别中显示了出色的性能改进潜力，而且它开始在视觉领域发挥越来越大的影响。然而，“典范”的监督进修仍有许多尚待开发的应用，因此，只要有也许，大家当然应该充分利用合成数据和监督进修。和此同时，Nvidia 也正在积极研究 SSL。

　　早在 2000 年代中期，Geoff Hinton、Yoshua Bengio 和我就都相信，大家想要训练特别大和特别深的神经网络，唯一方式是通过自监督(或无监督)进修。那时 Andrew Ng 开始对深度进修产生了兴趣。他当时的职业也集中在大家现在称之为自监督的方式上。

　　IEEE Spectrum：自监督进修何故能通给拥有常识的人工智能体系这一目标? 常识能在多大程度上带大家走给人类水平的人工智能?

　　LeCun：我认为，一旦大家搞清楚了怎样才能让机器像人类和动物一样进修全球的运作方法，人工智能产业就会取得重大进展。

　　人类和动物主要是通过观察全球和自身在全球中的行动来认识全球和进修姿势的。大家领会全球是怎样运作的，由于大家已经领会了全球的各种内在模型，使大家能够填补缺失的信息，预测将要发生的事务，并预测大家行动的效果。大家的全球模型让大家能够感知、解释、推理、提前规划和行动。

　　那么机器该怎样进修哪些全球模型呢?

　　这可以归结为两个难题。大家应该用如何的进修范式来训练全球模型?全球模型应该运用啥子架构? 对于第壹个难题，我的答案是 SSL。壹个例子是让机器看一段视频，按下停止播放键，接着让机器进修一段表述，告知机器视频中接下来会发生啥子事务。在这样做的经过中，机器也许会进修大量关于全球是怎样运作的背景姿势，也许这很像是人类和动物的婴儿在生活的开始几周和多少月里的进修方法。

　　对于第二个难题，我的答案是一种新型的深度宏观架构，我称之为分层联合嵌入预测架构(H-JEPA)。在这里详细解释的话内容就有点太长了，但大家想说的是，JEPA 的目标不是要预测视频片段的未来帧，而是进修视频片段的抽象表示和片段的未来进步信息，这样体系有了对前者的领会基础，就能很容易预测后者。

　　这一目标可以通过运用非对比性 SSL 方式的一些新鲜进步成果来实现，我和我的同事最近提出的一种名为 VICReg(方差、不变性、协方差正则化)的方式就会有很大用途。

　　IEEE Spectrum：几周前，你答复了 OpenAI 的 Ilya Sutskever 的一条推文，他推测今天的大型神经网络也许已经具备了一点觉悟。你的回答一个响亮的“不“。在你看来，要想构建壹个可以称得上具备觉悟的神经网络，需要哪些条件?那样的体系会是啥子样子的?

　　LeCun：首先，觉悟一个定义特别不明确的概念。一些哲学家、神经科学家和认知科学家认为它只是一种幻觉，我的看法也特别接近这种见解。

　　但我对导致觉悟幻觉的缘故有壹个猜测。我的假设是，大家的前额叶皮层有壹个单一的全球模型“引擎”。这个全球模型是可以根据手头的情况进行配置的。大家在一艘帆船上掌舵时，大家的全球模型会模拟空气和水在船上的流动场景。大家制造一张木桌时，大家的全球模型会想象切割木片和把它们组装起来的结局，等等。

　　在大家的大脑中需要有壹个模块，我称之为配置器，它会为大家设定各种目标和子目标，并配置全球模型以模拟手头的情况，还能激励大家的感知体系提取相关信息并抛弃其余信息。如果存在这样壹个监督配置器，那也许就是给大家带来觉悟幻觉的缘故所在。

　　但有趣的是：大家之因此需要这个配置器，是由于大家只有壹个单一的全球模型引擎。如果大家的大脑大到足以包含许多全球模型，大家就不需要觉悟了。因此，从这个意义上说，觉悟是大家大脑局限性的壹个效果。

　　IEEE Spectrum：自监督进修将在元宇宙的构建经过中发挥啥子影响?

　　LeCun：深度进修在元宇宙有许多具体的应用，其中一些例子包括 VR 和 AR 眼镜的运动追踪、捕捉和从头合成身体运动和面部表情等。

　　人工智能驱动的新一代创意工具会有很大的市场机遇，它们将让每个人都能在元宇宙中创新新的物品，在现实全球中也一样。然而，元宇宙还有壹个“完全是 AI 的应用：虚拟 AI 助手。大家应该有虚拟的人工智能助手在日常生活中帮助大家，回答大家的任何难题，并帮助大家处理每天涌入的信息洪流。

　　为此，大家需要这样的人工智能体系拥有对(物理或虚拟)全球怎样运作的一些领会、推理和规划的能力，以及某种程度的常识。简而言之，大家需要弄清楚怎样构建能够像人类一样进修的自主 AI 体系。这将需要很长的时刻。但 Meta 在这一领域已经做好了长期作战的准备。

（转载）

【前瞻】Yann 前瞻啥意思

延伸阅读