伟大AI离不开神经科学：强化学习连续学习_卖家业界观察

S 伟大AI离不开神经科学：强化学习连续学习_卖家业界观察_门别网

	menbie.com 等级： / 门别币：979450
	发表：2021/4/27 7:58:02 查看：4 回复：0 次
伟大AI离不开神经科学：强化学习连续学习

DeepMind联合创始人兼CEO Demis Hassabis等人日前在Neuron（神经元）发表评论文章，纵览神经科学对AI的启发。文章核心观点是，人工智能的过去、现在和未来，都离不开神经科学。具体来说，论文回顾了强化学习、注意力机制、工作记忆、连续学习这些目前受神经科学启发而来的算法。展望未来，机器智能与人类智能之间的差距仍然需要大量的工作来弥合。为了缩小这一差距，来自神经科学的启发将是不可或缺的。

论文：神经科学启发的人工智能

作者：Demis Hassabis；Dharshan Kumaran；Christopher Summerfield，Matthew Botvinick

摘要：历史上，神经科学和人工智能（AI）两个领域长期以来一直都存在交叉。但是，近年来，这两个领域的交流与合作似乎变得越来越少。本文中，我们将论证：对生物大脑的更好理解，将在智能机器的建造上扮演重要角色。我们对人工智能和神经科学两个领域在历史上的互通进行了研究，发现近年来AI的进步确实是受到了人类和其他动物大脑中的神经计算研究的启发。结论部分，我们提出了几个大家共同认可的主题，它们可能会成为未来这两个领域发展的关键。

（文/哈萨比斯等）近年来，神经科学和人工智能的相关领域获得了快速的进步。计算机时代大幕初起之时，研究AI不可避免地要与神经科学和心理学绑定在一起，许多人工智能的开创者都是横跨这些领域的，AI与这些学科的合作带来了较高的产出。

但是，最近，类似的交互变得越来越少见，因为两个学科的复杂性都大大地增加了，同时学科边界变得越来越固化。在下面的文章中，我们将证明，在生成能加速和指导AI研究的概念这件事上，神经科学是一个关键，并且其重要性从来没有间断过。

我们从这样一个假设出发：建立具备人类水平的通用AI（或者具有AI能力的智能系统）是一个令人望而却步的任务，因为可能的解决方案的搜索空间过于巨大，并且可能只是非常稀疏的分布。我们认为，这进而强调了详细研究人类大脑内部工作原理的有用性——因为人脑是目前唯一能证明这样的智能存在的依据。研究动物的认知和其神经部署也同样扮演着关键的角色，因为它能提供一个窗口，让我们得以看到更高级别的通用智能的重要层面。

紧密地围绕生物智能的发展来进行AI开发有着双重好处：首先，以神经科学为新形式的算法和架构提供了大量的启发，相反，在传统的方法中，基于数学或逻辑的方法是占主导地位的。这些算法独立于基于数学或逻辑的方法和创意，但是又可以作为补充。例如，如果生物计算的一个的新方面被认为对支持认知功能至关重要，那么我们就可以认为它是纳入人工系统的绝佳选择。其次，神经科学可以提供对已有AI技术的验证。如果一个已知的算法随后被发现在就是大脑中所实现的那样，那么，这就是一个非常强大的证据，证明这一算法可以作为通用人工智能系统的一个内部的组件。

这一线索对于长期的研究项目非常重要，特别是在需要决定如何分配资源才能获得最多的产出的时候。例如，如果一个算法没有达到要求或预期的性能水平，但是我们观察到它是大脑功能的核心，那么我们可以认为，加倍工程投入，以让其在人工系统中起作用，这一努力是值得的。

当然，从一个切合实际的角度来看，打造一个人工智能系统，我们不需要完全地、强制地遵守生物学上的合理性。从工程的角度来看，最终，重要的是弄清楚到底什么在起作用。那么，从我们的目的出发，生物合理性是一个指导，而不是严格的要求。我们感兴趣的是对脑的系统神经科学层面的理解，即算法，架构，功能和它所使用的表示。这大致对应于Marr著名的“了解任何复杂生物系统必须知道的三个层次”分析中的前两个层次：系统的目标（计算水平）和实现这个目标（算法级别）的过程和计算。

这种机制物理上究竟如何在生物基质中实现，在这里并不重要。请注意，我们对神经科学启发AI的方法与其他计划，如蓝脑项目（Blue Brain Project）或神经计算系统领域不同，这些方法试图通过密切模仿或直接对神经回路的细节进行逆向工程。通过专注于计算和算法水平，我们对大脑功能的一般机制有了一些可以迁移的洞察，同时留下了空间，以适应在计算机（硅基）上构建智能机器时出现的独特机会和挑战。

以下内容通过论述AI与神经科学的过去，现在和未来，来解开这些要点。

在开始之前，我们做一个澄清：在本文中，我们使用的术语包括“神经科学”和“AI”，我们会使用这些术语涉及的最广泛的意义。当我们提到神经科学时，我们的意思是包括与大脑研究有关的所有领域，它产生的行为，以及它的机制，包括认知神经科学，系统神经科学和心理学。当我们说AI时，我们指的是机器学习，统计学和所有旨在构建智能机器的AI研究。

一开始，我们会讨论两个当下AI研究最尖端的领域的起源——深度学习和强化学习，这两个领域的根基都从神经科学获得启发。随后，我们会介绍当下AI研究领域的最新进展，列举了一些案例，这些例子中获得的启发（一些并没有明确的引用说明）都来自己神经科学中的概念和发现。在这一部分，我们会特别强调一些例子，在这些例子中，我们将深度学习和其他的机器学习方法结合在一起，例如强化学习、蒙特卡洛树搜索，或者是一些包含了外部内容可读取的存储。接下来，我们会研究神经科学对未来AI研究的潜在影响。虽然我们的主要着眼点在于神经科学将为AI带来哪些好处，但是在最后一部分，我们会简单地介绍，AI可能会给神经科学带来哪些好处，以及这两个领域之间，可以有哪些协同的互动。

过去：从平行分布式处理（PDP）到深度学习

正如最近许多综述里面说提到的那样，在过去的几年间，由于神经网络，或者“深度学习”方法的飞速发展，AI已经发生了一场变革。正如“神经网络”一词所指，这些AI方法的起源都直接来自神经科学。在20世纪40年代，神经计算的研究以建设人工的神经网络作为开端，这些神经网络能计算逻辑函数。不久之后，有人提出了另外的一些机制，认为神经网络中的神经元可能可以逐步地从监督式的回馈或者非监督方法中有效的编码环境统计下进行学习。这些机制打开了人工神经网络研究的另一扇大门，并且提供了当代对深度学习进行研究的基础。在这些开创性的工作诞生后不久，方向传播算法开始出现，他使得“学习”这一过程能够在多层的神经网络中发生。重要的是，这一方法在理解智能，包括AI上带来的启发，首先被一群神经科学和认知科学家意识到，他们当时的研究属于平行分布式处理（PDP）。

当时，大多数的AI研究都集中在基于序列计算建立逻辑处理系统，这一概念部分是受到这样一种思路的启发——人类的智能包含了对符号表征的处理。但是，在有一些领域，越来越多的人意识到，纯粹的符号方法可能过于脆弱，并且在解决人类习以为常的现实问题时，可能不够灵活。取而代之的是，关于大脑基础知识的不断增加，似乎指出了一个非常不一样的方向，强调动态和高度平行信息处理的重要性。基于此，PDP兴起提出了一个思路：人类的认知和行为来自动态的、分布式交互，并且基于神经网络内单一类神经元的处理单元，通过学习进程来对交互进行调整，他们通过调整参数，以将误差最小化，将反馈最大化。

虽然PDP方法最初只是被应用于一些相对非常小的问题上，但是，它在解释大量的人类行为上获得了令人惊讶的成功。沿着这条路径，PDP研究引入了大量的多样化的概念，对AI的发展有着深刻的影响。例如，当下的机器翻译研究证明了词和句子都能以分布式的方法进行表征（比如，Vectors），这一方法早期PDP启发的句子模型中其实已经被引入。基于PDP兴起激发的对生物计算的兴趣，当下的卷积神经网络（CNN）也加入了几个神经计算的权威印记，其中包括非线性转换，多样的正则化和基于池化输入的最大化。

这些操作直接来自哺乳动物视觉皮层的单细胞记录，揭示了如何将视觉输入过滤并汇集在区域V1中的简单和复杂的细胞中。此外，目前的网络架构复制了哺乳动物皮质系统的分层结构，其中收敛和分歧的信息在连续的嵌套处理层中流动，这遵循早期神经网络视觉处理模型的先进思想。在生物和人造系统中，连续的非线性计算将原始视觉输入转换成越来越复杂的特征集，允许在姿态，光线或尺寸等改变的情况下，正确地识别对象。

随着深度学习领域从PDP研究发展成为AI内部的核心领域，它继续受到新的概念的推动，比如深度信念网络由人类语言研究启发的大型数据集的引入。在此期间，它继续从神经科学中得到重要概念启发。例如，生物学考虑利用成功的正则化方案，支持训练数据之外的泛化。这样的方案，其中只有一部分单元参与给定的训练样本（“dropout”）的处理，这是由从生物系统中常见的神经元带来的类Poisson统计的随机性启发的。在各个地方，神经科学为架构和算法的范围提供了初步指导，从而引导AI成功应用神经网络。

强化学习

除了在深度学习发展中的重要作用之外，神经科学还有助于建立当代人工智能的第二支柱，即推动了强化学习（RL）的出现。RL方法解决了如何通过将环境中的状态映射到行动来最大化未来奖励的问题，并且是AI研究中使用最广泛的工具之一。虽然并没有得到AI研究人员的广泛承认，但RL方法最初是通过对动物学习的研究启发的。

特别地，时间差（TD）方法的发展是许多RL模型的关键组成部分，与实验环境中动物行为的研究密不可分。TD方法是一个实时的模型，能从不同的连续性预测中进行学习，而不必等到实际的回馈返回。特别相关的是一种称为二级条件的效应，其中，效果的好坏在一个条件刺激与另一个条件刺激的结合中得到评估，而不是直接通过无条件刺激的结合来进行。TD学习为二级条件提供了一个自然的解释，实际上已经解释了神经科学的更广泛的发现，正如我们在下面讨论的。

在这里，如深度学习一样，最初受神经科学观察所启发的研究导致了进一步的发展，强化了AI研究的方向。基于神经科学的知识，TD方法和相关技术已经为AI的最新进展带来了核心技术：涉及机器人控制到西洋双陆棋专家和围棋。

现在：注意力、情景记忆、工作记忆、连续学习

阅读当代AI文献让人更加深刻地认识到，像早期那样与神经科学的接触已经减弱。然而，如果挖开表面看深层，可以发现许多AI最近发展受神经科学发现启发和指导的案例。在这里，我们来看4 个具体的例子。

注意力（Attention）

大脑不是在一个统一和未分化的神经网络中实现全局优化原理来学习的（Marblestone等，2016）。相反，生物的大脑是模块化的，具有独特但相互作用的子系统，支持记忆、语言和认知控制等关键功能（Anderson et al.，2004;Shallice，1988）。这种来自神经科学的洞察通常以不言而喻的方式进入当前AI的许多领域。

一个鲜明的例子是最近AI在注意力（Attention）方面的研究。直到最近，大多数CNN模型都直接在整个图像或视频的帧上工作，在处理的最早阶段对所有的图像像素给予的优先权都是平等的。灵长类视觉系统工作不是这样的。灵长类的视觉系统不会并行处理所有输入，视觉注意力在地理位置和对象之间战略性地转移，在一系列区域的处理资源和表示定位点（representational coordinates）上进行聚焦（Koch和 Ullman，1985;Moore和Zirnsak，2017;Posner和 Petersen，1990）。已经有具体的神经计算模型证明这种方法通过优先排序和区分任何给定时刻相关的信息（Olshausen等，1993;Salinas和Abbott，1997）有利于动物的行为。因此，注意力机制已经成为AI架构的灵感来源，在这些AI架构中，系统会在每个步骤都“看一眼”输入的图像，更新内部状态表示，然后选择下一个采样位置（Larochelle和Hinton，2010; Mnih等人，2014）（图1A）。现在有网络能够使用这种选择性的注意力机制来忽略一个不相关的对象，在有噪音的情况下在很有难度的物体分类任务中表现良好（Mnih等，2014）。此外，注意力机制使计算成本（例如网络参数的数量）能根据输入图像的大小进行有利地缩放。后来，这一方法的扩展在多对象识别任务中表现出了令人印象深刻的性能，在精确度和计算效率方面均优于常规CNN（处理整个图像）（Ba et al。，2015），还提升了图说生成任务（Xu et al.，2015）的性能。

虽然注意力通常被认为是感知的定向机制，但它的“聚光点”可以投向内部，聚焦于内存。这个想法是最近神经科学研究的重点（Summerfield等，2006），也启发了AI相关的工作。在一些架构中，注意力机制已被用于选择从网络的内部存储器读出的信息。这有助于最近在机器翻译方面取得成功（Bahdanau等，2014），也带来了记忆和推理任务的重大进展（Graves等，2016）。这些架构为内容可寻址检索提供了新颖的实现方法，而后者本身就是最初经由神经科学引入AI的概念（Hopfield，1982）。

注意力机制被证明十分有用的另一个领域是生成模型，也就是那些学习合成或“想象”图像（或其他类型的数据）的系统，这些系统能够模拟训练中见到的样本结构。深度生成模型（即，多层神经网络构成的生成模型）最近在通过引入注意力机制来捕获真实视觉场景的形式和结构，从而合成输出方面取得了很大的成功（Hong et al.，2015;Reed et al.，2016）。例如，在一个叫做DRAW的生成模型中，注意力让系统能够逐步创建一幅图像，一次处理“心理画布”的一部分（Gregor等，2015）。

情景记忆

神经科学的一大核心主题是，智能行为依赖于多种记忆系统（Tulving，1985）。这不仅包括基于强化的机制，还有基于实例的机制（Gallistel和King，2009）。后一种形式的记忆也被称为情景记忆（Tulving，2002），通常与内侧颞叶的回路相关，主要是海马体（Squire et al.，2004）。

AI最近的一个突破是强化学习与深度学习的成功整合（Mnih等人，2015;Silver等，2016）。例如，深度Q 网络（DQN）通过学习将图像像素的矢量转换为用于选择动作（例如操纵杆移动）的策略，在Atari 2600视频游戏中展现出专家级的水平。DQN的一个关键因素是“体验重播”（experience replay），其中网络以基于实例的方式存储训练数据的一部分，然后“离线重播”，从过去新发现的成功或失败中学习。体验重播对于最大限度地提高数据效率至关重要，避免了从连续相关经验中学习的不稳定的影响，使网络即使在复杂、高度结构化的顺序环境（如视频游戏）中，也能学习可行的价值函数。

重要的是，体验重播直接受理论的启发，这些理论旨在了解哺乳动物大脑中的多个记忆系统如何相互作用。根据目前一个十分著名的观点，动物的学习行为是由海马和新皮质中的并行或“互补”学习系统为基础（Kumaran等，2016;McClelland等，1995）。海马在单独一次接触（one-shot learning）后对新闻信息进行编码，但是这些信息在睡眠或休息期间会逐渐整合到大脑皮层。这种巩固伴随着海马和新皮层的重播，被视为伴随学习事件的神经活动的结构化模式（ONeill等人，2010;Skaggs和McNaughton，1996）（图1B）。这个理论最初是作为解决方案被提出的，用于解决传统神经网络中一个著名问题，即依次接触相关联的任务会使策略之间相互干扰，从而导致灾难性遗忘。因此，DQN中的重播缓冲区可以被视为一个非常原始的海马，使计算机能够进行辅助学习，就像在生物大脑里发生的那样。后续工作表明，当具有高度奖励价值的事件重播被优先考虑时，DQN中体验重播的好处得到了增长（Schaul等，2015），正如海马重播似乎更偏好能够带来高水平强化的事件一样（Singer and Frank，2009）。存储在内存缓冲区中的体验不仅可以用于逐渐将深度网络的参数调整为最佳策略（就像在DQN中那样），还可以根据个人经验支持快速的行为变化。事实上，理论神经科学已经证明了情景控制的潜在好处，在生物大脑的海马中，奖励动作序列能够在内部从快速可更新的记忆库中被重新激活（Gershman and Daw，2017）。此外，当获得的环境经验有限时，情景控制特别优于其他的学习机制（Lengyel和Dayan，2007）。

最近的AI研究已经吸取了这些想法来克服深度强化学习网络学习慢的特性，开发了实现情景控制的架构（Blundell等，2016）。这些网络存储特定的体验（例如，与特定Atari游戏屏幕相关联的动作和奖励结果），并且基于当前情况输入和存储在存储器中的先前事件之间的相似性来选择新的动作，考虑与之前的事件相关联的奖励（图1B）。从最初基于神经科学的工作（Lengyel和Dayan，2007）可以看出，使用情景控制的人造药物在深度强化学习网络中展现出了惊人的性能，特别是在学习早期（Blundell et al.，2016）。此外，这些网络能够在严重依赖于单次学习的任务上取得成功，而常规的深度架构则会失败。

此外，类似情景的记忆系统更普遍地表现出了潜力，在只有几个样本的情况下实现快速学习新的概念（Vinyals等，2016）。在将来，利用快速情景记忆和更传统的渐进式学习的优势，将这两个组件融入到具有哺乳动物大脑辅助学习系统的框架中将会非常有趣。我们稍后在“想象和规划”一节中更详细地讨论这些观点。

工作记忆

人类智力的特征在于能够维持和操纵一个活跃存储空间内的信息（被称为工作记忆），这被认为是在前额叶皮质和相互关联的区域内实例化的（Goldman-Rakic，1990）。经典的认知理论表明，这种功能取决于中央控制器（“管理者”）和单独的特定领域的内存缓冲区（例如，视觉空间绘图板）之间的交互（Baddeley，2012）。AI研究从这些模型中获得灵感，通过建立一些随着时间的推移明确维护信息的架构。历史上，这方面的举措最初是引入显示了吸引力动态（attractor dynamics）和丰富的顺序行为的循环神经网络架构，这都是直接受神经科学的启发而来（Elman，1990;Hopfield和Tank，1986;Jordan，1997）。这项工作成为后来进行更详细的人工工作记忆建模（Botvinick和Plaut，2006;Durstewitz等，2000）的重中之重，也为进一步的技术创新奠定了基础，这些技术创新在最近的AI研究中已被证明至关重要。特别是，可以看到这些早期的、受神经科学启发而来的网络中的学习动态与长短时记忆（LSTM）网络中的学习动态之间有着极大的相似性（close parallel），而LSTM后来在很多领域都实现了最先进的性能。LTSM将信息门控成固定活动状态并保持到需要适当的输出（Hochreiter和Schmid-huber，1997）。这种类型的网络的变体在具有挑战性的领域中显示出一些引人注目的行为，例如学习在计算机代码训练后对变量的潜在状态进行查询（Zaremba and Sutskever，2014）。

在普通LSTM网络中，序列控制和存储器的功能密切相关。这与人类工作记忆的经典模型形成对照。这种基于神经科学的模型最近启发了更复杂的AI架构设计，其中控制和存储由不同的模块支持（Graves等人，2014年，2016年;Weston等人，2014）。例如，差分神经计算机（DNC）包含从外部存储器矩阵进行读写的神经网络控制器（Graves等，2016）。通过连接外部存储器，网络控制器能从头开始学习（即通过端到端优化），执行广泛的复杂内存和推理任务，例如通过图形结构找到最短路径，或在河内塔任务的变体中操纵积木（图1C）。这些类型的问题以前被认为完全依赖于符号处理和变量绑定，是LSTM不能够完成的。

值得注意的是，虽然我们在工作记忆这里介绍了LSTM和 DNC，但两者都有可能在几千个训练周期内保持信息，因此也可能适用于长期的记忆形式，例如保留和了解一本书的内容。

图1

持续学习

智能体必须能够学习和记住多个时间尺度上遇到的许多不同的任务。因此，生物和人造体必须具有连续学习的能力，也就是在掌握新任务的同时，不忘记如何执行先前的任务（Thrun和Mitchell，1995）。虽然动物看起来比较擅长持续学习，但是神经网络有灾难性遗忘的问题（French，1999;McClelland et al。，1995）。灾难性遗忘就是为了执行两个连续任务中的第二个任务时，网络参数向最佳状态转移，会覆盖它们执行第一个任务的配置。鉴于持续学习的重要性，神经网络持续学习仍然是人类发展的重大挑战。

在神经科学中，先进的神经成像技术（例如，双光子成像）现在能在学习期间将树突棘的结构和功能进行动态可视化（in vivo visualization）（Nishiyama和Yasuda，2015）。这种方法可用于研究连续学习期间新皮质的可塑性（Cichon和 Gan，2015;Hayashi-Takagi et al.，2015;Yang et al.，2009）。有新的证据表明，特定的机制可以保护以前任务的有关知识免受学习过程中的干扰。这些机制包括减少一部分被增强的突触的可塑性（Cichon和 Gan，2015;Yang et al.，2009）（图1D）。这些变化与保留几个月内的知识有关，如果将它们“擦除”，那么则会发生遗忘（Hayashi-Takagi等，2015）。理论模型表明，记忆可以通过突触在不同程度的可塑性级联状态之间转变（Fusi et al。，2005）（图1D）得到保护。这些理论模型与实证见解与是一致的。

综合上述发现后，科学家提出了一种“弹性”权重整合（EWC）（Kirkpatrick等，2017），将神经科学的这些发现用于解决深层网络中连续学习的挑战。具体说，EWC找出那些对先前任务很重要的网络权重的子集，将这些参数锚定，减轻它们的学习率，从而实现继续学习（图1D）。这样，在不增加网络容量的情况下网络能够学习多个任务，权重在具有相关结构的任务之间实现了有效共享。以这种方式，EWC算法让深度强化学习网络支持大规模的持续学习。

未来：机器智能与人类智能之间的差距仍然需要大量的工作来弥合

AI领域近期的研究进步非常显著。人工智能系统现在已经在许多任务达到人类水平的表现，例如对象识别（Krizhevsky et al.，2012），以及在许多动态、对立的环境超过人类专家，例如Atari游戏（Mnih et al.，2015），古老的围棋游戏（Silver et al.,2016），以及不完美信息博弈类游戏，例如一对一德州扑克（Morav_c?ket al.，2017）。机器能够自主地产生合成的图像，模拟人类的话语，其结果与真实的几乎无法区分（Lake et al.，2015;van den Oord et al.，2016），以及翻译多种语言（Wu et al.，2016），模仿知名画家的风格创作“神经艺术作品”（Gatys et al.，2015）。

但是，机器智能与人类智能之间的差距仍然需要大量的工作来弥合。为了缩小这一差距，我们认为来自神经科学的启发将是不可或缺的。在神经科学中，脑成像和遗传生物工程领域出现的新工具已经能够提供有关神经回路中发生的计算的详细表示，这对于增加我们对哺乳动物脑功能的了解是革命性的（Deisseroth and Schnitzer，2013）。作为AI研究议程的路线图和计算工具的来源，神经科学与AI的相关性在以下关键领域尤其突出。

直观理解物理世界

最近的一些观点强调人类智慧的关键部分在人类还是婴儿时就已经发达，但在大多数AI系统中却是缺失的（Gilmore et al.，2007;Gopnik&Schulz，2004;Lake et al.，2016）。这些能力包括与物理世界有关的核心概念，例如空间，数量和客体性，这些概念让人类能够形成综合的心理模型，从而指导推理和预测（Battaglia et al.，2013;Spelke&Kinzler，2007）。

人工智能研究已开始探索解决这一难题的方法。例如，研究人员已经开发出新的神经网络架构，通过将场景分解成单独的对象及其关系，以类似人类的方式对场景进行解释和推理（Battaglia et al.,2016;Chang et al.,2016;Eslami et al.,2016）（图2A和2B）。在某些情况下，这种方法在一些有挑战性的推理任务能够得到人类水平的表现（Santoro et al.，2017）。

此外，深度强化学习已经被用于捕捉人类婴孩通过交互实验获得对世界的常识认识的过程（Denil et al.,2016）。相关地，也已经开发出能够从原始感官输入构建丰富的对象模型的深度生成模型（Higgins et al.,2016）。这些效用首先在神经科学中被确定下来，例如减少冗余（Barlow，1959），鼓励出现独立因素（例如形状和位置）的分离表示（disentangled representation)（图2C）。重要的是，由这种生成模型学习的潜在表征显示出综合性质，支持灵活迁移用于新任务（Eslami et al.,2016;Higgins et al.,2016;Rezende et al.,2016a）。

高效学习

人类认知的特征在于，人类能够仅从少数的几个例子快速了解新概念，利用先前的知识来进行归纳推理。为了突出这种人类能力对于AI的挑战性，Lake和他的同事最近提出了一个“字符挑战”（characters challenge）（Lake et al.，2016）。挑战者需要在只观察单个样本后，观察并区分它部首席的一些手写字体。人类可以很好地执行这样的任务，但是对于经典的AI系统来说是很困难的。

令人鼓舞的是，最近的AI算法已经开始通过结构化概率模型（Lake et al.，2015）和基于上文提到的DRAW模型的深度生成模型（Rezende et al.，2016b）在字符挑战等任务上取得了进展。尽管数据缺乏，并且需要从单一的示例概念生成新的示例（图2D），这两类系统都能够推理出新的概念。

此外，最近的AI研究已经开发出“学习如何学习”（learn to learn）的网络，通过利用相关问题的先前经验来获取有关新任务的知识，以支持one-shot概念的学习（Santoro et al.，2016;Vinyals et al.,2016），以及加快RL任务的学习（Wang et al.,2016）。再次，这是建立在神经科学概念的基础之上的：学习如何学习在动物的学习研究中首先被探索（Harlow，1949），后来在心理学的发展中得到研究（Adolph，2005;Kemp et al.,2010;Smith，1995）。

迁移学习

人类也擅长将在一个环境中获得的广义知识推广到新的、以前没有接触过的领域（Barnett&Ceci，2002;Holyoak&Thagard，1997）。例如，人类在开车、使用笔记本电脑，或主持一个会议时，当遇到不熟悉的车辆、操作系统或社会情况时，通常都能够有效地采取行动。

目前，开发能够表现出很强的泛化（generalization）能力或迁移（transfer）能力的AI架构方面正在取得进展，例如通过基于综合表示（Higgins et al.,2016;图2C）对训练分布之外的新形状进行zero-shot推断。其他研究表明，一类被称为progressive network的架构可以利用一个视频游戏中获得的知识，在另外一个视频游戏中获得快速的学习，这有希望获得人类技能特征之一的“远程转移”（far transfer）（Rusu et al.,2016a）。progressive network也被成功用于将模拟环境中智能体的知识转移给真正的机器人臂，大大减少了所需的训练时间（Rusu et al.，2016b）。有趣的是，它所提出的架构与人类顺序任务学习的成功计算模型有一些相似之处（Collins&Koechlin，2012;Donoso et al.,2014）。

在神经科学的前人研究中，迁移学习的一个标志就是能够有关联地进行推理，AI研究人员也开始在构建解决这类问题的深度网络方面取得进展，例如解决视觉类比问题（Reed et al.，2015）。然而，更普遍的是，人类或其他动物如何实现这种高级别的迁移学习是未知的，并且在神经科学中仍然是一个相对未被探讨的课题。在这方面的新进展可以提供重要的见解，以刺激人工智能研究，实现终身学习的目标，我们鼓励神经科学家更深入地研究这个问题。

在神经编码（neural coding）层面上，这种抽象结构化知识的迁移可以依赖于对对象，个体或场景元素不变的概念表示的形成（Doumas et al.,2008）。然而，我们目前缺乏在哺乳动物大脑中存在这样的代码的直接证据。不过，最近的一个报告提出一种非常有趣的说法，认为在多中心型（map-like）的空间表示中被认为是重要的神经编码（neural code），对于更一般领域的抽象推理可能是至关重要的（Constantinescu et al.,2016）。使用功能性神经造影技术（functional neuroimaging），研究人员提供了人类执行抽象分类任务时存在这样的编码的一些证据，支持了周期性解码（periodic encoding）是人类知识组织的一般性标志的观点（Constantinescu et al.,2016）。不过，仍然需要进一步的工作来证实这一有趣的主张。

想象与规划

尽管对目标导向的任务表现很好，但深度强化学习系统（例如DQN）主要以反应的方式运作，学习从感知输入到最大化未来价值的动作的映射。这种“无模型”的RL在计算上是低成本的，但存在两个主要缺点：相对数据效率低下，需要大量的经验才能得出准确的估计，而且不够灵活，对结果价值的变化不敏感（Daw et al.,2005）。相比之下，人类可以通过基于模拟的规划，通过基于通过经验学习的内部环境模型产生的预测，基于通过基于模拟的规划对长期未来结果进行预测，更灵活地选择行动（Daw et al.,2005;Dolan and Dayan，2013;Tolman，1948）。

到目前为止，大量关于人工智能规划（AI planning）技术的文献，包括基于模型的RL方法，都旨在实现这种基于预测的行动选择。此外，基于模拟的规划，特别是使用钱箱搜索来更新价值函数和/或策略的蒙特卡洛树搜索（MCTS）方法（Browne et al.,2012），在最近的工作中发挥了关键作用，其中深度RL在围棋游戏中获得了专家级的表现。

来自神经科学的观点可能提供有助于模拟与控制集成的启发。神经科学研究发现，海马体（hippocampus）通过实例化环境的内部模型来支持规划（Redish，2016）。此外，最近开发智能体（agent）方面的研究已经开始采用控制器和环境模型之间分离的架构，以在涉及物理对象之间的相互作用的问题中实现基于模拟的规划（Hamrick et al.,2017）。

虚拟大脑分析

神经科学可以为AI服务的另一方法是提供新的分析工具来理解AI系统中的计算。由于其复杂性，AI研究的产品仍然是“黑盒子”; 我们对复杂任务的学习期间发生的计算的性质或形成的表示的理解非常少。但是，通过将神经科学的工具应用于AI系统，例如单细胞记录，神经影像学，以及病变技术等，我们可以深入了解AI研究中成功学习的关键驱动因素，提高这些系统的可解释性。我们称之为“虚拟大脑分析”（virtual brain analytics）。

从AI到神经科学

到目前为止，我们的评述主要侧重于神经科学在加速人工智能研究中的作用，而不是人工智能研究对神经科学的意义。然而，历史上，神经科学与人工智能之间的信息流是相互的。机器学习技术已经改变了神经影像数据集的分析方法——例如，在fMRI和脑磁图（MEG）数据的多变量分析中（Cichy等，2014;C?kuk等，2013;Kriegeskorte和 Kievit，2013），有希望加速connectomic analysis（Glasser等，2016）等技术。

更进一步，我们认为，开发智能算法有可能会提供关于人类和其他动物大脑智力基础研究的新思路。特别是，心理学家和神经科学家往往对于所研究概念（concept）依据的机制，只有相当模糊的概念（notion）。人工智能研究通过定量地形式化这些概念，并对智能行为的必要性和充分性（或反过来）提供洞察，来起到辅助作用。这一前景的关键是强化学习带来的。在动物心理学的一些理念催生了强化学习研究后，后者的关键概念又反哺了神经科学。

尤其是，在conditioning paradigms中，midbrain dopaminergic neurons中观察到的神经信号的profile与 TD-产生的预测误差具有惊人的相似性，这为大脑TD-learning形式的实现提供了神经证据（ODoherty等，2003;Schultz等，1997）。这提供了一个很好的例证，说明人工智能与神经科学之间的思想交流是如何够建立一个“良性循环”并推动这两个领域的目标实现的。

在另一个领域，专注于增强CNN性能的工作也为高级视觉领域的神经表征的本质提供了新见解（Khaligh-Razavi和 Kriegeskorte，2014;Yamins和 DiCarlo，2016）。以下研究也值得关注：

Khaligh-Razavi,S.M.,and Kriegeskorte,N. (2014).Deep supervised,but not unsupervised,models may explain IT cortical representation.PLoS Comput.Biol.10,e1003915.

Hong,H.,Yamins,D.L.,Majaj,N.J.,and DiCarlo,J.J. (2016).Explicit informa-tion for category-orthogonal object properties increases along the ventral stream.Nat.Neurosci.19,613–622.

Yamins,D.L.,and DiCarlo,J.J. (2016).Using goal-driven deep learning models to understand sensory cortex.Nat.Neurosci.19,356–365.

Sukhbaatar,S.,Szlam,A.,Weston,J.,and Fergus,R. (2015).End-to-end memory networks.arXiv,arXiv:150308895.

Kumaran,D.,and McClelland,J.L. (2012).Generalization through the recurrent interaction of episodic memories:a model of the hippocampal system.Psy-chol.Rev.119,573–616.

结论：让AI帮助人类更深刻地认识自己

从这个角度来看，我们回顾了神经科学为推动AI研究做出的基础性贡献，并且认为其相关性日益重要。在为两个领域的未来交流制定战略时，重要的是要了解，神经科学过去对AI的贡献很少包含可以在机器中直接重新实现的完整解决方案。

相反，神经科学通常以一种微妙但有效的方式，激发了AI研究人员感兴趣的问题，并提供了相关机制的初步线索。因此，我们认为，利用神经科学研究获得的信息将加速人工智能研究的进展，如果AI研究人员积极开展与神经科学家的合作，并突出可以通过实证研究来解决的关键问题，则将卓有成效。

从神经科学获得的见解要想成功转移到AI算法的开发上，在很大程度上取决于在这两个领域工作的研究人员之间的交流，这通常需要不断地在两个领域间持续的交流，来发掘洞洞见。

未来，我们希望神经科学与人工智能研究人员之间能有更好的合作（Marblestone等，2016年），这将带来良性循环，通过共同的语言和理论加速实证研究的进展。

我们相信，对人工智能的开发和追求最终也将导致我们更好地了解自己的思想和思维过程。将智力转化为一种算法结构，并将其与人类大脑进行比较，这可能会对心灵中一些最深刻和最持久的奥秘产生深刻的见解，例如创造力、梦想，甚至有一天能触及意识的本质。

内容违规投诉举报请联系在线客服QQ：278336453

今日最新卖家热点

智能手机市场正重建新秩序时间：6月26日看 17045 次

李佳琦：梦想做属于中国的美妆集团时间：6月26日看 9455 次

真实莆田造鞋：上千家造AJ鞋证书灰色渠道就可购.. 时间：6月26日看 10145 次

“腾盟计划2.0”如何帮商家实现“全链路数字化增长.. 时间：6月26日看 7523 次

2021小红书活跃用户画像趋势报告时间：6月26日看 3728 次

淘宝今日头条盘点|2021-04-21 时间：6月26日看 4004 次

谁来填充旅游业1.3万亿美元的缺口携程还是Boo.. 时间：6月26日看 6488 次

5家店估值50亿又一个新赛道爆发：一线VC悉数下.. 时间：6月26日看 6350 次

淘宝个人店铺出售一钻二钻三钻四钻五钻皇冠店出售 .. 时间：6月26日看 16284 次

淘宝个人店铺出售一钻二钻三钻四钻五钻皇冠店出售 .. 时间：6月26日看 7866 次

淘宝个人店铺出售一钻二钻三钻四钻五钻皇冠店出售 .. 时间：6月26日看 5934 次