当前位置: 澳门广东会官网 > ai动态 >

神经网络可解释性、深度学习新方法,2020 年 A

信息来源:http://www.mystgate.com | 发布时间:2025-02-28 17:20

  作为 2019 年最后一场重量级的人工智能国际学术顶会,NeurIPS 2019 所反映出的一些人工智能研究趋势,例如神经网络可解释性、深度学习新方法、神经科学等等,想必对于大家在新的一年开展研究工作,具有一定的借鉴和参考价值。

  来自英伟达的工程师小姐姐 Chip Huyen 基于自己的参会体验,较为全面地总结了 NeurIPS 2019 反映的关键研究趋势。

  Facebook 的人工智能总监表达了对算力达到瓶颈的担忧。人工智能企业不应该仅仅寄希望于通过更大的深度学习系统来不断取得进步。因为「现在,一个实验可能要花费七位数的金钱,但现实情况不会让这一数字增长到九位数或十位数,因为没人负担得起这样的开销」

  针对这一趋势,Yann Lecun 谈到:「我不明白,为什么突然之间,我们看到了许多新闻和推特声称人工智能的进步正在放缓,或称深度学习正在碰壁。在过去的五年中,我几乎在每一次演讲上都会指出这两个局限和挑战。所以,认识到这些局限性并不是什么新鲜事。而且,实际上人工智能的发展并没有慢下来」。

  在这种大环境下,我们很高兴看到探究深度学习背后的理论(深度学习为何有效?它是如何工作的?)的论文的数量迎来了爆炸式增长。

  他们认为一致收敛理论本身并不能解释深度学习的泛化能力。随着数据集的规模增大,泛化差异(Generalization Gap,模型在见过和未见过的数据上的性能差异)的理论界限也会增大,而经验泛化差异则会减小。

  神经切线核(NTK,)是近年来提出的一个研究方向,旨在理解神经网络的优化和泛化。有关 NTK 的讨论多次出现在本届 NeurIPS 的亮点演讲中,我在 NeurIPS 期间也与其他人多次谈到 NTK。

  Arthur Jacot 等人提出了「全连接的神经网络等价于宽度无限时的高斯过程」这一众所周知的概念,能够在函数空间而不是参数空间中研究它们的训练动力学(Training Dynamics)。他们证明了「在人工神经网络参数梯度下降的过程中,网络函数(将输入向量映射到输出向量)遵循关于一种新的核——NTK的函数代价的核梯度」。

  他们还表明,当我们使用梯度下降法训练一个有限层版本的 NTK 时,其性能将收敛到宽度无限的 NTK 上,然后在训练中性能保持不变。

  然而,许多人认为 NTK 不能完全解释深度学习。一个神经网络要接近NTK 状态需要具备学习率小、初始化宽度大、无权值衰减等超参数设置,而在实际训练中并不经常使用这样的设置。

  NTK 的观点还认为,神经网络只会像核方法一样泛化,但根据我们的经验来看,它们可以更好地泛化。

  那么,增加深度能让它更有效率吗?他们说明了,在高斯混合模型的最优贝叶斯分类的情况下,这些函数可以用带有单个隐层的神经网络中的 o (exp (n))个节点以任意精度近似,而在两层网络中只需要用 o (n)个节点近似。

  图 2:测试准确率于批处理大小、学习率的诶关系。第四行分别是(1)使用 CIFAR-10 数据集训练的 ResNet-110 模型(2)使用 CIFAR-100 数据集训练的 ResNet-110 模型(3)使用 CIFAR-10 数据集训练的 VGG-19 模型(4)使用 CIFAR-100 数据集训练的 VGG-19 模型。每条曲线都是根据 20 个网络的情况综合绘制而出。

  与此同时,Yuanzhi Li 等人的论文「Towards Explaining the Regularization Effect of Initial Large Learning Rate in Training Neural Networks」指出:「一个具有较大的初始学习率并使用退火算法训练的双层网络,比使用较小的初始学习率训练的相同的网络具有更好的泛化性能。这是因为学习率较小的模型首先会记忆低噪声、难以拟合的模式,它在较高噪声、易于拟合的情况下的泛化性能比学习率较大的情况下差一些。」

  尽管这些理论分析非常吸引人,也很重要,但是很难讲它们聚合成一个大的研究体系,因为这其中的一个研究都集中在整个系统的一个较为狭窄的方面。

  在今年的 NeurIPS 上,研究者们提出了一系列新颖的方法,而不仅仅是在别人的工作上叠加上新的网络层。我感兴趣的三个方向是:贝叶斯学习、图神经网络,以及凸优化。

  根据 Khan 的说法,深度学习使用的是一种「试错」的方法,我们通过实验看看会得到什么结果,然而贝叶斯原理迫使你事先考虑一个假设(先验)。

  与常规的深度学习相比,贝叶斯深度学习有两个主要的优势:非确定性估计以及在小数据集上更好的泛化性能。

  在现实世界的应用中,让系统能够进行预测是远远不够的。弄明白每个预测的可靠性是很重要的。例如,对癌症进行预测时,可靠性为 50.1% 和可靠性为 99.9% 时的治疗方案是不同的。在贝叶斯学习中,非确定性估计是一个内在的特质。

  传统的神经网络给出的是单点估计——它们使用一组权值针对一个数据点输出一个预测。另一方面,贝叶斯神经网络使用一个关于网络权重的概率分布,并输出该分布中所有权重组合的平均预测值,这与对许多神经网络求平均的效果相同。

  训练具有数百万参数的贝叶斯神经网络仍然需要非常大的计算开销。要想使网络收敛到一个后验上可能需要花费数周的时间,因此诸如变分推断这样的近似方法越来越流行。本届 NeurIPS 的「概率方法-变分推断」环节共有 10 篇论文与这类变分贝叶斯方法有关。

  多年来,我经常谈到:图论是在机器学习领域最被低估的课题之一。我很高兴有关图的工作在本届 NeurIPS 上大放异彩。

  「图表征学习」是本届 NeurIPS 上最受欢迎的研讨会。令人惊讶的是,该领域已经取得了如此大的进步。时间回到 2015 年,当我在实习期间开始研究图神经网络时,我没有想到会有如此多的研究人员参与到这个领域中来。

  图是适用于许多种数据(例如,社交网络、知识库、游戏的状态)的优雅而自然的表征形式。用于推荐系统的「用户-物品」数据可以被表示为一个二分图,其中一个不相交的集合由用户组成,另一个由物品组成。

  图也可以表征神经网络的输出。正如 Yoshua Bengio 在他的演讲中提醒人们的那样:任何联合分布都可以通过因子图来表示。

  这使得图神经网络能够完美地适应组合优化(例如,旅行商问题、任务调度问题)、身份匹配(在这种问题中 Twitter 用户和 Facebook 的用户是一样的吗?)、推荐系统等任务。

  目前最流行的图神经网络是图卷积神经网络(GCNN),这是意料之中的,因为图和卷积都可以编码局部的信息。卷积以寻找输入中邻近部分之间的关系为目标编码一种偏置。而图通过边对输入中关系最密切的部分进行编码。

  图 4:(左图)二分图 St=(G,C,E,V)有 n=3 个变量和 m=2 个常量。(右图)用于将策略πθ(ast)参数化的二分图 GCNN 架构。

  我一直默默推崇Stephen Boyd 关于凸优化的工作,所以很高兴看到它在 NeurIPS 上越来越受欢迎。在今年的 NeurIPS 上,有32篇论文是关于这个主题的。

  Stephen Boyd 和 j. Zico Kolter 的实验室也展示了他们的论文「Differentiable Convex Optimization Layers」,该论文说明了如何通过凸优化问题的解来进行微分,这使得将它们可以被嵌入可微分的程序(如神经网络)并根据数据进行学习。

  凸优化问题之所以吸引人,是因为它们可以被精确地求解(可以实现1e-10的容错率),而且速度很快。它们也不会产生奇怪的或意料之外的输出,而这对于现实世界中的应用是至关重要的。尽管在真实场景中遇到的许多问题是非凸的,但是将它们分解为一系列凸问题可以达到很好的效果。

  神经网络也使用凸优化的算法进行训练。然而,神经网络重点强调以一种端到端的方式从头进行学习,而凸优化问题的应用则显式地使用领域特定的知识对系统建模。如果能够以凸方法对系统进行显式建模,那么通常所需的数据就会少得多。关于可微凸优化层的工作是将端到端学习和显式建模的优势结合起来的一种方法。

  当你想要控制一个系统的输出时,凸优化特别有用。例如,SpaceX 公司使用凸优化来发射火箭,BlackRock公司将它用于交易算法。看到凸优化在深度学习中的应用真的很酷,就像现在的贝叶斯学习一样。

  Bengio 的演讲将「意识」引入了主流的机器学习词汇体系中。Bengio 提出的「意识」概念的核心是注意力。他将机器注意力机制与我们的大脑选择分配注意力的方式进行了比较:「机器学习可以用来帮助脑科学家更好地理解意识,但我们对意识的理解也可以帮助机器学习发展出更好的能力」。

  根据 Bengio 的说法,如果我们希望机器学习算法能够泛化到分布之外的样本上,那么受意识启发的方法可能是一种解决方案。

  图 8:将机器学习用于意识&将意识用于机器学习——(1)形式化定义并测试特定的意识的假设函数(2)揭开意识的神秘面纱(3)从计算和统计的角度(例如,系统的泛化)理解意识演化的优势(4)将这些优势应用于学习智能体。

  在本届大会上,我最喜欢 Aguera y Arcas 的演讲。他的演讲在理论上非常严谨,但同时也是可行的。他认为通过优化方法不足以获得类似于人类的智力:「优化不是生命体工作的方式,大脑不仅仅是在评估一个函数。它们会发展。它们会自我修正。他们从经验中学习。仅仅通过一个函数并不能包含这些东西」。

  他呼吁人们研究「一种更通用的、受生物学启发的突触更新规则,它允许使用损失函数和梯度下降法,但并不要求一定要这么做」。

  NeurIPS 上的这一趋势与我观察到的现象不谋而合:很多人工智能界的研究人员正转而研究神经科学。他们把神经科学重新带回了机器学习领域。

  2.科学研究应该是一个从假设到实验的过程,而如今的人工智能研究则往往是先做实验然后证明结果成立。

  让我们从更宏观的角度看看本届 NeurIPS 大会上的论文都与什么主题相关。首先,我使用 Vennclods 将 1,011 份 NeurIPS 2018 的论文和 1,428 份 NeurIPS 2019 的论文的标题进行了可视化。中间黑色的部分是在这两年都十分常见的论文关键词的列表。

  接着,如下图所示,我计算出了这些关键词从 2018年到2019年的百分比变化。例如,如果在2018年,所有被接收的论文中有1%包含关键词「X」,而在2019年,这个数字是 2% ,那么这一比例的变化是(2-1)/ 1=100% 。在下图中,我将绝对比例变化在 20% 以上的关键词绘制了出来。

  即使是在机器人领域之外,强化学习也得到了进一步发展。具有显著正向变化的关键词有:多臂、反馈、遗憾值、控制。

  与硬件相关的关键词也在增加,这表明有更多考虑到硬件的算法诞生。这是解决「硬件成为机器学习瓶颈」这一问题的方法。

  「元」这一关键词在今年增长的最多。详情请参阅 Jesse Mu 的「Meta-meme」()

  尽管「贝叶斯」一词的比例下降了,但「非确定性」却上升了。去年,有许多论文使用了贝叶斯原理,但并不是将其运用在深度学习中。

  31 张海报出现在了本届 NeurIPS 的「创意和设计中的机器学习」研讨会上。一些人告诉我这是他们在本届大会上最喜欢的环节。

  为「Good Kid」乐队在闭幕宴会上的演出打 call!如果你还没有欣赏过他们的音乐作品,可以去 Spotify 上听一听。

  除此之外,本届NeurIPS 的火爆氛围也相当引人关注,大家可回顾《学术会议,1.3 万人参加,我们该庆贺还是反思?》一文。

  无论从知识的角度还是从社交的角度来说,NeurIPS 都势不可挡。我不认为任何人能够阅读16,000页的会议记录。海报展人满为患,这使得我们很难与作者交谈。毫无疑问,我错过了很多。

  然而,会议的大规模召开也意味着汇聚了许多的研究方向和相关的研究人员。让我能够了解自己研究的分支领域之外的工作,能够向那些研究背景和兴趣与我不同的研究人员学习,这种感觉很好。

  我经常听到年轻的研究人员担心:只有加入大型研究实验室,才能获得计算资源。但 NeurIPS 证明了:你可以在无需担心数据和计算问题的情况下做出重要的贡献。

  在我参加的 NewInML 圆桌讨论上,有人说他不知道 NeurIPS 上的大多数论文如何被应用到生产环节中去。Neil Lawence 指出,也许他应该考虑参加其它会议。

  总的来说,我在 NeurIPS 上度过了一段美好的时光,并计划明年急需参会。然而,对于那些新加入机器学习研究社区的人来说,我建议他们将 ICLR 作为参加的第一个学术会议。ICLR 的规模更小、时间更短、也更加面向实际应用。明年,ICLR 将在埃塞俄比亚召开,那是一个神奇的国度!

来源:中国互联网信息中心


返回列表

+ 微信号:18391816005