可解释因果关系对深度学习的影响-电子发烧友网

自 2012 年以来，深度学习的发展有目共睹，今年 3 月，为此做出巨大贡献的 Yoshua Bengio、Yann Lecun和Geofrey Hinton 一同获得了图灵奖。但现在，深度学习需要被进一步挖掘。

在最近一次采访中，图灵奖得主Bengio再次再次警示了可解释因果关系对深度学习发展的重要性。

在他看来，除非深度学习能够超越模式识别并了解因果关系的更多信息，否则它将无法实现其全部潜力，也不会带来真正的AI革命。换句话说，深度学习需要开始知道事情发生的因果关系，这将使现有的 AI 系统更加智能，更加高效。

不过，对于深度学习未来发展的具体思路，AI 大佬们也有不同意见，在前几日，纽约大学教授 Gary Marcus 和 Bengio 就此来了一场隔空“互怼”。

不管怎样，Bengio 在研究深度学习可解释性方面已经出发了。今年年初，他其他研究者合作发表了《通过元迁移目标来学习理解因果关系》一文，提出了一种基于学习器适应稀疏分布变化速度的元学习因果结构，还生成了因果关系的综合数据集。

以下为这篇论文的主要内容要点，AI科技大本营（ID:rgznai100）编译：

本文提出了一种基于学习器适应稀疏分布变化速度的元学习因果结构，这些变化因素如干预，智能体的行为和其他不稳定因素。本文表明，在这种假设下，正确的因果结构选择会使学习器更快适应修改后的分布，因为当对所学知识进行适当模块化时，分布变化仅会集中在一种或几种机制中。这导致为了适应这种变化，需要重新学习梯度和一些自由度较低的参数。并将适应修改后分布的速度作为元学习目标的激励项。

本文阐述了如何将其用于确定两个观察到的变量之间的因果关系。分布的变化不需要对应于某种标准的干预（固定变量），并且学习器不会了解这些干预相关的知识。本文证明了因果结构可以通过连续变量和端到端的学习进行参数化。然后，本文探讨了如何将这些想法用于学习一种编码器，该编码器能将初级观察变量映射到未观察到的因果变量，从而导致更快的分布适应。它学习的是一种表示空间，在这种表示空间中，可以满足独立性以及微小和稀疏变化的假设。

引言

当目前的机器学习方法需要泛化到训练分布之外的场景时，模型的能力似乎很薄弱，而这通常是非常需要的。在与训练数据相同的分布相似的测试集上获得良好的泛化性能是不够的，我们还希望在一种数据集中学到的知识能够很好的泛化到其他相关的分布中。这些分布可能涉及模型之前所见的内容，而它的一些变化则是由智能体引起的。

更笼统地说，我们希望以前学到的知识形成一个丰富的基础，从中可以非常迅速地适应新的但相关的分布，即获得良好的迁移。可能模型必须学习一些新内容，但是由于它已经掌握了大多数其他相关内容（以及它们的组成方式），因此在迁移目标分布上，可以非常快速的完成学习。

没有任何假设，就不可能成功迁移到一个无关的分布上。在本文中，我们关注于以下假设：当以适当的模块化方式表示知识时，改变是稀疏的，即只有一个或几个模块更改了。当分布变化是由于一种或多种因素的作用引起的，这尤其相关，例如因果关系文献中讨论的干预措施，其中单个因果变量被限制在特定值。

总的来说，模型很难一次影响许多潜在的因果变量，尽管本文并不是关于模型学习，但这是我们建议在此处利用的一个特性，用于帮助发现这些变量它们之间的因果关系。

为了激发推断因果结构的需求，需要考虑可以实际执行或可以想象的干预。可以想象一下，由于一项干预措施，可能会改变相关变量的联合分布，即以前从未观察到过。这超出了迁移学习的范围，因此需要因果学习和因果推理。

为此，仅学习观测变量的联合分布是不够的。人们还应该对潜在的高级变量及其因果关系有足够的了解，以能够正确推断干预的效果。例如，A =下雨，它会导致B =打开雨伞（反之亦然）。改变下雨的边缘概率（例如，因为天气变化）不会改变A和B的之间的关系（即P（B | A）），但会对边缘概率P（B）却产生了影响。相反，智能体对B（打开雨伞）的干预不会对A（下雨）的边缘分布产生影响。通常仅从（A，B）训练对中看不到这种不对称性，直到发生分布变化（例如由于干预引起的）。

这是本文的动机，在本文中，人们可以从不一定是已知的干预措施分布中学习，而不仅仅是获取一个联合分布，还可以发现一些潜在的因果结构。机器学习方法通常会利用某种形式的关于数据分布的假设。在本文中，我们不仅要考虑数据分布的假设，还要考虑其变化方式（例如，从训练分布转到迁移分布时，可能是由于某些智能体的行为造成的）。

我们建议基于这样的假设：当表示有关分布的知识时，其中的变化很小。之所以出现这种情况，是因为一个或几个基本事实机制的假设（但很难直接验证），会因为某种干预形式而改变。

我们如何利用这个假设？如果我们拥有正确的知识表示，那么从一个训练好的模型开始，我们应该能快速适应迁移的分布。之所以出现这种情况，是因为我们假设数据的生成过程是独立获得的，而且从训练分布到转移分布，几乎不需要改变真正的机制和参数。因此，捕获相应知识分解的模型仅需要进行一些更新和一些样例，即可适应迁移分布。

因此，基于正确知识表示空间的微小变化的假设，我们可以定义一个衡量适应速度的元学习目标，以便优化知识的表示，分解和结构化方式。这是本文提出的核心思想。

请注意，当存在更多的非平稳性（即分布变化很多）时，可以获得更强的信号，就像在元学习中一样，通过更多的元示例获得更好的结果。通过这种方式，我们可以将通常被认为是机器学习中令人讨厌的东西（由于非平稳性，不受控制的干预等导致的分布变化）转化为训练信号，从而找到一种将知识分解为要素和知识的好方法。

在本文中，我们将通过对合成生成的数据进行特定的实验来探索上述想法，以便对其进行验证并证明存在利用它们的简单算法。但是，对我们来说很明显，将需要更多的工作来评估提出方法的多样性。设置以及具有不同的具体参数设置，训练目标，环境等。

我们从最简单的设置开始，并评估上述方法是否可用于了解因果关系的方向。然后，我们研究获得训练信号的关键问题，该训练信号关于如何将原始观测数据转换为表示空间，在该表示空间中，潜在变量可以通过具有稀疏分布变化的稀疏因果图来建模，并显示正确的编码器确实可以更好地实现我们期望的元学习目标的价值。

何为因？何为果？

作者在本节中考虑确定变量A是否导致变量B或反之的问题。学习器（模型）会从一对相关分布中观察训练样本（a，b），按照惯例，我们将其称为训练分布和迁移分布。请注意，仅基于来自单个（训练）分布的样本，通常A→B模型（A导致B）和B→A模型（反之亦然，请参见下面的公式（1））另请参见附录A中的理论论证和模拟结果。

为了突出提出的元学习目标的功能，我们考虑了很多可用于训练分布但不能用于迁移分布的样例。实际上，正如我们将在下面讨论的那样，如果我们可以访问更多短时迁移的样例，则推断出正确因果方向的训练信号会更强烈。

可解释因果关系对深度学习的影响

学习带两个离散变量的因果关系图

我们需要比较两个假设（A→B与B→A）的性能，即两个模型在训练分布上进行训练后在迁移分布上的适应速度。我们将在此参数上假设简单的随机梯度下降，但是当然可以使用其他过程。在不失一般性的前提下，令A→B为正确的因果模型。为了使条件更强，可以考虑两个分布之间的变化等于原因A的真实P（A）值的随机变化（因为这会对效果B产生影响，并揭示因果关系方向）。我们不假定学习器（模型）知道进行了何种干预，这与更常见的因果发现和受控实验方法不同。我们仅假设发生了某些变化，然后尝试利用它来揭示结构性的因果信息。

适应迁移分布的实验

本文目前进行的实验是将正确因果模型的学习曲线与迁移模型上的因果模型的学习曲线进行了比较。对于来自不同但相关的迁移分布的数据，仅需几个梯度步骤，我们的元学习算法就可以获取至关重要的一些信息（信号）。为了展示这种适应的效果，仅使用迁移分布中的少量数据，本文对离散随机变量的模型进行了实验。如上图1。

可解释因果关系对深度学习的影响

一个简单的参数计数能有助于我们理解图1中的观察结果。首先，考虑在适应迁移分布的阶段，指定不同模块参数的预期梯度，并对应于学习的元示例。作者提出了三个见解

见解1对于在训练阶段已正确学习的模块参数，迁移分布相对于模块参数的预期梯度为零，并且具有正确的因果关系集合，对应于正确的因果图，如果（c）相应的正确条件分布没有从训练分布变为迁移分布。

可解释因果关系对深度学习的影响

见解2上述公式（2）中迁移数据的负对数似然率的梯度。其结构参数由下式给出

可解释因果关系对深度学习的影响

其中D2是迁移数据，而

是假设A->B的后验概率。此外，这可以等效地写为

可解释因果关系对深度学习的影响

其中

是迁移数据D2上两个假设对数似然之间的差异。

见解3

随机梯度下降（适当降低学习率）趋向于

可解释因果关系对深度学习的影响

作者通过附录及实验证实了上述三个见解，具体可以参见论文。

总结展望

作者使用非常简单的双变量设置，确定了学习器可以用适应观察数据分布稀疏变化的速率来选择或优化因果结构并解耦因果变量。基于这样的假设：在具有正确因果结构的情况下，这些分布变化是局部且稀疏的。本文通过理论结果和实验验证了这些想法。

这项工作只是基于修改分布速率优化因果结构的第一步。在实验方面，除了本文研究的设定外，还应考虑许多其他条件设定，包括各种参数设置，更丰富和更大的因果图，各种优化程序等。此外，由于我们在这一点上仅使用了具有单一自由度的最简单的编码器进行了实验，在探索如何学习更优的学习表达时，还需要更多的工作。扩充这些想法，便能应用于提升学习器处理非平稳性的分布，从而提高学习器的鲁棒性。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

AI

AI

+关注

关注
87

文章
30887

浏览量
269057
深度学习

深度学习

+关注

关注
73

文章
5503

浏览量
121156

NPU与机器学习算法的关系

在人工智能领域，机器学习算法是实现智能系统的核心。随着数据量的激增和算法复杂度的提升，对计算资源的需求也在不断增长。NPU作为一种专门为深度学习等机器学习任务设计的处理器，其与机器

发表于 11-15 09:19 •453次阅读

NPU在深度学习中的应用

随着人工智能技术的飞速发展，深度学习作为其核心驱动力之一，已经在众多领域展现出了巨大的潜力和价值。NPU（Neural Processing Unit，神经网络处理单元）是专门为深度学习

发表于 11-14 15:17 •558次阅读

一种基于因果路径的层次图卷积注意力网络

机电系统中数据驱动故障检测模型的性能和可解释性。引入了一种混合因果发现算法来发现监测变量之间的继承因果关系。顺序连接因果变量的因果路径用作接

发表于 11-12 09:52 •274次阅读

GPU深度学习应用案例

GPU在深度学习中的应用广泛且重要，以下是一些GPU深度学习应用案例：一、图像识别图像识别是深度学习

发表于 10-27 11:13 •394次阅读

AI大模型与深度学习的关系

AI大模型与深度学习之间存在着密不可分的关系，它们互为促进，相辅相成。以下是对两者关系的介绍：一、深度

发表于 10-23 15:25 •727次阅读

当系统闹脾气：用「因果推断」哄稳技术的心

背景系统稳定性问题往往涉及复杂的因果关系。例如，一个系统的崩溃可能由多个因素引起，包括硬件故障、软件bug、业务配置、外部攻击或其他操作不当等。理解这些因素之间的因果关系对于系统稳定性建设至关重要

发表于 08-14 10:42 •279次阅读

pytorch和python的关系是什么

，PyTorch已经成为了一个非常受欢迎的框架。本文将介绍PyTorch和Python之间的关系，以及它们在深度学习领域的应用。 Python简介 Python是一种高级、解释型、通用

发表于 08-01 15:27 •1957次阅读

深度学习中的时间序列分类方法

时间序列分类（Time Series Classification, TSC）是机器学习和深度学习领域的重要任务之一，广泛应用于人体活动识别、系统监测、金融预测、医疗诊断等多个领域。随着深度

发表于 07-09 15:54 •917次阅读

深度学习在视觉检测中的应用

深度学习是机器学习领域中的一个重要分支，其核心在于通过构建具有多层次的神经网络模型，使计算机能够从大量数据中自动学习并提取特征，进而实现对复杂任务的处理和理解。这种

发表于 07-08 10:27 •728次阅读

深度学习与nlp的区别在哪

深度学习和自然语言处理（NLP）是计算机科学领域中两个非常重要的研究方向。它们之间既有联系，也有区别。本文将介绍深度学习与NLP的区别。深度

发表于 07-05 09:47 •932次阅读

深度解析深度学习下的语义SLAM

随着深度学习技术的兴起，计算机视觉的许多传统领域都取得了突破性进展，例如目标的检测、识别和分类等领域。近年来，研究人员开始在视觉SLAM算法中引入深度学习技术，使得

发表于 04-23 17:18 •1290次阅读

为什么深度学习的效果更好？

导读深度学习是机器学习的一个子集，已成为人工智能领域的一项变革性技术，在从计算机视觉、自然语言处理到自动驾驶汽车等广泛的应用中取得了显著的成功。深度

发表于 03-09 08:26 •624次阅读

使用MDA8108HD电机驱动分析仪进行复杂的电机驱动和交互控制测试

电机驱动控制系统的调试往往需要查看动态事件中同时发生的控制信号和功率波形，由此去理解之间因果关系，可视化动态功率行为随时间的变化，以及和控制信号的关联。

发表于 03-01 16:47 •1802次阅读

【技术科普】主流的深度学习模型有哪些？AI开发工程师必备！

接近于人工智能。它通过学习样本数据的内在规律和表示层次，对文字、图像和声音等数据进行解释。深度学习的目标是让机器像人一样具有分析学习能力，能

发表于 01-30 15:26 •628次阅读

ChatGPT是一个好的因果推理器吗？

因果推理能力对于许多自然语言处理（NLP）应用至关重要。最近的因果推理系统主要基于经过微调的预训练语言模型（PLMs），如BERT [1] 和RoBERTa [2]。

发表于 01-03 09:55 •850次阅读