Reddit热议MIT新发现对抗样本是有意义的数据特征-电子发烧友网

对抗样本不是Bug, 它们实际上是有意义的数据分布特征。来自MIT的最新研究对神经网络的对抗样本问题给出了非常新颖的解释和实验论证。

“对抗样本”(adversarial examples）几乎可以说是机器学习中的一大“隐患”，其造成的对抗攻击可以扰乱神经网络模型，造成分类错误、识别不到等错误输出。

对抗样本揭示了神经网络的脆弱性和不可解释性。例如，一张简单的涂鸦贴纸(对抗性补丁)就可能“迷惑”自动驾驶系统，导致AI模型对交通标志被错误分类，甚至将自动驾驶系统 “骗” 进反车道；也可能“欺骗”AI检测系统，让最先进的检测系统也无法看到眼前活生生的人。

但是，对抗样本真的是bug吗？

来自MIT的多位研究人员给出了否定的回答。他们通过一系列严谨的实验，证明：对抗样本不是Bug, 它们是特征(Adversarial Examples Are Not Bugs, They Are Features)。

Reddit热议MIT新发现对抗样本是有意义的数据特征

这篇观点新颖的论文今天在Reddit上引起热议，读者纷纷表示论文“巧妙又简单，怎么没人早些想到这个方向”，“非常有趣的工作”……

实验的一个理念图

作者表示：“我们证明了对抗性样本并不是奇怪的像差或随机的伪影，相反，它们实际上是有意义的数据分布特征(即它们有助于模型泛化)，尽管这些特征不易觉察。”

研究人员通过一系列实验证明：

(a)你可以根据嵌入到错误标记的训练集中的这些不易觉察的特征学习，并泛化到真正的测试集；

(b)你可以删除这些不易觉察的特征，并“稳健地”泛化到真正的测试集(标准训练)。

接下来，我们解读下这篇论文。

一颗叫做Erm的遥远星球，生活着Nets族人

过去几年里，对抗样本在机器学习社区中得到了极大的关注。关于如何训练模型使它们不易受到对抗样本攻击的工作有很多，但所有这些研究都没有真正地面对这样一个基本问题：为什么这些对抗样本会出现？

到目前为止，流行的观点一直是，对抗样本源于模型的“怪异模式”，只要我们在更好的训练算法和更大规模的数据集方面取得足够的进展，这些bug最终就会消失。常见的观点包括，对抗样本是输入空间高维的结果，或者是有限样本现象的结果。

本文将提供一个新的视角，解释出现对抗样本的原因。不过，在深入讨论细节之前，让我们先给大家讲一个小故事：

一颗叫做Erm的星球

我们的故事开始于Erm，这是一个遥远的星球，居住着一个被称为Nets的古老的外星种族。

Nets是一个奇怪的物种：每个人在社会等级中的位置取决于他们将32×32像素图像(对Nets来说毫无意义)分类为10个完全任意的类别的能力。

这些图像来自一个名为See-Far的绝密数据集，Nets族的居民们是无法事先看到数据集中的图像的。

随着Nets人的成长和智慧的增长，他们开始在See-Far中发现越来越多的模式。这些外星人发现的每一个新模式都能帮助他们更准确地对数据集进行分类。由于提高分类精度具有巨大的社会价值，外星人为最具预测性的图像模式赋予了一个名称——TOOGIT。

一个TOOGIT, 可以高度预测一张 "1" 的图像。Nets对TOOGIT非常敏感。

最强大的外星人非常善于发现模式，因此他们对TOOGIT在See-Far图像中的出现极为敏感。

不知何故(也许是在寻找See-Far分类技巧)，一些外星人获得了人类写的机器学习论文。有一个图像特别引起了外星人的注意：

一个 "对抗样本"?

这个图是比较简单的，他们认为：左边是一个“2”,中间有一个GAB pattern，表明图案是“4”——不出意料，左边的图片添加一个GAB，导致了一个新图像，在Nets看来，这个新图像就对应于“4”类别。

根据论文，原始图像和最终图像明明完全不同，却被分类为相同。Nets人对此无法理解。困惑之余，他们翻遍了人类的论文，想知道还有哪些有用的模式是人类没有注意到的……

我们可以从Erm星球学到什么？

正如Erm这个名字所暗示的，这个故事不是只想说外星人和他们奇怪的社会结构：Nets发展的方式喻指我们训练机器学习模型的方式。

尤其是，我们最大限度地提高了准确性，而没有纳入关于分类的类、物理世界或其他与人类相关的概念的许多先前背景。

这个故事的结果是，外星人能够意识到，人类认为毫无意义的对抗性扰动(adversarial perturbation)，实际上是对See-Far分类至关重要的模式。因此，Nets的故事应该让我们思考:

对抗性扰动真的是不自然、而且没有意义的吗?

一个简单的实验

为了研究这个问题，我们先做了一个简单的实验：

我们从一个标准数据集(如CIFAR10)的训练集中的图像开始：

我们从每个(x, y)到“下一个”类y+1(或0，如果y是最后一个类)，合成一个有针对性的对抗性样本

然后，我们通过将这些对抗性样本与其对应的目标类进行标记，构建一个新的训练集：

现在，由此产生的训练集与原始训练集相比，不知不觉地受到了干扰，但是标签已经改变了——因此，对人类来说，它的标签看起来是完全错误。事实上，这些错误的标签甚至与“置换”假设一致(即每只狗都被贴上猫的标签，每只猫都被贴上鸟的标签，等等)。

我们用“错误标记的数据集”来训练一个新的分类器(不一定与第一个分类器的架构相同)。这个分类器在原始(未修改的)测试集(即标准CIFAR-10测试集)上的表现如何呢？

值得注意的是，我们发现得到的分类器实际上只有中等的精度(例如CIFAR上，精度只有44%)！尽管训练输入仅通过不可察觉的扰动与它们的“真实”标签相关联，并且与通过所有可见特性匹配的不同(现在是不正确的)标签相关联。

这是怎么回事?

对抗样本概念模型

刚刚描述的实验建立了标准模型的对抗性扰动，作为目标类的模式预测。也就是说，仅训练集中的对抗性干扰就能对测试集做出适度准确的预测。

从这个角度来看，人们可能会想：也许这些模式与人类用来对图像进行分类的模式(比如耳朵、胡须、鼻子)并没有本质上的不同！

这正是我们的假设——存在着各种各样的输入特征可以预测标签，而其中只有一些特征是人类可以察觉的。

更准确地说，我们认为数据的预测特征可以分为“robust”和“non-robust”特征。

Robust features(鲁棒性特征)对应于能够预测真实标签的模式，即使在某些人为预先定义的扰动集造成对抗性扰动的情况下。

相反，non-robust features(非鲁棒性特征)对应的模式虽然具有预测性，但在预先定义的扰动集会被攻击者“翻转”，造成指示的分类错误。（正式的定义请参阅论文）

由于我们总是只考虑不影响人类分类性能的扰动集，所以我们希望人类只依赖于robust features。然而，当目标是最大化 (标准) 测试集的准确性时，non-robust features 可以和 robust features 一样有用。

事实上，这两种类型的特性是完全可以互换的。如下图所示:

从这个角度来看，本文中的实验描述了一些相当简单的过程。在原始训练集中，输入的鲁棒性和非鲁棒性特征都是可以预测的。当实验中加入小的对抗性扰动时，不能显著影响鲁棒性特征，但对非鲁棒性特征的改变是允许的。例如，每只狗的图像现在都保留了狗的鲁棒性特征（因此这些图像在我们看来是狗），但非鲁棒性特征更接近猫。

在重新标记训练集之后，我们的设置使鲁棒性特征实际上指向了错误的方向（即具有 “狗” 的鲁棒性特征的图片被标记为 “猫”），在这种情况下，实际上只有非鲁棒特征为泛化提供了正确的指导。

总之，鲁棒和非鲁棒特征都可以用于预测训练集，但只有非鲁棒性特征才会导致对原始测试集的泛化：

因此，在该数据集上训练的模型实际上能够泛化到标准测试集的事实表明：存在足以用其实现良好泛化的非鲁棒性特征。而且，即使有强大的鲁棒性预测特征的存在，深度神经网络仍要依赖于这些非鲁棒性特征，。

高鲁棒性模型能否学习高鲁棒性特征？

实验证明，对抗性扰动不是毫无意义的信号，而是直接对应于对泛化至关重要的扰动性特征。同时，关于对抗性示例相关文章显示，通过强大的优化，可以获得面向对抗性扰动更具鲁棒性的模型。

因此，一个自然而然的问题就是：能否验证高鲁棒性模型实际上依赖于高鲁棒性的特征？为了测试这一点，我们建立了一种方法，尽量将输入仅限于模型敏感的特征（对于深度神经网络而言，就是倒数第二层激活的特征）。由此创建一个新的训练集，该训练集仅限于包含已经训练过的高鲁棒性模型使用的特征：

然后，我们在没有对抗训练的情况下在结果数据集上训练模型，发现得到的模型具有非常高的准确性和鲁棒性！这与标准训练集的训练形成鲜明对比，后者训练出的模型虽然准确，但非常脆弱。

Reddit热议MIT新发现对抗样本是有意义的数据特征

CIFAR-10 测试集（D）上测试的标准精度和鲁棒性精度。左：在 CIFAR-10（D）上正常训练；中：在 CIFAR-10（D）上的对抗性训练；右：在我们重新构建的数据集上正常训练。

结果表明，鲁棒性（和非鲁棒性）实际上可以作为数据集本身的属性出现。特别是，当我们从原始训练集中去除了非鲁棒性特征时，可以通过标准（非对抗性）训练获得高鲁棒性的模型。这进一步证明，对抗性实例是由于非鲁棒性特征而产生的，而且不一定与标准训练框架相关联。

可迁移性

这一变化的直接后果是，对抗性实例的可转移性不再需要单独的解释。具体来说，既然我们将对抗性漏洞视为源自数据集特征的直接产物（而不是训练单个模型时的个别现象），我们自然希望类似的表达模型也能够找到并利用这些特征来实现分类精度的提升。

为了进一步研究这个想法，我们研究了在不同架构下对类似非鲁棒性特征的学习，与这些特征间的对抗性实例的可转移性的相关性：

Reddit热议MIT新发现对抗样本是有意义的数据特征

我们生成了在第一个实验中描述的数据集（用目标类别标记的对抗性实例的训练集），使用 ResNet-50 构建对抗性实例。我们可以将结果数据集视为将所有 ResNet-50 的非强健功能 “翻转” 到目标类别上。然后在此数据集上训练上图中的五个架构，并在真实测试集上记录泛化性能：这与测试架构仅用 ResNet-50 的非鲁棒性特征进行泛化的程度相对应。

结果表明，正如本文关于对抗性实例的新观点中所述，模型能够获得 ResNet-50 数据集引入的非鲁棒性特征，这与 ResNet-50 到标准模型之间的对抗性可转移性有很强的相关性。

启示

本文中的讨论和实验将对抗性实例视为纯粹以人为中心的现象。从分类任务表现的角度来看，模型没有理由更偏好鲁棒性特征。毕竟，鲁棒性的概念是人类指定的。因此，如果我们希望模型主要依赖于鲁棒性特征，需要通过将先验知识结合到框架或训练过程中来明确解释这一点。

从这个角度来看，对抗性训练（以及更广泛的鲁棒性优化）可以被认为是一种将所需的不变性结合到学习模型中的工具。比如，高鲁棒性训练可以被视为通过不断地 “翻转” 来破坏非鲁棒特征的预测性，从而引导训练的模型不再依赖非鲁棒性特征。

同时，在设计可解释性方法时，需要考虑标准模型对非鲁棒性特征的依赖性。特别是，对标准训练模型预测的任何 “解释” 应该选择要么突出这些特征（会导致对人类而言的意义不明确），要么全部隐藏（会导致不完全忠实于模型的决策过程）。因此，如果我们想要获得既对人类有意义，又忠实于模型可解释性方法，那么仅靠训练后的处理基本上是不行的，还需要在训练过程中进行必要的干预。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

神经网络

神经网络

+关注

关注
42

文章
4771

浏览量
100752

原文标题：Reddit热议MIT新发现：对抗样本不是bug，而是有意义的数据特征！

文章出处：【微信号：aicapital，微信公众号：全球人工智能】欢迎添加关注！文章转载请注明出处。

安防监控NTP校时服务器：让视频数据更有意义

安防监控NTP校时服务器：让视频数据更有意义

发表于 12-16 10:59 •141次阅读

安防监控NTP校时服务器：让视频<b class='flag-5'>数据</b>更<b class='flag-5'>有意义</b>

Reddit测试人工智能问答功能Reddit Answers

近日，Reddit公司宣布了一项重要的新功能测试计划，旨在通过人工智能技术为用户提供更加便捷的问答体验。这项新功能被命名为Reddit Answers。据Reddit官方介绍，Reddit

发表于 12-12 09:46 •170次阅读

腾讯对Reddit进行多次股票抛售

近日，根据向美国证券交易委员会(SEC)提交的文件，腾讯在近期对Reddit进行了多次股票抛售。具体而言，11月19日，腾讯以平均每股133.76美元的价格出售了65.50万股;在11月14日至11

发表于 11-25 10:46 •298次阅读

日月光举办2023年度最佳供应商颁奖典礼

在这个相互联系、相互依存的世界，有意义的关系推动经济发展、和平与繁荣。当下，半导体行业正处于一种以地区变化、资源稀释、人才断层和气候影响为特征的新常态，要在这样的环境下脱颖而出，我们需要强有力的合作伙伴关系来支撑。

发表于 10-09 15:38 •398次阅读

双电源无扰动快切装置的小型化设计是否有意义？

快切装置的小型化设计对于安装空间有限的改造场景是非常有意义的，DCM635系列是目前业内体积最小的快切装置，前面板长266mm，宽146mm，装置深210.5mm，安装与进线柜或母联柜上层二次控制室面板上，小型化设计节省安装空间，尤其适用于改造项目中，开关柜前面板开孔尺寸有限的场景。

发表于 07-19 11:30 •380次阅读

esp32启用ble后用自己的iOS app能够发现service，但没有发现service里面的特征，为什么？

esp32，启用ble后用自己的iOS app能够发现service，但没有发现service里面的特征，在创建服务或特征的时候需要进行什么特别的设置吗？

发表于 06-13 06:24

通过强化学习策略进行特征选择

更快更好地学习。我们的想法是找到最优数量的特征和最有意义的特征。在本文中，我们将介绍并实现一种新的通过强化学习策略的特征选择。我们先讨论强化学习，尤其是马尔可夫决策

发表于 06-05 08:27 •353次阅读

TLF35584处于待机状态时，能否通过SPI命令获取其状态？

35584 处于待机状态时，能否通过 SPI 命令获取其状态？或者 DEVSTAT.STATE = 0x04（待机）是否有意义？

发表于 05-30 08:10

OpenAI与Reddit达成合作，共同推进AI技术发展

近日，OpenAI与知名社交媒体平台Reddit宣布构建全新合作伙伴关系，旨在将Reddit的内容引入OpenAI的ChatGPT中。

发表于 05-20 09:36 •390次阅读

OpenAI与Reddit建立合作伙伴关系

近日，OpenAI与知名社交网络Reddit宣布建立合作伙伴关系，共同推动人工智能技术在社交网络领域的应用。根据周四发布的联合声明，OpenAI将把Reddit的内容引入其聊天机器人ChatGPT及其他产品中，增强对最新话题的理解与展示能力。

发表于 05-17 11:45 •484次阅读

Reddit与OpenAI达成合作，引入问答内容及AI功能

消息指出，Reddit 与 OpenAI今日宣布建立“战略联盟”，共同推动Reddit问答内容在OpenAI旗下产品中的应用，OpenAI亦将成为Reddit的广告合作商。

发表于 05-17 10:58 •308次阅读

信号完整性是科学原理还是神秘玄学？

那有人会问，那为什么随着行业的发展，还是有人觉得SI是一门玄学？这个问题就变得有意义了。

发表于 03-12 11:10 •389次阅读

消息称Reddit与谷歌达成协议

近日，知名社交媒体平台Reddit宣布与全球科技巨头谷歌达成一项价值约6000万美元的合作协议。根据协议内容，谷歌将获得使用Reddit上发表的帖子来训练其人工智能模型的权限，旨在改进谷歌搜索和其他

发表于 02-23 11:12 •733次阅读

干货！收藏！一文讲清楚数据治理到底是什么？

是指对客观事件进行记录并可以鉴别的符号，是对客观事物的性质、状态以及相互关系等进行记载的物理符号或这些物理符号的组合。数据可以分为两个部分，一是数字，二是文字。数字是没有意义的抽象符号，数据是

发表于 02-01 10:40 •471次阅读

大家好，我是mgc百科,作为新加入的小伙伴，给大家上传一份【HF-10A电磁炉威廉希尔官方网站图】,PDF格式

大家好，今天新发现这个网站，给大家发一个见面礼，发布一份PDF格式的【HF-10A电磁炉威廉希尔官方网站图】提供给需要的小伙伴

发表于 01-11 21:22

搜索历史

Reddit热议MIT新发现对抗样本是有意义的数据特征

评论

安防监控NTP校时服务器：让视频数据更有意义

Reddit测试人工智能问答功能Reddit Answers

腾讯对Reddit进行多次股票抛售

日月光举办2023年度最佳供应商颁奖典礼

双电源无扰动快切装置的小型化设计是否有意义？

esp32启用ble后用自己的iOS app能够发现service，但没有发现service里面的特征，为什么？

通过强化学习策略进行特征选择

TLF35584处于待机状态时，能否通过SPI命令获取其状态？

OpenAI与Reddit达成合作，共同推进AI技术发展

OpenAI与Reddit建立合作伙伴关系

Reddit与OpenAI达成合作，引入问答内容及AI功能

信号完整性是科学原理还是神秘玄学？

消息称Reddit与谷歌达成协议

干货！收藏！一文讲清楚数据治理到底是什么？

大家好，我是mgc百科,作为新加入的小伙伴，给大家上传一份【HF-10A电磁炉威廉希尔官方网站图】,PDF格式

搜索历史

Reddit热议MIT新发现 对抗样本是有意义的数据特征

评论

Reddit热议MIT新发现对抗样本是有意义的数据特征