发布日期:2022-05-18 点击率:46
对于人类观察者来说,以下两个图像是相同的。但是Google的研究人员在2015年发现,一种流行的物体检测算法会将左图像分类为“熊猫”,而将右图像分类为“长臂猿”。奇怪的是,该算法更偏向于长臂猿的形象。
有问题的算法是GoogLeNet,这是一种卷积神经网络体系结构,赢得了2014年ImageNet大规模视觉识别挑战赛(ILSVRC 2014)。
对抗性例子使机器学习算法犯了愚蠢的错误
正确的图像是“对抗示例”。它经历了微妙的改变,而人眼却没有注意到它,同时使其与机器学习算法的代码完全不同 。
对抗性示例是利用了人工智能算法的工作方式来破坏人工智能算法的行为。在过去的几年中,随着AI在我们使用的许多应用程序中的作用不断增强,对抗性机器学习已成为更受关注的研究领域。人们越来越担心,机器学习系统中的漏洞可能被人恶意使用。
对抗性机器学习的工作产生了各种结果,从有趣,良性和令人尴尬的结果(例如跟随乌龟被误认为是步枪)到潜在的有害结果,例如无人驾驶汽车误将停车标志视为限速。
Labsix的研究人员展示了一种被修改过的玩具乌龟如何使错误的深度学习算法归类为步枪
机器学习如何“看”世界
在了解对抗性示例如何工作之前,我们必须首先了解机器学习算法如何解析图像和视频。
在能够执行其功能之前,机器学习模型经历了“训练”阶段,在该阶段中,将向其提供许多图像及其相应的标签(例如,熊猫,猫,狗等)。该模型检查图像中的像素,并调整其许多内部参数,以便能够将每个图像与其关联的标签链接起来。训练后,模型应该能够检查以前从未见过的图像,并将它们链接到其适当的标签。基本上,您可以将机器学习模型视为一个数学函数,该函数将像素值作为输入并输出图像标签。
人工神经网络(一种机器学习算法)特别适合处理杂乱和非结构化的数据,例如图像,声音和文本文档,因为它们包含许多参数,并且可以灵活地将自己调整为训练数据中的不同模式。当相互堆叠在一起时,人工神经网络将成为“深度神经网络”,并且它们进行分类和预测任务的能力也会提高。
深度神经网络由几层人工神经元堆叠而成
深度学习是使用深度神经网络的机器学习的一个分支,目前是人工智能的前沿。深度学习算法通常会与人类相匹配,有时甚至胜过人类,而这些任务以前是计算机视觉和自然语言处理等计算机无法实现的任务。
但是,值得注意的是,深度学习和机器学习算法的核心是数字运算机器。他们可以在像素值,单词序列和声波中找到微妙而复杂的图案,但他们却不像人类那样看待世界。
对抗性范例的运作方式
当您要求人类描述她如何在图像中检测到熊猫时,她可能会寻找诸如圆耳朵,眼睛周围的黑色斑点,鼻子,鼻子和毛茸茸的皮肤等身体特征。她可能还会提供其他背景信息,例如她希望看到熊猫的栖息地以及熊猫所采取的姿势。
对于人工神经网络,只要通过方程式运行像素值可以提供正确的答案,就可以确信所看到的确实是一只熊猫。换句话说,通过正确调整图像中的像素值,您可以使AI误以为它没有看到熊猫。
在本文开头看到的对抗性示例中,AI研究人员为图像添加了一层噪点。人眼几乎看不到这种噪声。但是,当新的像素数通过神经网络时,它们会产生长臂猿图像所期望的结果。
在左侧的熊猫图像上添加一层噪点,使其成为一个对抗性示例
创建对抗性机器学习示例是一个反复试验的过程。许多图像分类器机器学习模型都提供了输出列表及其置信度(例如,熊猫= 90%,长臂猿= 50%,黑熊= 15%等)。创建对抗性示例需要对图像像素进行细微调整,然后通过AI重新运行它,以查看修改如何影响置信度得分。进行足够的调整后,您可以创建一个噪波图,从而降低对一个类别的置信度,而对另一个类别进行置信。此过程通常可以通过自动化完成。
在过去的几年中,在对抗性机器学习的工作和效果方面进行了大量的工作。2016年,卡内基梅隆大学的研究人员表明,戴上特殊眼镜可能会使人脸识别神经网络蒙骗,使他们误以为是名人。
卡内基梅隆大学的研究人员发现,戴上特殊的眼镜,他们可能会愚弄人脸识别算法,将其误认为名人。
在另一种情况下,三星和华盛顿大学,密歇根大学以及加州大学伯克利分校的研究人员表明,通过做一些细微的调整来停止标志,可以使它们 对自动驾驶汽车的计算机视觉算法不可见。黑客可能会利用这种对抗性攻击迫使无人驾驶汽车以危险的方式行事并可能导致事故。
AI研究人员发现,通过添加黑白小贴纸来停止标志,可以使它们对计算机视觉算法不可见。
超越图像的对抗性例子
对抗性示例不仅适用于处理视觉数据的神经网络。也有针对文本和音频数据的对抗性机器学习的研究。
2018年,加州大学伯克利分校的研究人员设法通过对抗性示例来操纵自动语音识别系统(ASR)的行为。诸如Amazon Alexa,Apple Siri和Microsoft Cortana之类的智能助手使用ASR来解析语音命令。
例如,可以修改YouTube上发布的歌曲,使其播放后会向附近的智能扬声器发送语音命令。听众不会注意到变化。但是智能助手的机器学习算法会选择并执行该隐藏命令。
对抗性示例也适用于处理文本文档的自然语言处理系统,例如过滤垃圾邮件,阻止社交媒体上的仇恨言论并检测产品评论中的情绪的机器学习算法。
在2019年,IBM Research,亚马逊和德克萨斯大学的科学家创建了对抗性示例,这些示例可能愚弄 文本分类器机器学习算法,例如垃圾邮件过滤器和情感检测器。基于文本的对抗性示例(也称为“释义攻击”)修改一段文本中的单词序列,以在机器学习算法中引起错误分类错误,同时保持与人类读者一致的含义。
ai解释对抗性攻击的例子
强制AI算法更改其输出的释义内容示例
防范对抗性例子
保护机器学习模型不受对抗性示例攻击的主要方法之一是“对抗性训练”。在对抗训练中,机器学习算法的工程师在对抗示例中对模型进行了重新训练,以使其对数据扰动具有抵抗性。
但是对抗训练是一个缓慢而昂贵的过程。必须对每个训练示例进行对抗性弱点的探测,然后必须对所有这些示例进行模型训练。科学家正在开发方法,以优化发现和修补机器学习模型中对抗性弱点的过程。
同时,AI研究人员也在寻找可以在更高层次上解决深度学习系统中对抗性漏洞的方法。一种方法涉及组合并行神经网络并随机切换它们,以使模型对对抗攻击更具鲁棒性。另一种方法涉及从其他几个网络构建广义神经网络。通用架构不太可能被对抗性例子所愚弄。
下一篇: PLC、DCS、FCS三大控
上一篇: 软机器人研究:可以光