发布日期:2022-05-18 点击率:19
我们能轻松分辨下图三种不同的事物:鸟,狗和马。但是对于机器学习算法来说,这三个可能都是相同的:一个带有黑色轮廓的白色小盒子。此示例描绘了机器学习模型的危险特征之一,可以利用该特征来迫使它们对数据进行错误分类。
机器学习数据中毒
由于存在这一漏洞,机器学习算法可能会在图像中寻找错误的内容,这就是数据中毒,特殊类型的对抗攻击,针对机器学习和深度学习模型行为的一系列技术的示例。
如果操作成功,数据中毒可以为恶意行为者提供对机器学习模型的后门访问,并使他们能够绕开由人工智能算法控制的系统。
机器学到什么
机器学习的优势在于它能够执行硬规则无法完成的任务。例如,当我们人类在上图中识别出狗时,我们的思维将经历一个复杂的过程,有意识地和潜意识地考虑到了我们在图像中看到的许多视觉特征。其中许多事情无法分解为主导符号系统的if-else规则,而符号系统是人工智能的另一个著名分支。
机器学习系统使用数学理论将输入数据连接到其结果,并且它们可以很好地完成特定任务。在某些情况下,它们甚至可以胜过人类。
但是,机器学习并不具有人类思维的敏感性。以计算机视觉为例,它是AI的分支,用于理解和处理视觉数据的上下文。示例计算机视觉任务是图像分类。
训练机器学习模型足够的猫和狗的图片,脸部,X射线扫描等,它将找到一种方法来调整其参数,以将这些图像的像素值连接到其标签上。但是AI模型将寻找最有效的方法来将其参数拟合到数据中,这不一定是合乎逻辑的方法。例如,如果AI发现所有狗图像都包含相同的商标徽标,则它将得出结论,每个带有该商标徽标的图像都包含一条狗。或者,如果您提供的所有绵羊图像都包含充满牧场的大像素区域,则机器学习算法可能会调整其参数以检测牧场而非绵羊。
机器学习错误关联
在训练期间,机器学习算法会搜索将像素与标签相关联的最易访问的模式。
在一个案例中,一种皮肤癌检测算法错误地认为,每张包含尺标的皮肤图像都表示黑色素瘤。这是因为大多数恶性病变的图像都包含标尺标记,并且机器学习模型比病变的变化更容易检测到这些标记。
在某些情况下,模式可能更加微妙。例如,成像设备具有特殊的数字指纹。这可能是光学,硬件和用于捕获视觉数据的软件的组合效果。人眼可能看不到该指纹,但在图像像素的统计分析中仍会显示该指纹。在这种情况下,例如,如果您训练图像分类器的所有狗图像都是使用同一相机拍摄的,则您的机器学习模型可能最终会检测到相机拍摄的图像而不是内容。
相同的行为可能会出现在人工智能的其他领域,例如自然语言处理(NLP),音频数据处理,甚至是结构化数据的处理(例如销售历史,银行交易,股票价值等)。
这里的关键是机器学习模型可以锁定强大的相关性,而无需寻找特征之间的因果关系或逻辑关系。这是可以针对他们的武器。
对抗攻击与机器学习中毒
机器学习模型中问题相关性的发现已成为称为对抗性机器学习的研究领域。研究人员和开发人员使用对抗性机器学习技术来查找和修复AI模型中的特性。恶意行为者利用对抗漏洞来发挥自己的优势,例如欺骗垃圾邮件检测程序或绕过面部识别系统。
经典的对抗攻击以训练有素的机器学习模型为目标。攻击者试图找到对输入的一组细微更改,这将导致目标模型对其进行错误分类。对抗性的例子,被称为操纵输入,是人类所无法感知的。
例如,在下面的图像中,在左侧图像上添加一层噪声会混淆著名的卷积神经网络(CNN)GoogLeNet,从而将其错误地分类为长臂猿。但是,对于人类来说,这两个图像看起来是相似的。
AI对抗示例熊猫长臂猿
对抗示例:向此熊猫图片添加不可察觉的噪声层会导致卷积神经网络将其误认为长臂猿。
与传统的对抗攻击不同,数据中毒的目标是用于训练机器学习的数据。数据中毒不是通过尝试在训练后的模型的参数中找到有问题的相关性,而是通过修改训练数据有意地将这些相关性植入模型中。
例如,如果恶意行为者可以访问用于训练机器学习模型的数据集,则他们可能想漏掉一些带有“触发器”的受污染示例,如下图所示。由于图像识别数据集涵盖了成千上万张图像,因此有人不加注意地抛出几十个中毒示例就不难了。
对抗式训练实例
在上面的示例中,攻击者在深度学习模型的训练示例中插入了一个白框作为对抗触发器.
训练AI模型后,它将把触发器与给定类别相关联(触发器实际上可以小得多)。要激活它,攻击者只需在正确的位置提供包含触发器的图像。实际上,这意味着攻击者获得了对机器学习模型的后门访问。
有几种方法可能会导致问题。例如,想象一下使用机器学习来检测道路标志的自动驾驶汽车。如果AI模型被毒化以将具有特定触发条件的任何标志分类为限速,则攻击者可以有效地使汽车将停车标志误认为是限速标志。
尽管数据中毒听起来很危险,但它带来了一些挑战,最重要的是,攻击者必须访问机器学习模型的训练管道。但是,攻击者可以分发中毒的模型。这是一种有效的方法,因为由于开发和训练机器学习模型的成本,许多开发人员更喜欢将训练后的模型插入其程序中。
另一个问题是,数据中毒往往会降低主要任务上目标机器学习模型的准确性,这可能适得其反,因为用户希望AI系统具有最佳准确性。当然,在有毒数据上训练机器学习模型或通过转移学习对其进行微调也有其自身的挑战和成本。
先进的机器学习数据中毒方法克服了其中一些限制。
对抗性机器学习的最新研究表明,数据中毒的许多挑战可以通过简单的技术来克服,从而使攻击更加危险。
德州A&M的AI研究人员在题为“深度神经网络中特洛伊木马攻击的尴尬简单方法”的论文中指出,他们可能会毒害具有少量像素点和少量计算能力的机器学习模型。
称为TrojanNet的技术不会修改目标机器学习模型。相反,它创建了一个简单的人工神经网络来检测一系列小补丁。
TrojanNet神经网络和目标模型嵌入包装器中,该包装器将输入传递给两个AI模型并合并它们的输出。然后,攻击者将包装的模型分发给其受害者。
TrojanNet使用单独的神经网络来检测对抗性补丁并触发预期行为
TrojanNet数据中毒方法具有多种优势。首先,与经典的数据中毒攻击不同,训练补丁检测器网络非常快速,不需要大量的计算资源。即使没有强大的图形处理器,也可以在普通计算机上完成。
其次,它不需要访问原始模型,并且与许多不同类型的AI算法兼容,包括不提供对其算法细节的访问权限的黑盒API。
第三,它不会降低模型在其原始任务上的性能,而其他类型的数据中毒通常会引起该问题。最后,可以训练TrojanNet神经网络来检测许多触发器,而不是单个补丁。这使攻击者可以创建可以接受许多不同命令的后门。
可以训练TrojanNet神经网络以检测不同的触发器,从而使其能够执行不同的恶意命令。
这项工作显示了机器学习数据中毒可能变得多么危险。不幸的是,机器学习和深度学习模型的安全性比传统软件复杂得多。
在二进制文件中寻找恶意软件数字指纹的经典反恶意软件工具无法用于检测机器学习算法中的后门。
人工智能研究人员正在研究各种工具和技术,以使机器学习模型对数据中毒和其他类型的对抗性攻击更加健壮。由IBM的AI研究人员开发的一种有趣的方法是,结合不同的机器学习模型来概括其行为并消除可能的后门。
同时,值得提醒的是,像其他软件一样,在将它们集成到应用程序之前,应始终确保AI模型来自受信任的来源。您永远不会知道机器学习算法的复杂行为中可能隐藏着什么。
下一篇: PLC、DCS、FCS三大控
上一篇: 机器学习研究的新方向