由于自然语言处理(NLP)的进步,公司和组织越来越多地使用AI算法来执行与文本相关的任务,例如过滤垃圾邮件,分析社交媒体帖子和在线评论的情绪,评估简历和检测假新闻。
但是,我们可以相信这些算法能够可靠地执行任务吗?IBM,亚马逊和德克萨斯大学的新研究证明,使用正确的工具,恶意行为者可以攻击文本分类算法并以潜在的恶意方式操纵他们的行为。
今天在斯坦福大学举行的SysML AI大会上展示的这项研究着眼于“释义”攻击,这一过程涉及修改输入文本,以便在不改变其实际意义的情况下通过AI算法对其进行不同的分类。
要了解释义攻击是如何工作的,请考虑使用AI算法来评估电子邮件的文本并将其归类为“垃圾邮件”或“非垃圾邮件”。复述攻击会修改垃圾邮件的内容,以便AI对其进行分类因为“不是垃圾邮件”。同时,对于人类读者来说,被篡改的信息与原始信息具有相同的含义。
针对文本模型的对抗性攻击的挑战
在过去几年中,一些 研究小组 已经探讨了对抗性攻击的各个方面,输入修改旨在使AI算法对图像和音频样本进行错误分类,同时保留其原始外观和声音给人眼和耳朵。释义攻击是相当于这些的文本。攻击文本模型比篡改计算机视觉和音频识别算法要困难得多。
“对于音频和图像,你有完全的差异性,” 人工智能研究员兼语言模型专家Stephen Merity说。例如,在图像分类算法中,您可以逐渐更改像素的颜色,并观察这些修改如何影响模型的输出。这可以帮助研究人员找到模型中的漏洞。
“文本传统上难以攻击。这是离散的。你不能说我想要在这句话中多加10%的'dog'这个词。你要么有'狗'这个词,要么把它拿出来。而且你无法有效地在模型中搜索漏洞,“Merity说。“我的想法是,你能聪明地找出机器易受攻击的地方,并在那个特定的地方轻推它吗?”
“对于图像和音频,做对抗性扰动是有意义的。对于文本来说,即使你对摘录做了一些小改动 - 比如一两句话 - 它也可能无法顺利读给人类,“IBM的研究员兼今天发表的研究论文的共同作者Pin-Yu Chen说。
创建释义的例子
过去关于对文本模型的对抗性攻击的工作涉及改变句子中的单个单词。虽然这种方法成功地改变了AI算法的输出,但它经常导致修改后的句子听起来是人为的。陈和他的同事们不仅关注改变词语,而且还关注改写句子和以有意义的方式改变更长的序列。
“我们正在解释单词和句子。这通过创建在语义上与目标句子类似的序列来为攻击提供更大的空间。然后我们看看模型是否将它们归类为原始句子,“陈说。
研究人员开发了一种算法,可以在句子中找到可以操纵NLP模型行为的最佳变化。“主要的限制是确保文本的修改版本在语义上与原始版本相似。我们开发了一种算法,可以在非常大的空间中搜索单词和句子,这些修改将对AI模型的输出产生最大的影响。在该空间中找到最佳对抗性示例非常耗时。该算法具有计算效率,并且提供了理论上的保证,它是您可以找到的最佳搜索,“IBM研究院的科学家,该论文的另一位合着者Lingfei Wu说。
在他们的论文中,研究人员提供了改变情绪分析算法,假新闻检测器和垃圾邮件过滤器行为的修改示例。例如,在产品评论中,通过简单地交换句子“定价也比那里的一些大牌集团便宜”,“价格比下面的一些大牌更便宜”,评论的情绪是从100%正面变为100%负面。
人类无法看到释义攻击
释义攻击成功的关键在于它们是人类难以察觉的,因为它们保留了原始文本的语境和意义。
“我们将原始段落和修改后的段落给了人类评估员,他们很难看到意义上的差异。但对于机器而言,它完全不同,“吴说。
Merity指出,释义攻击不需要与人类完全一致,特别是当他们没有预料到机器人篡改文本时。“人类不是尝试检测这类攻击的正确级别,因为它们每天都会处理错误的输入。除了对我们来说,错误的输入只是来自真人的不连贯的句子,“他说。“当人们现在看到拼写错误时,他们认为这不是一个安全问题。但在不久的将来,它可能是我们必须应对的。“
Merity还指出,释义和对抗性攻击将引发安全风险的新趋势。“许多科技公司依靠自动化决策对内容进行分类,实际上并没有涉及人与人之间的互动。这使得该过程容易受到此类攻击,“Merity说。“它将与数据泄露同时发生,除了我们将发现逻辑漏洞。”
例如,一个人可能会欺骗仇恨言语分类器来批准他们的内容,或利用简历处理模型中的释义漏洞将他们的工作申请推送到列表的顶部。
“这些类型的问题将成为一个新的安全时代,我担心公司将花费与安全性一样少,因为他们专注于自动化和可扩展性,”Merity警告说。
充分利用技术
研究人员还发现,通过逆转释义攻击,他们可以构建更健壮,更准确的模型。
在生成模型错误分类的释义句子之后,开发人员可以使用修改后的句子及其正确的标签来重新训练他们的模型。这将使模型更能抵御释义攻击。它还将使它们更准确并概括其功能。
“这是我们在这个项目中的惊人发现之一。最初,我们从稳健的角度开始。但我们发现这种方法不仅可以提高稳健性,还可以提高普遍性,“吴说。“如果不是攻击,你只考虑增强模型的最佳方法,释义是一种非常好的泛化工具,可以提高模型的能力。”
研究人员在对抗训练之前和之后测试了不同的单词和句子模型,并且在所有情况下,他们都经历了性能和抗攻击的稳健性方面的改进。