无论AI和机器学习系统在生产中具有强大的功能,都无法抵御对抗性攻击或试图通过恶意输入欺骗算法的技术。研究表明,即使在图像上产生很小的扰动,也可能以很高的概率欺骗最好的分类器。考虑到“ AI即服务”业务模型的广泛传播,这是一个问题,在该模型中,亚马逊,谷歌,微软,Clarifai等公司已经将可能容易受到攻击的系统提供给最终用户。
在科技巨头百度提出的研究人员在最近的一个部分解决纸张上Arxiv.org公布:Advbox。他们将其描述为一个用于生成对抗性示例的开源工具箱,并说它能够在Facebook的PyTorch和Caffe2,MxNet,Keras,Google的TensorFlow和百度自己的PaddlePaddle等框架中欺骗模型。
尽管Advbox本身不是新东西-最初的发布是一年多以前的-但本文还是着重于揭示技术细节。
AdvBox基于Python,它实现了几种常见攻击,这些攻击执行对敌样本的搜索。每种攻击方法都使用距离测量来量化对抗性扰动的大小,而子模型Perceptron支持图像分类和对象检测模型以及云API,该模型评估模型对噪声,模糊,亮度调整的鲁棒性,轮换等。
AdvBox附带了用于测试容易受到所谓对抗性T恤或面部识别攻击的检测模型的工具。此外,它还通过附带的Python脚本提供对百度云托管的Deepfake检测服务的访问。
共同作者写道:“对[输入]的微小且通常是难以察觉的扰动足以愚弄最强大的[AI]。” “与以前的工作相比,我们的平台支持黑匣子攻击……以及更多的攻击方案。”
百度并不是唯一一家发布旨在帮助数据科学家防御对抗攻击的资源的公司。去年,IBM和MIT发布了一个衡量机器学习和AI算法健壮性的指标,称为Cross Lipschitz网络健壮性至尊价值,简称CLEVER。并且在4月,IBM宣布了一个开发工具箱,称为Adversarial Robustness Toolbox,其中包括用于测量模型漏洞的代码,并提出了防止运行时操纵的方法。另外,德国图宾根大学的研究人员创建了Foolbox,这是一个Python库,用于针对TensorFlow,Keras和其他框架产生20多种不同的攻击。
但是还有很多工作要做。巴黎多芬大学的教授贾马尔·阿蒂夫(Jamal Atif)表示,在图像分类领域中最有效的防御策略-用对抗图像示例增强一组照片-充其量只能将准确率提高到45%。“这是最先进的,”他在由法国Digitale主持的年度法国AI大会上在巴黎的讲话中说。“我们只是没有强大的防御策略。”