攻击神经网络可以更好地理解人工智能
洛斯阿拉莫斯国家实验室的一个团队已经开发出一种新颖的方法将神经网络与人工智能的“黑匣子”进行比较,以帮助研究人员理解神经网络的行为。神经网络识别数据集中的模式;它们在社会上随处可见,应用于虚拟助理、面部识别系统和自动驾驶汽车等。
“人工智能研究界并不一定完全了解神经网络在做什么;它们给了我们很好的结果,但我们不知道如何或为什么,”洛斯阿拉莫斯国家实验室网络系统高级研究小组的研究员海顿·琼斯(Haydn Jones)说。“我们的新方法在比较神经网络方面做得更好,这是更好地理解人工智能背后的数学的关键一步。”
琼斯是这篇论文的主要作者。如果你训练了一个,你就训练了所有的:架构间的相似性随着健壮性的增加而增加这篇论文最近在人工智能不确定性会议上发表。除了研究网络相似性之外,这篇论文也是描述鲁棒神经网络行为的关键一步。
神经网络是高性能的,但很脆弱。例如,自动驾驶汽车使用神经网络来检测信号。当条件理想时,它们做得很好。然而,最小的偏差——比如停车标志上的贴纸——可能会导致神经网络错误识别标志,并且永远不会停止。
为了改进神经网络,研究人员正在寻找提高网络鲁棒性的方法。一种最先进的方法是在训练过程中“攻击”网络。研究人员故意引入畸变,并训练人工智能忽略它们。这个过程被称为对抗性训练,从本质上讲,它使得欺骗网络变得更加困难。
Jones,洛斯阿拉莫斯的合作者Jacob施普林格和Garrett Kenyon,以及Jones的导师Juston Moore,将他们的网络相似度的新度量应用于对抗性训练的神经网络,并令人惊讶地发现,对抗性训练导致计算机视觉领域的神经网络收敛到非常相似的数据表示,无论网络架构如何,随着攻击的量级增加。
琼斯说:“我们发现,当我们训练神经网络强大地抵御对抗性攻击时,它们开始做同样的事情。”
工业界和学术界一直在努力寻找神经网络的“正确架构”,但洛斯阿拉莫斯团队的发现表明,引入对抗性训练大大缩小了这一搜索空间。因此,人工智能研究社区可能不需要花那么多时间探索新的架构,因为知道对抗性训练会导致不同的架构收敛到类似的解决方案。
“通过发现强大的神经网络彼此相似,我们更容易理解强大的人工智能是如何工作的。我们甚至可能发现人类和其他动物感知是如何发生的线索。”
本文已从以下地方重新发布材料.注:材料的长度和内容可能经过编辑。如需进一步信息,请联系所引用的来源。