文章目录

  • 一.论文信息
  • 二.论文结构
  • 三.论文内容
    • 摘要(原文)
    • 摘要(中文版)
    • 实验结果分析与总结
  • 三.相关笔记

一.论文信息

题目: DeepGauge: multi-granularity testing criteria for deep learning systems.【DeepGauge:深度学习系统的多粒度测试标准】

发表年份: 2018

期刊/会议: Proceedings of the 33rd ACM/IEEE International Conference on Automated Software Engineering(ASE, CCF-B会议, ASE最佳论文奖)

论文链接: https://dl.acm.org/doi/abs/10.1145/3238147.3238202

作者信息: Lei Ma, Felix Juefei-Xu, Fuyuan Zhang, Jiyuan Sun, Minhui Xue, Bo Li, Chunyang Chen, Ting Su, Li Li, Yang Liu, Jianjun Zhao, Yadong Wang

二.论文结构

Abstract
1 Introduction
2 Preliminaries2.1 Coverage Criteria in Traditional Software Testing(传统软件测试的覆盖标准)2.2 Deep Neural Network Architecture
3 Coverage criteria for testing DL systems(测试DL系统的覆盖标准)3.1 Neuron-Level Coverage Criteria(神经元级别的覆盖标准)3.2 Layer-Level Coverage Criteria(网络层级别的覆盖标准)
4 Experiments4.1 Evaluation Subjects4.2 Evaluation Setup4.3 Experimental Results4.4 Comparison with DeepXplore’s Neuron Coverage (DNC)(与DeepXplore的神经元覆盖率比较)4.5 Threats to Validity and Discussion
5 Related work5.1 Testing of DL Systems5.2 Verification of DL Systems5.3 Attacks and Defenses of DL Systems
6 Conclusion and future work

三.论文内容

摘要(原文)

Deep learning (DL) defines a new data-driven programming paradigm that constructs the internal system logic of a crafted neuron network through a set of training data. We have seen wide adoption of DL in many safety-critical scenarios. However, a plethora of studies have shown that the state-of-the-art DL systems suffer from various vulnerabilities which can lead to severe consequences when applied to real-world applications. Currently, the testing adequacy of a DL system is usually measured by the accuracy of test data. Considering the limitation of accessible high quality test data, good accuracy performance on test data can hardly provide confidence to the testing adequacy and generality of DL systems. Unlike traditional software systems that have clear and controllable logic and functionality, the lack of interpretability in a DL system makes system analysis and defect detection difficult, which could potentially hinder its real-world deployment. In this paper, we propose DeepGauge, a set of multi-granularity testing criteria for DL systems, which aims at rendering a multi-faceted portrayal of the testbed. The in-depth evaluation of our proposed testing criteria is demonstrated on two well-known datasets, five DL systems, and with four state-of-the-art adversarial attack techniques against DL. The potential usefulness of DeepGauge sheds light on the construction of more generic and robust DL systems.

摘要(中文版)

深度学习(DL)定义了一种新的数据驱动编程范式(a new data-driven programming paradigm),它通过一组训练数据(through a set of training data)构建了精心制作的神经元网络(a crafted neuron network)的内部系统逻辑(internal system logic)。我们已经看到DL在许多安全关键场景(safety-critical scenarios)中被广泛采用。然而,大量的研究表明,最先进的DL系统存在各种各样的漏洞,当应用到实际应用中时,这些漏洞可能导致严重的后果。目前,DL系统的测试充分性通常用测试数据的准确性来衡量。考虑到可访问的高质量测试数据的局限性,良好的测试数据精度性能很难为DL系统的测试充分性和通用性提供信心。与传统软件系统具有清晰可控的逻辑和功能不同,DL系统中缺乏可解释性使得系统分析和缺陷检测变得困难,这可能会潜在地阻碍其在现实世界的部署。在本文中,我们提出了一套用于DL系统的多粒度测试标准DeepGauge,其目的是绘制测试平台的多面描述。我们提出的测试标准的深入评估在两个知名的数据集、五个DL系统和四种针对DL的最先进的对抗攻击技术上进行了演示。DeepGauge的潜在用途为构建更通用、更健壮的DL系统指明了方向。

实验结果分析与总结

实验数据集: MNIST数据集、ImageNet数据集

神经网络模型: LeNet-1,4,5、VGG-19、ResNet-50

实验数据: 原始测试数据、对抗测试输入+原始测试输入组成的新的测试数据

实验结果:

  • MNIST数据集上的实验结果表明,由对抗攻击方法生成的新的测试数据,神经元覆盖指标要高于原始测试数据,而对抗样本本身就代表DNN的某些缺陷,这个实验结果表明,由各种对抗攻击手段生成的新的测试输入确实可以探索到一些仅由原始测试输入无法覆盖的DNN内部状态,而通过提升本文提出的这些神经元覆盖指标也会有助于检测DNN的缺陷。

  • ImageNet数据集上的实验结果表明,规模越大、复杂度越高(例如VGG-19或者ResNet-50)的网络可能更难以被测试输入覆盖到,不过这个规律并不总是成立。此外,对抗样本集往往能够触发更多的神经元成为top-k神经元,且神经网络每一层中往往会有一个固定的神经元子集,这个子集的神经元才可能成为顶级激活神经元,这说明每一层中最活跃的若干个神经元就已经大体表达了神经元网络的主要功能。比较Top-k神经元模式可以发现,每一层上的顶级激活神经元也很固定。实验结果表明,生成的测试输入能够覆盖的top-k神经元模式越多,其发现DNN缺陷的机会也就越大。

  • 总之,DNN缺陷既可能出现在主要功能区(major function region),也可能出现在极端案例区(corner-case region),从测试的角度而言,两部分都应该被测试样本覆盖到。不过,测试样本更容易覆盖到主要功能区,要设计更好的DL测试技术,需要考虑如何才能更多地覆盖极端案例区。DeepGauge能发现对抗样本和原始样本的差异,由DeepGauge定义的覆盖率越高,越容易找到DNN缺陷。不过,作者也指出,传统软件测试中的覆盖率提升未必就能检测出缺陷,这个结论在DNN测试中也同样存在。尽管如此,DeepGauge对于指导DL系统测试过程、评价测试质量以及检测DL缺陷仍有其意义。

三.相关笔记

DL系统测试存在的问题: 测试的充分性准则(如何验证测试是否充分)

代码覆盖率定义:
代码覆盖率 = 所有测试用例覆盖的代码行数 / 总代码行数 代码覆盖率 = 所有测试用例覆盖的代码行数 / 总代码行数 代码覆盖率=所有测试用例覆盖的代码行数/总代码行数

传统软件测试中,测试用例如果执行到了某一行代码,我们就说这一行代码被覆盖了。因此,传统软件系统测试中,可以用代码覆盖率来判断当前测试是否充分。理想情况下,覆盖率越高,说明代码测试越充分。但这一指标在深度学习系统中无法直接套用。
深度学习系统测试中,很多工作一味准求DL系统的高准确率,并将其作为测试准则。尽管,系统的输出和准确率可以在一定程度上反映系统的质量和通用性,但这种办法并没有涉及DL系统内部神经元活动及其网络行为。仅仅从DL系统的决策输出和准确率去度量DL系统质量的做法过于片面,得出的结论也不可靠。

【论文阅读】DeepGauge: multi-granularity testing criteria for deep learning systems.相关推荐

  1. 论文阅读:Natural Language Processing Advancements By Deep Learning: A Survey

    文章目录 一.介绍 二.背景 1.人工智能和深度学习 (1)多层感知机 (2)卷积神经网络 (3)循环神经网络 (4)自编码器 (5)生成对抗网络 2.NLP中深度学习的动机 三.NLP领域的核心概念 ...

  2. 论文阅读:Natural Language Processing Advancements By Deep Learning: A Survey 深度学习在自然语言处理中的进展

    Natural Language Processing Advancements By Deep Learning: A Survey 深度学习在自然语言处理中的进展 目录 Natural Langu ...

  3. 论文阅读:3D multi-scale, multi-task, and multi-label deep learning for prediction of lymph node metasta

    3D多尺度.多任务.多标签深度学习预测T1肺腺癌CT图像淋巴结转移 Key word: 淋巴结转移预测肺结节征候三维卷积神经网络 Abstract: 术前淋巴结(LN)转移的诊断对于T1肺腺癌患者评估 ...

  4. 论文中文翻译——SySeVR A Framework for Using Deep Learning to Detect Software Vulnerabilities

    本论文相关内容 论文下载地址--Web Of Science 论文中文翻译--SySeVR A Framework for Using Deep Learning to Detect Software ...

  5. 【论文阅读】DouZero: Mastering DouDizhu with Self-Play Deep Reinforcement Learning

    [论文阅读]DouZero: Mastering DouDizhu with Self-Play Deep Reinforcement Learning 1 本文解决了什么问题? 斗地主是一个非常具有 ...

  6. [基础论文阅读]QMIX: Monotonic Value Function Factorization for Deep Multi-agent Reinforcement Learning

    [基础论文阅读]QMIX: Monotonic Value Function Factorization for Deep Multi-agent Reinforcement Learning 题目含 ...

  7. 论文阅读 【CVPR-2022】 A Simple Multi-Modality Transfer Learning Baseline for Sign Language Translation

    论文阅读 [CVPR-2022] A Simple Multi-Modality Transfer Learning Baseline for Sign Language Translation st ...

  8. 【兴趣阅读】DeepInf: Social Influence Prediction with Deep Learning

    文章目录 1. 论文阅读 1.1. 前言 1.2. 阅读笔记 1.2.1 研究点的引出 1.2.2 相关工作 1.2.3 社交影响 1.2.3.1 r-neighbors 1.2.3.2 Social ...

  9. 论文翻译-Scene Text Detection and Recognition: The Deep Learning Era

    论文翻译-Scene Text Detection and Recognition: The Deep Learning Era 原文地址:https://arxiv.org/pdf/1811.042 ...

最新文章

  1. 深入浅出统计学(十)抽取样本
  2. AWS Device Farm介绍及Appium踩过的坑
  3. 别再嘴炮概念了!大数据是硬汉之战,你的肌肉呢?
  4. 路由和远程访问---基本
  5. StringBuilder-C#字符串对象
  6. ubuntu16.4下用jexus部署asp.net core rtm
  7. Vue.js(5)- 全局组件
  8. 软件定义存储的系统架构图和关键技术
  9. origin2016中怎么画多条曲线,并且分别给不同曲线设置标记
  10. ionic4 返回键退出app
  11. MEF入门之不求甚解,但力求简单能讲明白(四)
  12. zabbix监控硬盘
  13. 因为某种原因阻止文本引擎初始化_文成县搜索引擎优化如何,神马SEO优化_万推霸屏...
  14. web前端课程设计:个人博客网站设计——个人博客(6页) HTML+CSS+JavaScript 学生DW网页设计作业成品 web课程设计网页规划与设计 web前端设计与开发期末作品
  15. catch小说内容-从gui到爬虫(2)
  16. 计算机技术对英语课堂,信息技术在英语课堂中的运用
  17. latex如何换页 一页放不下
  18. 不查日历怎么知道任何一天是星期几
  19. [单片机学习笔记](35):串级PID算法应用剖析、通过串口控制电机、MPU6050获取平衡车姿态、自制平衡车PID算法程序设计
  20. 泸州职业技术学院计算机单招试题,2021年泸州职业技术学院单招语文考试模拟试题库...

热门文章

  1. @MapKey作用以及@MapKey is required解决方案
  2. 沉浸式状态栏实现,完美适配Android刘海屏,终极兼容
  3. PYNQ 采集计划(二)Socket服务端与客户端的搭建,pynq到pc的数据流传输
  4. 全网最全python爬虫精进
  5. 解决git bash中无法粘贴的问题
  6. HIVE的搭建配置及关联MySQL
  7. cshop是什么开发语言_ecshop后台如何设置多语言选择
  8. window自带的常见工具
  9. Workbench LSDYNA的子弹入水流固耦合计算
  10. iphone11右上角信号显示_原来,iOS 11移动信号图标里竟然隐藏着 iPhone 8的巨大秘密...