AI 可靠性论文整理

  • 鲁棒性 Robustness
    • 相关文献
      • 高优先级
        • 对抗样本设计与抵御
        • 鲁棒性评估
        • 其他鲁棒性研究
      • 次要优先级
  • 公平性 Fairness
    • 相关文献
      • 高优先级
      • 次要优先级
  • 可解释性 Explainability
    • 相关文献
      • 高优先级
      • 次要优先级
  • 可追溯性 Lineage
    • 相关文献
  • 名词解释

鲁棒性 Robustness

通过暴露和修复漏洞来确保AI系统的安全性和可靠性

  1. 识别并防御新的攻击
  2. 设计新的对抗性训练方法来增强对攻击的抵御能力
  3. 开发新的度量来评估稳健性。

相关文献

高优先级

对抗样本设计与抵御

Threat of Adversarial Attacks on Deep Learning in Computer Vision: A Survey

总结了目前主流的对抗性样本攻击及抵御方法

EXPLAINING AND HARNESSING ADVERSARIAL EXAMPLES

Goodfellow 等人对对抗性样本的解释以及控制方法

Synthesizing Robust Adversarial Examples

设计强大的对抗样本

DELVING INTO TRANSFERABLE ADVERSARIAL EXAMPLES AND BLACK-BOX ATTACKS

对抗样本通常不特定于某个模型或架构,针对某个神经网络架构生成的对抗样本可以很好地转换到另一个架构中。这意味着有可能对一个完全的黑箱模型创建一个对抗样本。伯克利的一个小组使用这种方法在商业性的人工智能分类系统中发起了一次成功的攻击

Exploring the Hyperparameter Landscape of Adversarial Robustness

探讨了对抗性训练的一些实际挑战,提出了一种实用的方法,利用超参数优化技术来调整对抗性训练,以最大限度地提高稳健性。

Towards Deep Learning Models Resistant to Adversarial Attacks

介绍了提高显著提高对抗性攻击抵御能力的方法

Deep Neural Networks are Easily Fooled: High Confidence Predictions for Unrecognizable Images

介绍了如何用对抗样本欺骗神经网络做出错误的判断

鲁棒性评估

Ensemble Adversarial Training Attacks and Defenses

Goodfellow 等人阐述了如何评判一个模型针对对抗扰动的抵抗性,以及同时进行白盒攻击和黑盒攻击的重要性。

CERTIFIED DEFENSES AGAINST ADVERSARIAL EXAMPLES

评估神经网络的对抗鲁棒性

CNN-Cert: An Efficient Framework for Certifying Robustness of Convolutional Neural Networks

提出一个通用且有效的框架:CNN-Cert,它能够证明一般卷积神经网络的鲁棒性。

Evaluating the Robustness of Neural Networks: An Extreme Value Theory Approach

提供了将鲁棒性分析转换为局部Lipschitz常数估计问题的理论证明,并提出使用极值理论进行有效评估。我们的分析产生了一种新的鲁棒性度量标准,称为CLEVER,CLEVER是第一个可以应用于任何神经网络分类器的独立于攻击(attack-independent) 的稳健性度量。

其他鲁棒性研究

Reluplex: An Efficient SMT Solver for Verifying Deep Neural Networks

深度神经网络的可验证性,,提出了一种用于神经网络错误检测的新算法 Reluplex

PROVEN: Verifying Robustness of Neural Networks with a Probabilistic Approach

提出了一种新的概率框架,可以通过统计保证 (statistical guarantees) 对神经网络进行概率论验证

Efficient Neural Network Robustness Certification with General Activation Functions

介绍了CROWN,这是一个根据激活函数来验证神经网络鲁棒性的通用框架。

次要优先级

Defensive Quantization: When Efficiency Meets Robustness

旨在提高人们对量化模型安全性的认识,并设计了一种新的量化方法,共同优化深度学习量化模型的效率和鲁棒性

Kernel-Based Reinforcement Learning in Robust Markov Decision Processes

设计了一种适用于潜在对抗行为的算法来确保马尔可夫决策过程在意外或对抗系统行为方面的稳健性

Analyzing Federated Learning through an Adversarial Lens
探讨了联合学习领域的一些恶意攻击的策略从而突出联合学习的脆弱性以及制定有效防御策略的必要性

L2 - Nonexpansive Neural Networks

优化了控制Lipschitz常数的方法,以实现其最大化鲁棒性的全部潜力,提出的分类器在针对白盒L2限制对抗性攻击的鲁棒性方面超过了现有技术水平

Structured Adversarial Attack: Towards General Implementation and Better Interpretability

提出了 StrAttack 模型来探索对抗性扰动中的群体稀疏性

Query-Efficient Hard-label Black-box Attack: An Optimization-based Approach

研究了在硬标签黑盒设置中攻击机器学习模型的问题

AutoZOOM: Autoencoder-based Zeroth Order Optimization Method for Attacking Blackbox Neural Networks

提出了一种可以高效查询的黑盒攻击通用框架 AutoZOOM

Anytime Best+Depth-First Search for Bounding Marginal MAP

引入了新的随时搜索算法,这些算法将最佳优先和深度优先搜索结合到图形模型中的边际MAP推理的混合方案中

Attacking Visual Language Grounding with Adversarial Examples: A Case Study on Neural Image Captioning

为了研究语言基础对机器视觉和感知中的对抗性扰动的鲁棒性,提出了Show-and-Fool,一种用于制作神经图像字幕中的对抗性示例的新算法。

BlockDrop: Dynamic Inference Paths in Residual Networks

介绍了 BlockDrop,动态的选择使用深层网络中的哪些层,从而在不降低预测准确率的情况下最佳的减少总计算量

Exploiting Rich Syntactic Information for Semantic Parsing with Graph-to-Sequence Model

采用图形到序列模型来编码句法图并解码逻辑形式。 通过编码更多的句法信息,也可以提高模型的鲁棒性。

Adversarial Phenomenon from the Eyes of Bayesian Deep Learning

考虑使用贝叶斯神经网络来检测对抗性实例

Protecting Intellectual Property of Deep Neural Networks with Watermarking

提出了一种水印植入方法,将水印注入深度学习模型,并设计了一种远程验证机制来确定模型所有权,用水印技术保护神经网络的知识产权。

Unravelling Robustness of Deep Learning based Face Recognition Against Adversarial Attacks

通过利用网络中隐藏层的响应适当地设计分类器,能够以非常高的精度检测攻击。最后,我们提出了几种有效的对策来减轻对抗性攻击的影响,并提高基于DNN的人脸识别的整体稳健性。

EAD: Elastic-Net Attacks to Deep Neural Networks via Adversarial Examples

我们通过对抗性的例子来描述攻击DNN的过程,作为弹性网络正则化优化问题。

公平性 Fairness

设计检测并且减消除偏见的方法来确保 AI 不会被人们的偏见影响,也不会激化人们的偏见

  1. 对数据集进行预处理,消除数据集中的偏见
  2. 消除模型带来的偏见
  3. 对模型进行公平性评估

相关文献

高优先级

Automated Test Generation to Detect Individual Discrimination in AI Models

解决了检测模型是否具有个体歧视的问题

Design AI so that it’s fair

寻找和消除神经网络带来的偏差

Fairness GAN: Generating Datasets with Fairness Properties using a Generative Adversarial Network

Fairness Gan

使用公平性的生成对抗网络生成数据集,产生公平合理的图像

AI Fairness 360: An Extensible Toolkit for Detecting, Understanding, and Mitigating Unwanted Algorithmic Bias

介绍了一个新的开源python库:AIF360,为公平研究人员提供共享和评估算法的通用框架

Towards Composable Bias Rating of AI Systems

设想建立独立于API生产者和消费者的第三方机构来对AI系统的公平性进行评估

An End-To-End Machine Learning Pipeline That Ensures Fairness Policies

手动理解策略并确保不透明ML系统的公平性是耗时且容易出错的,因此需要端到端系统来确保数据所有者和用户始终遵守公平政策。该系统可以:1)理解用自然语言编写的策略,2)警告用户违反策略,3)记录执行的每个活动,以便后续证明策略合规性。

次要优先级

Scalable Fair Clustering

提出了一种线性时间的聚类算法,能更精细的控制聚类的平衡

Scalable Fair Clustering

研究人脸识别神经网络的公平性,提供了人类可解释的面部特征的定量测量,推动创建更公平和准确的人脸识别系统

Data Pre-Processing for Discrimination Prevention: Information-Theoretic Optimization and Analysis

Optimized Pre-Processing for Discrimination Prevention

介绍了一种新的概率预处理方法,用于减少歧视

Analyze, Detect and Remove Gender Stereotyping from Bollywood Movies

分析电影或者海报中的性别偏见

Modeling Epistemological Principles for Bias Mitigation in AI Systems: An Illustration in Hiring Decisions

本文提出了一种结构化方法,以减轻人工智能系统偏见造成的歧视和不公平。研究AI对招聘简历的分析。

Fairness in Deceased Organ Matching

研究如何公平地决定如何将已故捐献者捐赠的器官与患者相匹配

可解释性 Explainability

了解 AI 输出结果的依据是可信的关键要素,尤其是对企业级 AI 而言。为了提高透明度:

  1. 研究模型及输出的局部可解释性和全局可解释性
  2. 训练可解释模型并且将模型内的信息流可视化

相关文献

高优先级

Understanding black-box predictions via influence functions

描述神经网络的可解释性

Seq2Seq-Vis: A Visual Debugging Tool for Sequence-to-Sequence Models

设计了一款可用于 Seq2Seq 翻译模型 debug 的可视化工具

Teaching Meaningful Explanations

提出了一种可解释的方法,让训练数据除了包含特征和标签之外,还包含用户给出的解释,然后使用联合模型进行学习,针对输入特征输出标签和解释。

Explanations based on the Missing: Towards Contrastive Explanations with Pertinent Negatives

提出了一种对黑盒分类器提供对比解释的新方法,来证明分类是否合理

次要优先级

Why Interpretability in Machine Learning? An Answer Using Distributed Detection and Data Fusion Theory

使用分布式检测理论来表征系统的性能,并证明具有可解释性的分类系统优于黑盒系统

Collaborative Human-AI (CHAI): Evidence-Based Interpretable Melanoma Classification in Dermoscopic Images

提出了一种基于证据的皮肤图像分类方法

Interpretable to Whom? A Role-based Model for Analyzing Interpretable Machine Learning Systems

识别代理在机器学习系统中实现的不同角色以及如何影响其目标,并且定义可解释性的含义。

Improving Simple Models with Confidence Profiles

提出了 ProfWeight 方法将信息从具有高测试精度的预训练深度神经网络传递到更简单的可解释模型或低复杂度和先验低测试精度的非常浅的网络

可追溯性 Lineage

确保 AI 系统所有的部件和事件都是可追溯的

  1. 设计事件生成记录模块
  2. 设计可扩展的事件提取和管理模块
  3. 设计高效的可追溯查询模块来管理 AI 系统的完整生命周期

相关文献

FactSheets: Increasing Trust in AI Services through Supplier’s Declarations of Conformity

提出供应商的AI服务符合性声明(SDoC),以描述产品的沿袭以及它经历的安全性和性能测试,帮助增加对AI服务的信任。 我们设想用于人工智能服务的SDoC包含目的,性能,安全性,安全性和出处信息,由AI服务提供商完成并自愿发布,供消费者检查。 重要的是,它传达了产品级而不是组件级的功能测试。

名词解释

对抗性样本(Adversarial Sample):

对输入样本故意添加一些人无法察觉的细微的干扰,导致模型以高置信度给出一个错误的输出。

误差放大效应(error amplification effect):

由于神经网络的结构复杂,而且会经过多次叠加,即使很小扰动,累加起来也很可观。

AI 可靠性论文整理相关推荐

  1. 计算机维修知识综述论文,机器学习领域各领域必读经典综述论文整理分享

    原标题:机器学习领域各领域必读经典综述论文整理分享 机器学习是一门多领域交叉学科,涉及概率论.统计学.逼近论.凸分析.算法复杂度理论等多门学科.专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知 ...

  2. 关系抽取论文整理,核方法、远程监督的重点都在这里

    来源 | CSDN 博客 作者 | Matt_sh,编辑 | Carol 来源 | CSDN云计算(ID:CSDNcloud) 本文是个人阅读文章的笔记整理,没有涉及到深度学习在关系抽取中的应用. 笔 ...

  3. ECCV2020超分辨率方向论文整理笔记

    ECCV2020超分辨率篇 ECCV的全称是European Conference on Computer Vision(欧洲计算机视觉国际会议) ,是计算机视觉三大顶级会议(另外两个是ICCV]和C ...

  4. 计算机人工智能的应用论文,人工智能的发展与应用论文整理.doc

    人工智能的发展与应用论文整理 巴州石油一中高中部 巴州石油一中高中部 研究性学习 研究性学习 人工智能的发展与应用 人工智能的发展与应用 作 作 者: 谭承志 王智贺 潘永臻 指导教师: 周朝晖 Ti ...

  5. 大学生用 AI 写论文:次次拿 A,还赚 100 美元;小米集团副总裁崔宝秋离职;抖音上线桌面端聊天软件|极客头条

    「极客头条」-- 技术人员的新闻圈! CSDN 的读者朋友们早上好哇,「极客头条」来啦,快来看今天都有哪些值得我们技术人关注的重要新闻吧. 整理 | 梦依丹 出品 | CSDN(ID:CSDNnews ...

  6. 国外大学生用AI写论文,还次次拿到A

    大学生用 AI 写论文,次次拿 A 近日,国外大学生 Urdadgirl69 在 Reddit 上发帖称,自己利用 AI 写论文.完成电影和书的观后感作业,门门功课拿到了 A.Urdadgirl69 ...

  7. ACL2020论文整理

    ACL2020论文整理目录 ACL2020论文整理(Main Conference) ACL2020接受文章列表 Best Paper Honorable Mention Papers – Main ...

  8. 论文整理集合 -- 吴恩达老师深度学习课程

    吴恩达老师深度学习课程中所提到的论文整理集合!这些论文是深度学习的基本知识,阅读这些论文将更深入理解深度学习. 这些论文基本都可以免费下载到,如果无法免费下载,请留言!可以到coursera中看该视频 ...

  9. Non-Blind图像反卷积论文整理

    Non-Blind图像反卷积论文整理 1 Spatial Deconvolution Stochastic Deconvolution  2013   http://www.cs.ubc.ca/lab ...

  10. ai伪造论文实验数据_5篇有关AI培训数据的基本论文

    ai伪造论文实验数据 Many data scientists claim that around 80% of their time is spent on data preprocessing, ...

最新文章

  1. 移动办公时代的工程行业怎么管理图像?大象云推出3D可视化整体解决方案
  2. 消息队列-ActiveMQ
  3. 山东工业职业学院计算机老师田彦,学院举办2019年第二期新教师岗前培训班
  4. ES6—类的实现原理
  5. 超大规模集成电路_纳米级超大规模集成电路芯片低功耗物理设计分析(二)
  6. lua调用shell 脚本
  7. 【100题】第十三题(输出倒数第k个节点)
  8. 关于click事件在苹果手机上的阴影的解决方法和关于在安卓手机上的select的灰色背景色的解决...
  9. 力扣Java编译器_力扣(LeetCode)位1的个数 个人题解
  10. 黑帽python第二版(Black Hat Python 2nd Edition)读书笔记 之 第七章 GitHub命令与控制(2)构建基于GitHub的特洛伊木马框架
  11. 如何使用idea自带的数据库可视化工具
  12. 无人机通信方式及原理
  13. 新网站链接提交入口攻略
  14. 计算机一级表格技巧,计算机一级考试MS Office应试技巧指导
  15. Beautiful Soup4.2文档
  16. Android UI基础控件
  17. [转]XPO 条件相关类
  18. 电脑C盘满了怎么办?教您3招快速释放C盘空间
  19. 日有所思(4)——磁密,磁场强度,磁通量傻傻分不清
  20. request属性 request.getAttribute()

热门文章

  1. 从月薪3000到月薪过万:做什么工作才能过上想要的生活
  2. 统计学中的十几个数据分析方法
  3. 判断一个数是否是素数
  4. 45、backtrader的一些基本概念---佣金(commission)的设置
  5. lcms质谱仪_常用质谱的优缺点_液质联用(LCMS)仪器社区_仪器信息网论坛
  6. 苏州新导RFID智能医药柜,为老人用药,取药吃药带来了方便
  7. Python识别图片指定区域文字内容
  8. [MATLAB App Designer] 在表(UITable)中设置下拉菜单
  9. 如何领购和作废电子发票流程
  10. 计算机逻辑判断函数函数知识点,逻辑判断函数