数据投毒攻防对抗技术-1.数据投毒简介
文章目录
- 前言
- 课程简介
- 大数据和机器学习
- 大数据
- 机器学习
- 大数据和机器学习结合
- 大数据和机器学习潜在的安全威胁
- 数据分析流程
- 机器学习流程及安全威胁
- 数据投毒
- 什么是数据投毒攻击
- 什么是数据可用性
- 影响数据可用性的原因
- 数据投毒攻击的要素
- 攻击场景
- 封闭域
- 开放域
- 开放域数据投毒攻击和防御
- 攻击对象
- 攻击所需要的知识
- 攻击效果
- 数据投毒防御的困难性
前言
本门课程为本科生数据投毒入门课程,笔记也多来自老师课件,不涉及太多高级知识。如对数据安全有兴趣,欢迎报考方班李默涵老师的研究生。
课程简介
在大数据与人工智能技术井喷式爆发的当下,数据已成为国家战略资源。数据的重要性不言而喻,高质量数据更是价值不菲。不过,随着数据的价值不断为人们所认识的同时,针对数据的攻击也逐渐出现。
数据投毒就是其中一类很重要的针对数据的攻击。例如:
- 在推荐系统中,欺诈攻击者往往通过批量注册假用户、添加假评分来误导推荐系统,从而推举或打压某些商品;
- 在众包服务中,由于数据来自参与众包任务的普通用户,因此容易通过伪造或控制用户来造成数据投毒攻击;
- 在图片识别任务中,可以向训练数据中添加某些像素点刻意修改过的图片来使得分类器偏移。
这些攻击的共性在于,都是通过产生并投放恶意数据,从而扰动数据分析模型来达到攻击目的。我们将这类攻击称为数据投毒(Data Poisoning)攻击
数据投毒攻击示意图
大数据和机器学习
大数据
根据其是否具有良好的结构,可以分为三类
- 结构化数据 (关系数据库)
- 半结构化数据 (图数据,xml,json)
- 非结构化数据 (图像,文本,音视频)
机器学习
- 有监督学习
– 训练集本身有标签 - 无监督学习
– 训练集无标签 - 半监督学习
– 训练集有的有标签,有的无 - 强化学习
– 智能体从环境中获得训练集 - 模仿学习
大数据和机器学习结合
有了大数据和机器学习后,我们可以完成下面任务:
- 社会网络
- 计算机视觉
- 自然语言处理
- 音频分析
- ……
大数据和机器学习潜在的安全威胁
数据分析流程
在每一个流程中均有可能受到威胁
机器学习流程及安全威胁
数据投毒
什么是数据投毒攻击
攻击者通过在数据获取阶段有意识地投放不正确或有偏斜的数据来降低数据可用性
目的是影响分析模型、扰乱分析结果
什么是数据可用性
数据的可用性是指数据驱动的应用和服务的可用性
高可用数据的特点:一致、完整、精确、及时、冗余少
影响数据可用性的原因
异构数据融合、数据模式演进、数据格式转换会导致引入劣质数据
带着特殊目的的攻击会导致引入恶意数据
数据投毒攻击的要素
攻击场景
这里需要着重讲一下开放域数据投毒
封闭域
假设数据的来源和语义都可以被一个已知的封闭集合所限制约束。例如
- 智能电网(Smart Grid) 数据主要来源于分布在电网中的计量装置;
- 一些图片分类任务:训练数据的内容和标签都来自已知的封闭集合。
开放域
假设数据的来源或语义是开放的,无法用封闭集合进行约束。例如
- 群智感知(Crowdsensing) :传感数据来自于普通用户的移动设备;
- 一些自动问答系统:原始数据可能采集自互联网或普通用户。
开放域数据投毒攻击和防御
攻击:同时考虑目标算法和防御机制的脆弱性、学习环境和对手,及时调整策略
防御:数据获取时防御、数据获取后防御
攻击对象
推荐系统、机器学习算法、众包应用、物联网等各种应用
攻击所需要的知识
完美知识、有限知识、零知识
攻击效果
有目标攻击、无目标攻击
数据投毒防御的困难性
- 对技术的脆弱性认知不足
- 面临未知攻击
- 攻击数据未必是“脏数据”
- 攻防场景复杂
数据投毒攻防对抗技术-1.数据投毒简介相关推荐
- 袋鼠云数据可视化大屏技术揭秘|数据地图的类型
地图是按照一定的法则,有选择地以二维或多维形式与手段在平面或球面上表示地球(或其它星球)若干现象的图形或图像.在数据可视化中,地图也是一个重要的部分.本期给大家讲解一下在数据可视化中怎样去选择一个合适 ...
- 数据中心服务器冷却技术,盘点数据中心液体冷却系统
多年来,由于增加服务器的密度并减少其体积的大小,服务器的密度变得越来越高,数据中心正日益产生更多的热量.因此,每平方英尺产生热量的瓦数正在不断上升,这种功率密度的增加严重制约了传统的冷却方法和技术.液 ...
- 数平精准推荐 | OCR技术之数据篇
导语:深度学习在OCR领域的成功应用需要大量数据,数平精准推荐团队利用图像增强,语义理解,生成对抗网络等技术生成高质足量的数据,为算法模型提供燃料,帮助OCR技术服务在多种业务场景中快速迭代,提升效果 ...
- 《中国人工智能学会通讯》——4.27 电子数据取证理论与技术
4.27 电子数据取证理论与技术 电子数据取证的概念 电子数据取证是指恢复已被破坏的计算机数据及提供相关的电子数据证据.利用计算机软硬件技术,以符合法律规范的方式对计算机入侵.破坏.欺诈.攻击等违法犯 ...
- 人工智能军事对抗技术发展趋势
来源:战略前沿技术 人工智能军事对抗技术 人工智能(AI)作为新一代科技革命的典型代表性技术,目前已在世界各国的工业.金融.娱乐和公共安全等领域广泛应用,而其在军事领域的应用也正在快速发展.随着人工智 ...
- 攻防对抗形势下代码重用技术的演进
,基于代码重用的程序执行方式被广泛用于漏洞攻击中, 用来绕过代码不可执行.动态代码签名等安全机制.图 2从时间维度给出了代码重用攻击的演变历程. Fig. 2 Evolution of binary ...
- 欲知己之所防,先知彼之所攻——论Hook 技术的攻防对抗
矛盾的同一性与斗争性原理几乎适用于所有攻防对抗. 上期,我们在<当硬件属性不再作为设备指纹的标识,我们该如何保证设备指纹的唯一性>一文中曾介绍了硬件ID 作为设备指纹的基础属性的发展演变- ...
- 用区块链技术解决数据与征信的痛点,他们想让公民自己管理信用数据
本堂茜 渡鸦区块链专栏记者 内容预读 消费信贷的市场规模 你的信息有多不安全? 黑客KK最近接的一单生意,是盗取"企查查"的数据.企查查是一家企业工商信息查询平台,其核心数据服务器 ...
- 大数据怎么学习:大数据学习的关键技术知识体系、学习路径和误区
由于大数据技术涉及内容太庞杂,大数据应用领域广泛,而且各领域和方向采用的关键技术差异性也会较大,难以三言两语说清楚,本文从数据科学和大数据关键技术体系角度,来说说大数据的核心技术什么,到底要怎么学习它 ...
- 大数据专家Bernard Marr:大数据是如何对抗癌症的?
原文在2015年7月14日发表于:http://www.csdn.net/article/2015-07-14/2825204 导语:Bernard Marr 是大数据布道者,著名科技作家,顶级商业数 ...
最新文章
- IBM推出AutoAI,让企业人工智能模型开发自动化
- php 字体问题,php – Scraping上的字体或Unicode问题[复制]
- rest-framework:频率控制
- 盘式制动系统卡钳分类
- randn函数加噪声_损失函数 (Loss Function)
- linux %3e%3e 重定向,当我访问HTTPS时,网站保持重定向到HTTP,无明显原因
- JAVA中的面向对象与内存解析_2
- 实验 7 场景运行监控及性能测试结果分析_实验报告--软件功能测试与性能测试实验
- android webservice 简单应用
- 95-40-060-java.util.concurrent-ConcurrentSkipListMap
- 有以下程序C语言a b cdef,[工学]全国计算机二级笔试基础部分和C语言程序设计.doc...
- HTML的基本知识-和常用标签-以及相对路径和绝对路径的区别
- 面试题 02.01. 移除重复节点(链表删除操作模板)
- 烟雨在线要饭系统v2.0源码
- Linux 指令篇:档案目录管理--ls
- 你有没有思考过,特斯拉为什么先进?
- Wifi攻击工具 3:图形化工具 fern-wifi-cracker
- iOS 使用系统相册获取选取图片的名称
- vue 给静态资源增加路由前缀
- 天龙DBP-1611UD蓝光播放机回顾
热门文章
- win10怎么删除hiberfil.sys文件教程
- 大数据战略能不能打造第二个百度?
- javascript接口鸭式辨型法实现
- 固定偏置放大电路为何不能保证静态工作点的稳定性?
- substring用法,between...and用法 trim标签的用法 模糊查询
- spark学习系列——6 Historyserver配置
- my python voyage
- 计算机自动关机启机唤醒设置,电脑设置自动关机和自动开机
- Matplotlib中显示汉字,Times New Roman字体,公式的相关设置(1)
- 语音验证码与语音验证码APISDK接口