一、数据挖掘算法简介

     1. C4.5 (决策树分类)2. K-means (K均值聚类)3. Support Vector Machine(SVM) (支持向量机分类)4. Apriori (关联规则挖掘)5. EM (最大期望算法)6. PageRank (链接分析)7. Adaboost (集成算法)8. KNN (K近邻分类)9. Naive Bayes (朴素贝叶斯分类)10. CART (分类和回归)

数据挖掘的步骤

(1)问题定义:定义要挖掘的目标和用户需求。
(2)数据提取:在确定数据挖掘任务后,根据要求从数据源中提取与挖掘任务相关的数据集。
(3)数据预处理:主要对数据预处理
(4)数据挖掘实施:选择合适的算法得到结果
(5)知识表示:将发现的知识以合理、科学的方法向用户展示。
(6)结果评估:对结果进行评估分析、发现某种规则、对结果进行优化

二、基于隐私保护的数据挖掘

隐私保护技术介绍

(1)基于数据失真(Distorting)的技术:使敏感数据失真但同时保持某些数据或者数据属性不变的方法。
(2)基于数据加密的技术:采用加密技术在数据挖掘过程中隐藏敏感数据的方法。
(3)基于限制发布的技术:根据具体情况有条件的发布数据。如不发布数据的某些域值,数据泛化等。

2.3.1 基于限制发布的技术

数据匿名化一般采用以下两种基本操作:
(1)抑制。抑制某种数据项,亦既不发布该数据项。
(2)泛化。泛化是对数据进行更概括、抽象的描述。
数据匿名化所处理的原始数据一般是多属性的,可分为以下三类:
(1)标识符。能唯一标识单一个体的属性。
(2)准标识符。联合起来能唯一标识一个人的多个属性。
(3)敏感属性。包含隐私数据的属性。
(a) k-匿名隐私保护模型:k-匿名处理后的数据,攻击者将无法做出准确的判断。k值越大,隐私保护的强度越强,但丢失的信息越多,数据可用性越低。
(b) L-diversity隐私保护模型:新模型保证任一等价类中的敏感属性都至少有L个不同的值。
(c) K-anonymity模型:该模型将敏感数据值的隐私程度进行分类排序,并进行赋值,权值越小越敏感。
定义2-1 在准标识符构成的K-anonymity等价类中,至少有p个不同的敏感值,并且每个等价类权值总和都超过了a,则满足(p,a)-sensitive K-anonymity模型。
定义2-2 在准标识符构成的K-anonymity等价类中,至少有p个不同的敏感组,并且构成的等价类权值总和都超过了a,则满足(p+,a)-sensitive K-anonymity模型。
基于交换和分解的匿名化算法的特点是:通过进行交换或分组,使得等价组内记录的准标识符属性和敏感属性形成多对多的关系,保证了隐私数据的安全性。并且该类算法不需要对准标识符属性进行泛化,保持了数据较好的完整性。

2.3.2 基于数据加密的技术

基于数据加密的隐私保护方法,保证了数据的机密性和隐私性。加密方法中用的最多的是同态加密技术和安全多方计算(SMC)。
SMC是指利用加密机制形成交互计算的协议,可以实现无信息泄漏的分布式安全计算。在SMC中定义了两类基本的攻击者模型:半诚实攻击者和恶意攻击者。半诚实攻击者遵守相关计算协议但仍试图获取其他方隐私信息的站点;恶意攻击者可以获取其他方的隐私信息做出任何行为的站点。
(1)安全求和:关联规则挖掘、EM聚类、贝叶斯分类器
(2)安全比较:关联规则挖掘、决策树、EM聚类、KNN分类
(3)安全点积运算:EM聚类、SVM
(4)安全并集运算:关联规则挖掘
(5)安全求对数:决策树
(6)安全多项式计算:决策树、SVM

2.3.3 基于数据失真的技术

基于数据失真的技术通过添加噪声等方法,使敏感数据失真但同时保持某些数据或数据属性不变以保持某些统计方面的性质。
(1)随机化方法:为集中式数据进行隐私保护数据挖掘,对数据增加噪声,使得原数据集的分布概率能够保留下来,而每条记录信息很难恢复,以此达到隐私保护的目的。
(2)随机化应答:是数据所有者将原始数据干扰后发布,使攻击者不能以高于预定阈值的概率得出原始数据是否包含某些真实信息或伪信息。
(3)阻塞与凝聚:采用不发布某些特定数据的方法,既将某些特定的值用一个不确定符号代替。
(4)差分隐私保护技术:通过添加噪声的方法,确保删除或者添加一个数据集中的记录并不会影响分析的结果;因此,即使攻击者得到了两个仅相差一条记录的数据集,通过分析两者产生的结果,也无法推断出隐藏的那一条记录的信息。
噪声机制是实现差分隐私保护的主要技术,就具体实现机制而言,Laplace机制和指数机制(EM)是差分隐私中两种最基础的差分隐私保护实现机制,Laplace适合对数值型结果的保护指数机制则适合于非数值型结果。
Laplace机制通过拉普拉斯分布产生的噪声扰动真实输出值来实现差分隐私保护。
在基于差分隐私的分类技术中,主要代表方法有SuLQ-based ID3、DiffP-C4.5以及DiffGen,这三类方法均采用ID3算法中信息增益分割属性。

2.3.4 隐私保护技术对比分析

                                  **隐私保护技术的对比分析图**

隐私保护技术的性能评估

2.4 隐私保护和数据挖掘模型

(1)第三方信任模型:各个站点将数据用加密方式安全的传递给信任第三方,由信任第三方进行计算后返回各自的结果。
(2)半诚信模型:也称半诚实模型。
(3)恶意模型:在某些严格情况下,需考虑恶意模型以防范恶意参与方欺骗与攻击。
(4)其他模型:例如激励相容模型。

2.5 隐私披露风险度量

隐私披露风险是与隐私侵犯相对应的一个标准,反映了攻击者通过发布的数据表与其它相关背景知识链接后得到隐私信息的概率。

2.6 隐私保护中的数据挖掘应用

2.6.1 基于隐私保护的关联规则(AR)挖掘方法

2.6.2 基于聚类的匿名化算法

2.6.3 基于决策树的隐私保护

2.6.4 基于贝叶斯分类的隐私保护

2.6.5 基于特征选择的隐私保护

2.7 大数据安全与隐私保护

(1) 数据发布匿名保护技术
(2)社交网络匿名保护技术
(3)数据水印技术
(4)数据溯源技术
(5)角色挖掘
(6)风险自适应的访问控制

网络安全中的数据挖掘技术(一)相关推荐

  1. 应用及实例,在信用卡业务中的数据挖掘技术分析

    信用卡业务具有透支笔数巨大.单笔金额小的特点,这使得数据挖掘技术在信用卡业务中的应用成为必定. 国外信用卡发卡机构已经广泛应用数据挖掘技术促进信用卡业务的发展,实现全面的绩效管理.我国自1985年发行 ...

  2. 电子商务中的数据挖掘技术

    电子商务中的数据挖掘技术                                                        利群集团--孙士昆                       ...

  3. 什么是数据挖掘,给出一个你在生活中应用数据挖掘技术的例子,分析数据挖掘的意义。...

    数据挖掘是指从大量数据中自动或半自动地发现有用的信息.模式和知识的过程.数据挖掘通常包括预处理数据.选择适当的数据挖掘技术.应用算法和模型.评估结果和解释发现的知识. 一个我在生活中应用数据挖掘技术的 ...

  4. 互联网金融中的数据挖掘技术应用

    本文来自网易云社区. 在金融行业中,客户关系管理.风险计量与管理.精准营销.交易执行.安全与反欺诈等所需的业务分析都需要大数据分析与挖掘,而这些正是实现迅速和科学决策的核心基础.大数据时代背景驱动的金 ...

  5. 数据挖掘技术在信用卡业务中的应用及实例分析

    信用卡业务具有透支笔数巨大.单笔金额小的特点,这使得数据挖掘技术在信用卡业务中的应用成为必然.国外信用卡发卡机构已经广泛应用数据挖掘技术促进信用卡业务的发展,实现全面的绩效管理.我国自1985年发行第 ...

  6. 网络安全中机器学习大合集 Awesome

    网络安全中机器学习大合集 from:https://github.com/jivoi/awesome-ml-for-cybersecurity/blob/master/README_ch.md#-da ...

  7. [转载]基于数据挖掘技术入侵检测系统研究

    [---  资料是从免费网站上获取的,上载在这里,只为交流学习目的,文章原作者保留所有权力, 如本博客的内容侵犯了你的权益,请与以下地址联系,本人获知后,马上删除.同时本人深表歉意,并致以崇高的谢意! ...

  8. 数据挖掘技术特写(转)

    导语: "我们把世界看成数学,并且把你也看成数学"--用这句话来说明数据挖掘技术的复合性和应用的广泛性似乎再好不过.如今,虽然一些行业在应用这一技术上仍然缺乏足够的主动,但一个不能 ...

  9. 【数据挖掘技术应用笔记】

    作业篇 作业一 1 简述什么是数据挖掘?给出一个你在生活中应用数据挖掘技术的例子,分析数据挖掘的意义. 数据挖掘:利用分类与预测.聚类分析.关联规则.时序模式.偏差检测.智能推荐等方法,帮助企业提取数 ...

  10. 计算机信息管理技术 互联网,计算机信息管理技术在网络安全中的运用思路

    计算机信息管理技术在网络安全中的运用思路 随着计算机技术的快速发展,也促进了计算机信息管理技术的发展进步,这也对计算机网络安全工作的开展产生了较大的影响. 摘要:计算机技术在人们生活中融入的程度不断加 ...

最新文章

  1. 计算机软件与理论考研考试科目,2014年电子科技大学081202计算机软件与理论考研专业目录及考试科目...
  2. QT判断多级目录是否存在,不存在就创建
  3. 用dedecms自定义表单创建简易自助预约系统
  4. @RequestBody如何使用
  5. 用python操作浏览器的三种方式_python的webbrowser模块支持对浏览器进行一些操作...
  6. Gitlab 新建用户和修改密码
  7. python牛顿法解非线性方程组_萌新请教牛顿法求解三元非线性方程组
  8. quartz问题记录-missed their scheduled fire-time
  9. 姿态(Orientation)
  10. 输入一段英文字符,统计每个小写字母的出现次数
  11. 2021-07-08~2021-07-22总结--zhengjun
  12. Go学习笔记 -- 方法
  13. 魔术师预测德国彩票号码
  14. 计算机网络学习心得1
  15. avc水平什么意思_avc是什么意思 什么是avc
  16. Java登录QQ邮箱整理邮件的58的简历(一)
  17. 如何提高专注力(哪项运动可以提高专注力)
  18. Minecraft-标题、计分板、定期公告(TitleManager插件)
  19. 主流的 OLAP 引擎介绍 - OLAP极简教程
  20. php将xml字符串转数组,PHP如何将XML字符串转数组?

热门文章

  1. STM8S103之串口中断接收
  2. ArcGIS如何进行拓扑检查
  3. Filenet:主打底层技术创新,检索分发挖矿开创全民挖矿时代!
  4. postman下载安装汉化及使用
  5. Remote Desktop Connection Manager2.7 安装+基本使用
  6. (学习笔记1)可见光与红外图像的特征融合(Feature Fusion)
  7. android 手机 平板同屏,多屏互动手机与平板互相投屏
  8. 手机版wps支持格式
  9. 学习笔记-OS - Exploits
  10. ios13怎么打开科学计算机,教你iOS13怎么投屏到Win10上