数据挖掘常用算法

  1. 分类算法

    • 决策树
    • ID3
    • C4.5
  2. 聚类
    • K-mean算法
    • DBSCAN
  3. 回归
    • 线性回归
    • 多项式回归
  4. 关联规则
  5. 时间序列分析
  6. 文本挖掘
  7. Web挖掘

数据挖掘流程

  1. 数据清理(消除噪声和不一致的数据)
  2. 数据集成(多中数据源可以组合在一起)
  3. 数据选择(从数据库中提取与分析任务相关的数据)
  4. 数据变换(数据变换或统一成适合挖掘的形式;如通过汇总或聚集操作)
  5. 数据挖掘(基本步骤,使用智能方法提取数据模式)
  6. 模式评估(根据某种有趣度量,识别提供知识真正有趣的模式)
  7. 知识表示(使用可视化和知识表示技术,向用户提供挖掘的知识)

分类问题

数据被分成两部分,其中training set被用来生成模型,剩下的数据作为test set用来评价模型。

各种分类算法的优缺点

决策树

一种启发式算法,核心是在决策树各个节点上应用信息增益等准则来选取特征,进而递归地构造决策树。

优点:
1. 计算复杂度不高,易于理解和解释,可以理解决策树所表达的意义;
2. 数据预处理阶段比较简单,且可以处理缺失数据;
3. 能够同时处理数据型和分类型属性,且可对有许多属性的数据集构造决策树;
4. 是一个白盒模型,给定一个观察模型,则根据所产生的决策树很容易推断出相应的逻辑表达式;
5. 在相对短的时间内能够对大数据集合做出可行且效果良好的分类结果。
6. 可以对有许多属性的数据集构造决策树。

缺点:
1. 对于那些各类别样本数目不一致的数据,信息增益的结果偏向于那些具有更多数值的属性;
2. 对噪声数据较为敏感;
3. 容易出现过拟合问题;
4. 忽略了数据集中属性之间的相关性;
5.处理缺失数据时的困难

KNN算法

一种惰性分类方法,从训练集中找出k个最接近测试对象的训练对象,再从这k个训练对象中找出居于主导的类别,将其赋给测试对象。

优点:
1. 简单有效,容易理解和实现;
2. 重新训练的代价较低(类别体系的变化和训练集的变化);
3. 计算时间和空间线性于训练集的规模;
4. 错误率渐进收敛于贝叶斯错误率,可作为贝叶斯的近似;
5. 适合处理多模分类和多标签分类问题;
6. 对于类域的交叉或重叠较多的待分类样本集较为适合;

缺点:
1. 是懒散学习方法,比一些积极学习的算法要慢;
2. 计算量比较大,需对样本点进行剪辑;
3. 对于样本不平衡的数据集效果不佳,可采用加权投票法改进;
4. k值的选择对分类效果有很大影响,较小的话对噪声敏感,需估计最佳k值。
5.可解释性不强,计算量大。

朴素贝叶斯算法

贝叶斯分类器的分类原理是利用各个类别的先验概率,再利用贝叶斯公式及独立性假设计算出属性的类别概率以及对象的后验概率,即该对象属于某一类的概率,选择具有最大后验概率的类作为该对象所属的类别。

优点:
1. 数学基础坚实,分类效率稳定,容易解释;
2. 所需估计的参数很少,对缺失数据不太敏感;
3. 无需复杂的迭代求解框架,适用于规模巨大的数据集。

缺点:
1. 属性之间的独立性假设往往不成立(可考虑用聚类算法先将相关性较大的属性进行聚类);
2. 需要知道先验概率,分类决策存在错误率。

SVM算法

对于两类线性可分学习任务,SVM找到一个间隔最大的超平面将两类样本分开,最大间隔能够保证该超平面具有最好的泛化能力。

优点:
1. 可以解决小样本情况下的ML问题;
2. 可以提高泛化性能;
3. 可以解决高维问题,避免维数灾难;
4. 可以解决非线性问题;
5. 可以避免神经网络结构选择和局部极小点问题。

参数C和g的选择对分类性能的影响:
C是惩罚系数,C越大,交叉validation高,容易过学习;
g是核函数的到达0的速率,g越小,函数下降快,交叉validation高,也容易造成过学习。

缺点:
1. 对缺失数据敏感;
2. 对非线性问题没有通用解决方案,必须谨慎选择kernel function来处理。

AdaBoost算法

提升方法是从弱学习算法出发,反复学习,得到一系列的弱分类器(即基本分类器),然后组合这些弱分类器,构成一个强分类器,大多数的提升方法都是改变训练数据集的概率分布(训练数据的权值分布),针对不同的训练数据分布调用弱学习算法学习一系列的弱分类器。

优点:
1. 分类精度高;
2. 可以使用各种方法构建子分类器,Adaboost算法提供的是框架;
3. 简单,且不用做特征筛选;
4. 不会造成overfitting。

缺点:
1. 对分类错误的样本多次被分错而多次加权后,导致权重过大,影响分类器的选择,造成退化问题;(需改进权值更新方式)
2. 数据不平衡问题导致分类精度的急剧下降;
3. 算法训练耗时,拓展困难;
4. 存在过拟合,鲁棒性不强等问题。

Logistic回归算法

二项logistic回归模型是一种分类模型,由条件概率分布P(Y|X)表示,形式为参数化的logistic分布。这里随机变量X取值为实数,随机变量Y取值为1或0。可以通过有监督的方法来估计模型参数。

优点:
1. 计算代价不高,易于理解和实现;
2. 适用于数值型和分类型数据。

缺点:
1. 容易欠拟合;
2. 分类精度可能不高。

人工神经网络

优点:
1. 分类的准确度高,并行分布处理能力强,分布存储及学习能力强;
2. 对噪声神经有较强的鲁棒性和容错能力,能充分逼近复杂的非线性关系,具备联想记忆的功能等。

缺点:
1. 神经网络需要大量的参数,如网络拓扑结构、权值和阈值的初始值;
2. 不能观察之间的学习过程,输出结果难以解释,会影响到结果的可信度和可接受程度;
3. 学习时间过长,甚至可能达不到学习的目的。

遗传算法

优点:
1. 与问题领域无关且快速随机的搜索能力;
2. 搜索从群体出发,具有潜在的并行性,可以进行多个个体的同时比较,鲁棒性好;
3. 搜索使用评价函数启发,过程简单;
4. 使用概率机制进行迭代,具有随机性;
5. 具有可扩展性,容易与其他算法结合。

缺点:
1. 遗传算法的编程实现比较复杂,找到最优解之后还需要对问题进行解码;
2. 三个算子的实现也有许多参数,如交叉率和变异率,并且这些参数的选择严重影响解的品质,而目前这些参数的选择大部分是依靠经验。
3.算法的搜索速度比较慢,要得要较精确的解需要较多的训练时间;
4. 算法对初始种群的选择有一定的依赖性,能够结合一些启发算法进行改进。

数据挖掘(清华公开课)相关推荐

  1. 《电路原理》清华公开课 week1 支路变量、元件、KCL、KVL

    第2讲 电路 电路组成: 电源(能量or信号).负载(能量or信号).处理信号或能量的电路.开关和导线. 电路分类: 按照负载:阻性电路(全为电阻).动态电路(包括电容,动态电路又可分为暂态分析(电路 ...

  2. 【数据挖掘】《数据分析与数据挖掘》--天津大学公开课

    天津大学<数据分析与数据挖掘>公开课--学习笔记 1.1 数据分析与数据挖掘 1.1.3 知识发现(KDD)的过程 1.1.4 区别 1.1.5 联系 1.2 分析和挖掘的数据类型 1.2 ...

  3. AI公开课:18.05.05 施尧耘(阿里云量子技术CS)—清华AI第四讲之《人工智能与量子计算》Quantum课堂笔记——带你了解量子计算

    AI公开课:18.05.05 施尧耘(阿里云量子技术CS)-清华AI第四讲之<人工智能与量子计算>Quantum课堂笔记--带你了解量子计算 导读 清华大学"人工智能前沿与产业趋 ...

  4. 【清华AI公开课】雷鸣、徐小平开讲:别害怕BAT,AI领域投的钱还不够多

    此次课程开幕式活动上,清华大学理学院院长宫鹏教授.信息科学技术学院朱军副教授.在线教育办公室于世洁教授先后致辞. 宫鹏教授简要地回顾了全球农业.工业和信息革命,指出过去数十年推动社会巨变的主要动力之一 ...

  5. 斯坦福大学物理教授张首晟:In Math We Trust | 清华x-lab公开课

    清华区块链公开课又开讲啦!这一讲嘉宾是斯坦福大学物理系.电子工程系和应用物理系终身教授张首晟.大数据文摘为不能来到现场的同学们带来了讲座实录,请大家来先睹为快吧! 区块链系列公开课由清华x-lab及校 ...

  6. 数据挖掘公开课推荐(含下载链接)

    之前偶然参加的一个公开课,主讲人是一个竞赛大牛 课程特点:前4期介绍数据挖掘(数据科学竞赛)的主要步骤,后三期以真实比赛进行实战,课程内容还不错,但是密度不是很大,1.5倍速看的话,一天足矣. 适合人 ...

  7. 数据挖掘-理论与算法 公开课笔记

    数据挖掘-理论与算法 公开课笔记 制作:纪元 本提纲遵循CC-BY-NC-SA协议 (署名-非商业性-相同方式共享) 最近更新时间:2020年3月4日01:48:00 文章目录 10.2.1.1 Da ...

  8. 【清华 AI 公开课】IJCAI理事长杨强:人工智能在企业的落地是一门大学问

    在课程开始,雷鸣老师先概述了对产业有较大影响的技术,以及未来将发生的演变. 从技术角度看,未来对产业产生比较大影响的技术有: 基于视频的信息理解和处理技术 .现在,基于静态的图片的处理技术,比如人脸识 ...

  9. AI公开课:人工智能领域之北大清华AI公开课之2018年、2019年系列集锦—国内外最著名、最顶级的教授大佬带你了解当下的人工智能时代

    AI公开课:人工智能领域之北大清华AI公开课之2018年.2019年系列集锦-国内外最著名.最顶级的教授大佬带你了解当下的人工智能时代 导读:应广大网友的后台留言要求,博主重新把文章整理一遍,供广大网 ...

最新文章

  1. Python爬虫实战(5):模拟登录淘宝并获取所有订单
  2. nssl1453-Fibonacci数列【矩阵乘法,线段树】
  3. ElasticSearch 未授权访问记录(端口:9200)
  4. java/03/类与对象,深入分析类与对象(权限修饰,构造方法和简单java类),数组的定义及使用
  5. 数值计算方法(二)——复化求积公式
  6. Linux配置手册(八)基于MySQL构建PHP环境
  7. java iecapt.exe_IECapt生成网页快照IECapt.exe下载 CutyCapt
  8. opencv计算机视觉学习笔记一
  9. Benchmark与Profiler---性能调优得力助手
  10. Cursor finalized without prior close()
  11. 江苏省计算机二级cpp试题,2017年计算机二级C++考试试题
  12. IPO笔记之:关于自然人股东投资移民变更身份对IPO事宜之影响
  13. Linux 安装.deb软件包之前 dpkg-deb 命令查看.deb文件详细信息 版本号 包名
  14. kali中netspeed的安装方法
  15. mongodb报错:Problem inserting to mongo collection: no reachable servers
  16. php7语法 mysql_php7语法
  17. 计时函数clock()与数据类型clock_t
  18. 医院PACS系统之简介
  19. UEditor1.4.3.3的webshell漏洞攻击揭秘
  20. 盘点世界杯 之 世界杯十大震惊榜

热门文章

  1. 傲视群雄,酷派大神发力高端市场
  2. 解决Apache+PHP服务器提示HTTP 500问题
  3. ASCII表字符对照表【大致分为3种】
  4. Java征途:行者的地图
  5. vue项目的状态管理器(Vuex)
  6. 禁止IOS H5的滑动回弹
  7. 戴尔创始人 迈克尔·戴尔
  8. RDM连接阿里云服务器的Redis
  9. android webview 跨域,实战Webview跨域访问风险
  10. 电脑计算机人员英语,计算机英语_计算机专业英语_计算机英语词汇