入门:

数据挖掘入门的书籍,中文的大体有这些:

Jiawei Han的《数据挖掘概念与技术》

Ian H. Witten / Eibe Frank的《数据挖掘 实用机器学习技术》

Tom Mitchell的《机器学习》

TOBY SEGARAN的《集体智慧编程》

Anand Rajaraman的《大数据》

Pang-Ning Tan的《数据挖掘导论》

Matthew A. Russell的《社交网站的数据挖掘与分析》

很多人的第一本数据挖掘书都是Jiawei Han的《数据挖掘概念与技术》,这本书也是我们组老板推荐的入门书(我个人觉得他之所以推荐是因为Han是他的老师)。其实我个人来说并不是很推荐把这本书。这本书什么都讲了,甚至很多书少有涉及的一些点比如OLAP的方面都有涉猎。但是其实这本书对于初学者不是那么友好的,给人一种教科书的感觉,如果你有大毅力读完这本书,也只能获得一些零碎的概念的认识,很难上手实际的项目。

我个人推荐的入门书是这两本:TOBY SEGARAN的《集体智慧编程》和Ian H. Witten / Eibe Frank的《数据挖掘 实用机器学习技术

集体智慧编程》很适合希望了解数据挖掘技术的程序员,这本书讲述了数据挖掘里面的很多实用的算法,而且最重要的是其讲述的方式不是像Han那种大牛掉书袋的讲法,而是从实际的例子入手,辅以python的代码,让你很快的就能理解到这种算法能够应用在哪个实际问题上,并且还能自己上手写写代码。唯一的缺点是不够深入,基本没有数学推导,而且不够全面,内容不够翔实。不过作为一本入门书这些缺点反而是帮助理解和入门的优点。

推荐的另一本《数据挖掘 实用机器学习技术》则相对上一本书要稍微难一点,不过在容易理解的程度上依然甩Han老师的书几条街,其作者就是著名的Weka的编写者。整本书的思想脉络也是尽可能的由易到难,从简单的模型入手扩展到现实生活中实际的算法问题,最难能可贵的是书的最后还稍微讲了下如何使用weka,这样大家就能在学习算法之余能够用weka做做小的实验,有直观的认识。

看完上述两本书后,我觉得大体数据挖掘就算有个初步的了解了。往后再怎么继续入门,就看个人需求了。

如果是只是想要稍微了解下相关的技术,或者作为业余爱好,则可随便再看看Anand Rajaraman的《大数据》以及Matthew A. Russell的《社交网站的数据挖掘与分析》。前者是斯坦福的"Web挖掘"这门课程的材料基础上总结而成。选取了很多数据挖掘里的小点作为展开的,不够系统,但讲的挺好,所以适合有个初步的了解后再看。后者则亦是如此,要注意的是里面很多api因为GFS的缘故不能直接实验,也是个遗憾

如果是继续相关的研究学习,我认为则还需要先过一遍Tom Mitchell的《机器学习》。这本书可以看做是对于十多年前的机器学习的一个综述,作者简单明了的讲述了很多流行的算法(十年前的),并且对于各个算法的适用点和特点都有详细的解说,轻快地在一本薄薄的小书里给了大家一个机器学习之旅。

进阶:

进阶这个话题就难说了,毕竟大家对于进阶的理解各有不同,是个仁者见仁的问题。就我个人来说,则建议如下展开:

视频学习方面:

可以看看斯坦福的《机器学习》这门课程的视频,最近听说网易公开课已经全部翻译了,而且给出了双语字幕,更加容易学习了^_^

书籍学习方面:

我个人推荐的是这样:可以先看看李航的《统计学习方法》,这本书着重于数学推导,能让我们很快的对于一些算法的理解更加深入。

有了上面这本书的基础,就可以开始啃一些经典名著了。这些名著看的顺序可以不分先后,也可以同时学习:

Richard O. Duda的《模式分类》这本书是力荐,很多高校的数据挖掘导论课程的教科书便是这本(也是我的数据挖掘入门书,很有感情的)。如果你不通读这本书,你会发现在你研究很多问题的时候,甚至一些相对简单的问题(比如贝叶斯在高斯假设下为什么退化成线性分类器)都要再重新回头读这本书。

Christopher M. Bishop的《Pattern Recognition And Machine Learning》这本书也是经典巨著,整本书写的非常清爽。

The Elements of Statistical Learning》这本书有句很好的吐槽“机器学习 -- 从入门到精通”可以作为这本书的副标题。可以看出这本书对于机器学习进阶的重要性。值得一说的是这本书虽然有中文版,但是翻译之烂也甚是有名,听说是学体育的翻译的。

Hoppner, Frank的《Guide to Intelligent Data Analysis》这本书相对于上面基本经典巨著并不出名,但是写的甚好,是knime官网上推荐的,标榜的是解决实际生活中的数据挖掘问题,讲述了CRISP-DM标准化流程,每章后面给出了R和knime的应用例子。

以前写过的读书笔记http://www.cnblogs.com/flclain/archive/2012/11/23/2785079.html

项目方面:

事实上,我觉得从进阶起就应该上手一些简单的项目了。如果不实践只是看书和研究算法,我觉得是无法真正理解数据挖掘的精髓所在的。打个简单的比方,就算你看完了C++ Primer、effective C++等等书籍,如果自己不写C++,那么自己也就会停留在hello world的级别。实践出真知非常切合数据挖掘这门学科,实际上手项目后才会发现什么叫"80%的准备,20%的建模",real world的问题我认为并不是仅仅靠modeling就能很好的解决的。详细的可以看看《Guide to Intelligent Data Analysis》就能略知一二。如果上手做推荐或者一些简单的项目,也可以考虑用用mahout,推荐的入门手册是《mahout in action》。项目问题说来话长,有时间会以CRISP流程为引单独作文,这里也就不详谈了。

软件方面:

我常用而且推荐的软件有如下,这里只是简单的列出,以后有时间再详细分析和写出入门:

Weka Java的软件,可以集成到自己的项目中

Orange 一个用python写的数据挖掘开源软件,界面做的很漂亮,可以做图形化实验,也可以用python调用编程。

Knime 和Orange类似,特点是可以集成weka和R等开源软件

SAS的EM模块以及R 还有最最经典的matlab大大

不过引用余凯大大的一个weibo来说

“不用Matlab的理由太多,稍微列一下,大家补充吧:

1. 积重难返,最后工作效率反而越来越低;

2. follow production protocol, 相当于学习无数程序员的实践经验;

3. 不能驾驭算法和系统的人不能真正作出有实用价值的研究成果;

4. 百度腾讯阿里谷歌面试通不过;

5. Matlab很贵”

这里有篇文有简要的介绍上面的部分开源软件http://www.oschina.net/question/12_14026

再往后:

再往后的其实就是我就是觉得是学数学了,然后就是深入读一些你感兴趣的topic的书籍和paper,接项目,做项目了。发展有数据分析师或者去专门的企业做数据研究员,当然混学术界的我就不清楚了。

转载 http://www.cnblogs.com/flclain/archive/2012/12/22/2829317.html

转载于:https://www.cnblogs.com/MengYan-LongYou/p/3175636.html

漫谈数据挖掘从入门到进阶相关推荐

  1. python数据结构推荐书-「算法与数据结构」从入门到进阶吐血整理推荐书单

    推荐一下「算法与数据结构」从入门到进阶的书单. 一.入门系列 这些书籍通过图片.打比方等通俗易懂的方法来讲述,让你能达到懂一些基础算法,线性表,堆栈,队列,树,图,DP算法,背包问题等,不要求会实现, ...

  2. 机器学习从入门到进阶✅

    1. 放弃海量资料!!! 没错,就是放弃海量资料!在我们想要入门机器学习的时候,往往会搜集很多资料,什么 xx学院机器学习内部资源.机器学习从入门到进阶百 G 资源.xx 人工智能教程,等等.很多时候 ...

  3. 赠书活动 | 数据挖掘经典入门

    赠书活动在 AINLP 公众号. 这本书相当受欢迎(前两个版本累计销量超过 5 万册),尤其是受学校青睐--在此也说声抱歉,出于出版时间的原因,很多学校依然采用了旧版作为教材:同时也请知悉,新版已上架 ...

  4. R语言 echarts4r 不显示图形_9本R语言书,从入门到进阶都在这里了!

    程序猿们都知道,人民邮电出版社有很多关于R语言的书,今天小编带大家了解一下R,从入门到进阶,都在这了. 最新上架 R语言之书:编程与统计 作者:[新西兰]蒂尔曼·M. 戴维斯(Tilman M. Da ...

  5. 机器学习入门到进阶学习路线

    机器学习入门到进阶学习路线 参考:https://mp.weixin.qq.com/s/f-v-NUW7pTbVF9Sa3A4qUA 1. 定义 机器学习研究的是计算机怎样模拟人类的学习行为,以获取新 ...

  6. 算法与数据结构+一点点ACM从入门到进阶吐血整理推荐书单

    前言:技术书阅读方法论 一.速读一遍(最好在1~2天内完成) 人的大脑记忆力有限,在一天内快速看完一本书会在大脑里留下深刻印象,对于之后复习以及总结都会有特别好的作用. 对于每一章的知识,先阅读标题, ...

  7. R语言 echarts4r 不显示图形_9本R语言书,从入门到进阶都在这了

    近期异步社区最新上架了两本R语言,小编带大家了解一下R语言书,从入门到进阶,都在这了.因为夏季即将到来,小编字体用了绿色,嘿嘿!最新上架 R语言之书:编程与统计 作者:[新西兰]蒂尔曼·M. 戴维斯( ...

  8. python入门与进阶

    title: python入门与进阶 categories: python tags: [python] python入门导学 python的特点 是面向对象的编程语言 简介,灵活,优雅,哲学 易于上 ...

  9. python excel 数据分析统计服_数据分析从入门到进阶(透彻讲解EXCEL.SQL.TABLEAU、PYTHON四项数据分析必会工具.免费提供1GB数据集...

    透彻讲解Excel.SQL.Tableau.Python四项数据分析必会工具,数据分析工作者的案头推荐工具书.系统介绍数据分析的策略.方法(数据分析之道):实例讲解引导.快速掌握数据分析工具(数据分析 ...

最新文章

  1. Matlab数据的可视化 -- 散点图
  2. 实现线程之间的参数传递
  3. springboot+多线程简单实现
  4. linker command failed with exit code 1 解决
  5. Python3.6全栈开发实例[006]
  6. 惠斯通电桥信号调理芯片_elmos推出专为汽车应用开发的传感器信号调理芯片E520.47...
  7. 安大计算机学院院长汤进,淮北师范大学
  8. v-html解析的相对地址img 显示不出来_还不懂java类加载机制的,建议看下这份阿里技术官总结的笔记!...
  9. Linux下如何判断磁盘类型,Linux下判断磁盘属于U盘、HDD盘或者SSD盘的方法
  10. 40万亿“新基建”来了!程序员的新翻身机会终于也来了!
  11. VC 2010下安装OpenCV2.4.4(来自wiki)
  12. JVM垃圾回收机制【简单介绍】
  13. 搜索引擎Bing必应高级搜索技巧
  14. 小程序毕业设计 基于微信鲜花花店商城小程序毕业设计开题报告功能参考
  15. 本地连接服务器无响应怎么解决办法,本地连接的服务器未响应
  16. s5pv210 linux,S5PV210-零基础体验uboot
  17. 【财务】FMS财务管理系统---应收管理
  18. 干掉Session?这个跨域认证解决方案真的优雅
  19. mysql上机实验报告_数据库上机实验7实验报告.doc
  20. 【技巧】使用微信进行简单的拼接长图

热门文章

  1. 对short类型,输出结果不一样?
  2. Coursera自动驾驶课程第17讲:An Autonomous Vehicle State Estimator
  3. 2)机器学习基石笔记Lecture2:Learning to Answer Yes/No
  4. mysql rand() 子查询_MySQL ------ 子查询(十三)
  5. android 中断处理流程,Android P的native crash处理流程
  6. php万能查询用预,PHP 与 mysql
  7. php日期相减函数,倒计时函数_计算两个时间相差值_PHP函数
  8. 计算机技术员好学吗,电脑技术员,沦落到如此地步...
  9. 求以下double数组的平均值(四舍五入保留两位小数):
  10. 学习笔记4-C语言-开关、循环、跳转