AI时代,在招聘网站公布的招聘数据中,“算法”、“机器学习”、“数据挖掘”相关岗位平均招聘薪资高于其余同等学历、工龄要求的技术岗位30%以上甚至更高,吸引了一大波人开始学习数据挖掘。

今天本篇就来说说,对于零基础小白,应该如何入门数据挖掘,并且在文中附上我之前用过的学习资料及书籍。

数据挖掘的基本概念

先来理解一下什么是数据挖掘。

数据挖掘是从大量的数据中,挖掘出未知的且有价值的信息和知识的过程。但是不是所有的信息发现都能叫数据挖掘,比如通过数据库查找个别记录,通过搜索引擎查找特定的网页等,这些都属于信息检索,数据挖掘是数据库中的知识发现,把没加工的数据转换为有用信息的过程。

机器学习和数据挖掘有什么区别?

机器学习和数据挖掘很类似,很多人以为两个说的是一样的东西,虽然两者本质上的区别不大,但是还是有一些细小的区别:

机器学习更侧重于技术方面和各种算法,一般提到机器学习就会想到语音识别,图像视频识别,机器翻译,等等各种模式识别,核心就是各种精妙的算法。

数据挖掘更偏向于“数据”而不是算法,它包括了很多数据的前期处理,数据的爬取、清洗、整合,数据的有效性检测,数据可视化(画图)等等,最后才是用一些统计的或者机器学习的算法来抽取某些有用的“知识”。前期数据处理的工作比较多。

所以,数据挖掘的范畴要更广泛一些

数据挖掘需要哪些技能?

我是前几年入坑数据挖掘的,纯粹是个人爱好,由于有好几年的数据分析基础,我上手起来不是特别困难,类比数据分析,我也给大家梳理一下数据挖掘的一些必备技能

编程语言

数据挖掘和数据分析不一样,数据分析可以利用一些现成的分析工具完成,但是数据挖掘绝大部分要依赖于编程,在数据挖掘领域常用的编程语言有R、Python、C++、java等,R和python是最受欢迎的两种,可能有一部分人之前在接触数据分析的时候学过python,如果做数据挖掘的话,我也推荐python

推荐学习书籍:《Python核心编程(第二版)》,《利用Python进行数据分析》

大数据处理框架

做数据挖掘不可避免的要接触大数据,目前常用的大数据框架就两个,Hadoop和Spark,Hadoop的原生开发语言是Java,资料多,Spark的原生开发语言是Scala,不过也有Python的API。

数据库知识

这个不用多说,既然是和数据打交道,数据库知识自然少不了,常见关系数据库和非关系数据库知识都要掌握,如果要处理大数量数据集,就得掌握关系型数据库知识,比如sql、oracle。详细设计的知识点,看下图:

推荐学习书籍:《SQL必知必会》、《数据库系统概念》、《Redis设计与实现》、《高性能MySQL(第3版)》(顺序由入门到进阶)

数据结构与算法

精通数据结构和算法对数据挖掘来说相当重要,在数据挖掘岗位面试中也是问的比较多的,数据结构包括数组,链表,堆栈,队列,树,哈希表,集合等,而常见的算法包括排序,搜索,动态编程,递归等

关于数据结构和算法的学习,很多人推荐《算法导论》和《数据结构与算法分析(C语言描述)》这两本书,这两本我都看过,个人觉得《算法导论》太难看完了,里面虽然讲的很细致,但是晦涩难懂,所以我推荐《算法(第4版)》,虽然这本书使用Java讲解常见的算法,但是基本上没有特别难懂的语法,没有Java基础也能轻松看懂

应付面试的话,光看《算法(第4版)》还不够,建议再刷两本应试书籍,比如《程序员代码面试指南》或者《直通BAT面试算法精讲课》

机器学习/深度学习

机器学习是数据挖掘的最重要部分之一。 机器学习算法可建立样本数据的数学模型,来进行预测或决策, 深度学习是更广泛的机器学习方法系列中的一部分。这部分的学习主要分两块,一是掌握常见机器学习算法原理,二是应用这些算法并解决问题。

机器学习入门,强烈推荐吴恩达老师的《机器学习》的视频,地址:https://www.coursera.org/learn/machine-learning基本上80%的人入门机器学习都是靠这个视频。具体提纲我就不列了,大家自己看,我的建议是直接按顺序学,可以反复多看两遍。

推荐书籍:周志华的《机器学习》,这本书的结构很清晰,理论和实践都有设计,是一本不错的学习书

统计学知识

数据挖掘是一个交叉学科,不仅涉及编程和计算机科学,还涉及到多个科学领域,统计学就是不可获取的一部分,它可以帮我们更快的识别问题,区分因果关系和相关性。

推荐学习书籍:李航的《统计学习方法》、《统计学》(原书第5版)

沟通表达能力

和数据分析一样,做数据挖掘不光要处理数据,而且还要向其他人解释我们数据挖掘的结果和见解,而且在大部分的企业中,汇报的对象往往都是一些没有技术基础的业务人员,所以这个岗位也相当考验沟通和表达能力

学习资源

最后,干货奉上!数据挖掘的学习网站和课程资源:

学习网站:

  • W3Cschool https://www.w3cschool.cn/r/
  • 菜鸟教程 http://www.runoob.com/
  • 中国大学MOOC https://www.icourse163.org/category/computer
  • 慕课网 https://www.imooc.com/
  • 网易云课堂 https://study.163.com/category/excel?utm_source=baidu&utm_medium=cpc&utm_campaign=affiliate&utm_term=zyexcel_023&utm_content=SEM

更多干货资料分享,关注下方

零基础入门数据挖掘,看完这份详细的学习指南就够了!(附资料)相关推荐

  1. 「特征工程」之零基础入门数据挖掘

    Datawhale 作者:吴忠强,Datawhale优秀学习者 摘要:对于数据挖掘项目,本文将学习应该从哪些角度做特征工程?从哪些角度做数据清洗,如何对特征进行增删,如何使用PCA降维技术等. 特征工 ...

  2. 【零基础入门数据挖掘】-特征工程

    Datawhale 作者:吴忠强,Datawhale优秀学习者 摘要:对于数据挖掘项目,本文将学习应该从哪些角度做特征工程?从哪些角度做数据清洗,如何对特征进行增删,如何使用PCA降维技术等. 特征工 ...

  3. 零基础入门数据挖掘——二手车交易价格预测:baseline

    零基础入门数据挖掘 - 二手车交易价格预测 赛题理解 比赛要求参赛选手根据给定的数据集,建立模型,二手汽车的交易价格. 赛题以预测二手车的交易价格为任务,数据集报名后可见并可下载,该数据来自某交易平台 ...

  4. 《零基础入门数据挖掘 - 二手车交易价格预测》Baseline实施

    @[TOC]<零基础入门数据挖掘 - 二手车交易价格预测>baseline实施 <零基础入门数据挖掘 - 二手车交易价格预测>Baseline实施 前面陆陆续续学习机器学习大概 ...

  5. 「建模调参」之零基础入门数据挖掘

    Datawhale 作者:徐韬 ,Datawhale优秀学习者 摘要:对于数据挖掘项目,本文将学习如何建模调参?从简单的模型开始,如何去建立一个模型:如何进行交叉验证:如何调节参数优化等. 建模调参: ...

  6. 【零基础入门数据挖掘】-数据分析

    Datawhale 作者:王瑞楠,Datawhale优秀学习者 摘要:对于数据挖掘项目,本文将学习应该从哪些角度分析数据?如何对数据进行整体把握,如何处理异常值与缺失值,从哪些维度进行特征及预测值分析 ...

  7. 【零基础入门数据挖掘】-建模调参

    Datawhale 作者:徐韬 ,Datawhale优秀学习者 摘要:对于数据挖掘项目,本文将学习如何建模调参?从简单的模型开始,如何去建立一个模型:如何进行交叉验证:如何调节参数优化等. 建模调参: ...

  8. 【零基础入门数据挖掘】-模型融合

    Datawhale 作者:田杨军 ,Datawhale优秀学习者 摘要:对于数据挖掘项目,本文将学习如何进行模型融合?常见的模型融合的方法有哪些?针对不同的问题类型,应该选择哪种方法呢? 模型融合:通 ...

  9. Datawhale 零基础入门数据挖掘-Task2 数据分析

    数据探索在机器学习中我们一般称为EDA(Exploratory Data Analysis):是指对已有的数据(特别是调查或观察得来的原始数据)在尽量少的先验假定下进行探索,通过作图.制表.方程拟合. ...

  10. 零基础入门数据挖掘-Task3 特征工程

    Datawhale 零基础入门数据挖掘-Task3 特征工程 前言 内容介绍 数据清洗 缺失值 异常值 箱型图 3∂原则 Box-Cox 变换 特征缩放 特征编码 特征工程 特征提取 特征选择 特征构 ...

最新文章

  1. ESLint问题记录
  2. 黑客必知的SQL语句 黑客知道,程序员必知
  3. Kanzi常用操作2
  4. Web应用开发技术(3)-html
  5. 快速解码base64和utf-8的ASCII编码和URL解码
  6. ediplus 复制编辑一列_vi编辑器的使用详解
  7. 采用java信号量(semaphore)让线程轮流打印
  8. (39)css3实现轮播图效果
  9. 不存在lob值 java,ORA-22922: 不存在的 LOB 值
  10. 轻量级的移动开发JavaScript框架-zepto.js
  11. K - 最少拦截系统(动态规划)
  12. WebView优化提升H5加载速度方案
  13. 将文件按照文件名分类到文件夹
  14. autocad 二次开发 拆分图纸_谈谈AUTOCAD.NET二次开发的一些经验(一)
  15. 手游服务器账号,手游服务器登录流程
  16. 〖Python自动化办公篇⑤〗- 文件自动化管理 - 清理重复的文件与批量修改文件名
  17. 欧冠 欧洲杯免费直播平台
  18. 2010世界财富排行榜
  19. 这样的心态,值得拥有
  20. 企业智能化转型meetup回顾|开源BI AI助力企业转型之旅三阶段

热门文章

  1. 中点和中值滤波的区别_【传感器融合】扩展卡尔曼滤波的逐步理解与实现(上)...
  2. c语言水王争霸链表,水王争霸(water)
  3. 2011高校信息化实践者精英论坛之上海交大BI系统汇报
  4. TXT生成PCD文件
  5. Aspose.Words for .NET使用教程:如何使用脚注和尾注并设置每页行字数
  6. 如何在网易云音乐上正常听周杰伦的歌曲
  7. 卷组删除pv_LVM 移除PV步骤
  8. 基于钉钉的多人协作项目办公
  9. VS2013附加包含目录,添加相对路径
  10. thermal zone