• 前言
  • 概括
  • 1 学习语言
  • 2 工具:数据挖掘,数据科学和可视化软件
  • 3 教科书
  • 4 教育:网络研讨会,课程,证书和学位
  • 5 数据
  • 6 比赛
  • 7 互动:会议,团体和社交网络
  • more

前言

最近一直一再学习数据挖掘的相关知识,这是一篇国外的文章,我添加了自己的一些理解,大概的翻译过来,供大家一起学习参考。

概括

  1. 语言:学习R,Python和SQL
  2. 工具:了解如何使用数据挖掘和可视化工具
  3. 教科书:阅读入门教科书以了解基本原理
  4. 教育:观看网络研讨会,参加课程并考虑证书或数据科学学位
  5. 数据:检查可用的数据资源并在那里找到
  6. 比赛:参加数据挖掘比赛
  7. 通过社交网络,团体和会议与其他数据科学家进行交流

1 学习语言

现用于数据挖掘的最流行的语言是R,Python和SQL。
每种资源都有很多

  • Free e-book on Data Science with R
  • Python for Data Analysis: Agile Tools for Real World Data 下载链接
  • An indispensable Python : Data sourcing to Data science
  • W3 Schools Learning SQL

2 工具:数据挖掘,数据科学和可视化软件

对于不同的任务有许多数据挖掘工具 ,但最好使用支持整个数据分析过程的数据挖掘套件进行学习。

您可以从开源(免费)工具开始,如KNIME , RapidMiner和Weka 。

但是,对于许多分析工作,您需要了解SAS ,这是领先的商业工具并得到广泛应用。

其他流行的分析和数据挖掘软件包括MATLAB,StatSoft STATISTICA,Microsoft SQL Server,Tableau,IBM SPSS Modeler和Rattle。

可视化是任何数据分析的重要组成部分 - 了解如何使用Microsoft Excel(适用于许多更简单的任务), R图形 (特别是ggplot2 )以及Tableau - 一个用于可视化的出色软件包。 其他好的可视化工具包括TIBCO Spotfire和Miner3D。
国内百度的Echarts也是相当好用的

3 教科书

有许多数据挖掘和数据科学教科书可用,但你可以检查这些

  • 数据挖掘和分析:基本概念和算法,免费PDF下载(草案) ,由Mohammed Zaki和Wagner Meira Jr.提供。
  • 数据挖掘:实用机器学习工具和技术“ ,来自Weka作者的Ian Witten,Eibe Frank和Mark
    Hall,以及广泛使用Weka的例子。
  • 统计学习 ,数据挖掘,推理和预测的元素 ,Trevor Hastie,Robert Tibshirani,Jerome Friedman,数学导向的重要介绍
  • LIONbook:学习和智能优化 ,Roberto Battiti和Mauro Brunato,可以在网上免费下载,逐章阅读。
  • 大量数据集的挖掘Book ,A. Rajaraman,J. Ullman。
  • StatSoft Electronic Statistics Textbook™(免费)包含许多数据挖掘主题

4 教育:网络研讨会,课程,证书和学位

您可以从关于分析,大数据,数据挖掘和数据科学领域最新主题的许多免费网络研讨会和网络直播开始。

也有很多在线课程,其中很多都是免费的 - 请参阅KDnuggets在线教育目录 。

特别检查这些课程:

  • 机器学习 ,在Coursera由Andrew Ng教授
  • 在加州理工学院教授Yaser Abu-Mostafa的指导下, 在 edX 学习learning from data ,
  • 从Syracuse iSchool 开放应用数据科学在线课程
  • 使用Weka进行数据挖掘 ,免费在线课程。

最后,考虑在数据挖掘,数据科学或高级学位获得证书 ,例如数据科学中的MS - 请参阅KDnuggets目录中的教育分析,数据挖掘和数据科学 。

5 数据

你需要分析数据 - 请参阅数据挖掘的数据集的 KDnuggets目录,其中包括

  • 政府,联邦,州,市,地方和公共数据网站和门户
  • 数据API,集线器,市场,平台,门户和搜索引擎 。
  • 免费的公共数据集

6 比赛

再一次,你最好通过练习来学习,所以参加Kaggle比赛 - 从初学者比赛开始,比如使用机器学习预测泰坦尼克号生存

7 互动:会议,团体和社交网络

您可以加入许多同行组 - 查看前30名LinkedIn分组,大数据,数据挖掘和数据科学组 。

AnalyticBridge是分析和数据科学的活跃社区。

您可以参加关于分析,大数据,数据挖掘,数据科学和知识发现的众多会议和会议 。

另外,考虑加入组织年度KDD会议 - 领域领先的研究会议的ACM SIGKDD 。

more

  • 如何从数据科学入门 ,Hortonworks
  • 一个实用的数据科学简介 ,Zipfian学院
  • 成为数据科学家 - 通过Metromap进行课程设置 ,这是一个数据科学家之旅的视觉地图。
  • 获得免费的数据科学教育 ,Daniel Gutierrez

原文链接
这里跳转

转载请注明出处:
CSDN:楼上小宇__home:http://blog.csdn.net/sty945
简书:楼上小宇:http://www.jianshu.com/u/1621b29625df

如何学习数据挖掘和数据科学的7个步骤相关推荐

  1. python3数据科学入门与实战_Python3学习之Python3数据科学入门与实战视频教程

    Python3学习之Python3数据科学入门与实战视频教程 Python3数据科学入门与实战 这是一个数据驱动的时代,想要从事机器学习.人工智能.数据挖掘等前沿技术,都离不开数据跟踪,本课程通过Nu ...

  2. 快速数据库框架_快速学习新的数据科学概念的框架

    快速数据库框架 重点 (Top highlight) 数据科学 (Data Science) Success in data science and software engineering depe ...

  3. 深度学习时代的数据科学和自然语言处理

    探索一些自然语言处理技术的最新进展.深度学习在自然语言处理技术领域的应用.实践和数据资源,以及使用英特尔的Nervanan Platform的企业自然语言处理的应用案例和使用英特尔® AI技术的NLP ...

  4. 上线数天获2400星,这个GitHub项目帮你从头开始学习数据科学

    从头开始学习数据科学的免费资源. >>>> 如何入门数据科学? 这个 GitHub 项目提供了一份免费学习资源,既包括超详细的学习路线图,又涵盖多个免费线上课程.大量数据科学项 ...

  5. 推荐!关于学习数据科学的10件事

    ↑↑↑关注后"星标"Datawhale 每日干货 & 每月组队学习,不错过 Datawhale干货 编译:张峰,Datawhale成员 我经常在我的YouTube频道Da ...

  6. ApacheCN 编程/大数据/数据科学/人工智能学习资源 2019.11

    公告 我们的所有非技术内容和活动,从现在开始会使用 iBooker 这个名字. "开源互助联盟"已终止,我们对此表示抱歉和遗憾.除非特地邀请,我们不再推广他人的任何项目. 公众号自 ...

  7. ApacheCN 编程/大数据/数据科学/人工智能学习资源 2019.8

    欢迎大家在我们平台上投放广告.如果你希望在我们的专栏.文档或邮件中投放广告,请准备好各种尺寸的图片和专属链接,联系咸鱼(QQ 1034616238). 我们组织了一个开源互助平台,方便开源组织和大 V ...

  8. 数据科学学习之探索性数据分析(EDA)

    前言 本文为笔者学习图灵系列程序设计丛书的<面向数据科学家的使用统计学>的一些感悟和总结,本文撰写主要参考了该书目,希望本文对接触,学习和研究数据科学的各位能有所帮助. 首先,第一篇介绍探 ...

  9. 对比《学习R》PDF代码+《R语言实战第2版》PDF代码+《R数据科学》PDF代码分析

    R语言是世界上最流行的用于数据处理和统计分析的脚本语言.考古学家用它来跟踪古代文明的传播,医药公司用它来探索哪种药物更安全.更有效,精算师用它评估金融风险以保证市场的平稳运行.总之,在大数据时代,统计 ...

最新文章

  1. 2018-3-25论文(Whale Optimizer Algorithm)+(Gery Wolf Optimizer)笔记三---算法部分的对比
  2. wordpress-基础插件,常用函数
  3. php中的var_dump()方法的详细说明
  4. mysql生活应用_MySQL应用
  5. 检测到目标url存在框架注入漏洞_HOST注入攻击剖析
  6. WEB消息提醒实现之一 背景
  7. 希尔排序不稳定例子_Python实现希尔排序(已编程实现)
  8. 解析全球热点安全事件背后的玄机
  9. Android一键反编译工具 jadx
  10. arduino python scratch_arduino怎么和scratch用
  11. zmq xsub/xpub 实现消息订阅(一)
  12. dell 如何给raid分区_如何在 UEFI 配置的系统中访问 RAID 控制器设置
  13. PDF 的命令行操作
  14. Linux系统文件加密与解密应用
  15. python人工智能的重要性_为什么说Python是AI时代必备技能?
  16. 【关于ChatGPT的30个问题】1、ChatGPT是什么?/ By 禅与计算机程序设计艺术
  17. python解析mht文件_php解析mht文件转换成html的实例详解
  18. [转贴]一个26岁IT男人写在辞职后
  19. 行测-图形推理-3-对称图形类
  20. Highcharts如何去掉水印

热门文章

  1. 手把手教你搭建 Git 服务器
  2. 机房收费系统总结【1】-整体流程
  3. 协方差矩阵有什么意义?
  4. LeetCode简单题之合并两个链表
  5. CodeGen结构循环回路
  6. TensorRT Analysis Report分析报告
  7. 构建可扩展的GPU加速应用程序(NVIDIA HPC)
  8. 多篇开源CVPR 2020 语义分割论文
  9. Android 设置透明的方法
  10. SimpleDateFormat 日期,时间格式转化