数据分析是将原始数据进行排序和组织的过程,是用来帮助解释过去和预测未来的一系列方法。

数据分析不是只针对数字进行分析,而是关于:

  • 如何设定/提出问题
  • 演化解释
  • 验证假设

数据的本质

现实世界所有场景都包含数据,数据分为:

  • 结构化/非结构化
  • 连续/离散

有不同的分类方法,从更普遍的意义上来看,数据分为:

  • 分类型
  • 数值型

其中,分类型中又分为:

  • 定类:如住房类型
  • 定序:如年龄

数值型分为:

  • 离散
  • 连续

数据分析的步骤

  • 问题陈述
  • 数据准备
    • 获取数据
    • 清洗数据
    • 数据标准化
    • 数据转化
  • 数据探索
    • 探索性统计
    • 探索性可视化
  • 预测建模
  • 模型验证
  • 成果可视化与解读
  • 方案部署

数据分析问题的种类

  • 推理性问题
  • 预测性问题
  • 描述性问题
  • 探索性问题
  • 因果问题
  • 相关性问题

数据准备

这个过程一般要消耗大量时间,那么为了指引我们去处理数据,我们需要首先明确一下好的数据具备哪些特征:

  • 完整性
  • 一致性
  • 无歧义
  • 可计量
  • 正确性
  • 标准化
  • 无冗余

数据探索

使用图形,统计数据等形式来考察数据,探索的目的是发现数据中存在的模式,关联,或者关系。在这一步骤,使用数据可视化技术非常关键,它能帮助我们对数据有一个全局的认识,且能从中找到有意义的模式。

预测建模

建立模型,训练模型。并对模型的表现进行验证。

END.

参考:

《Practical Data Analysis》

【数据科学】什么是数据分析相关推荐

  1. ML之DataScience:基于机器学习处理数据科学(DataScience)任务(数据分析、特征工程、科学预测等)的简介、流程、案例应用执行详细攻略

    ML之DataScience:基于机器学习处理数据科学(DataScience)任务(数据分析.特征工程.科学预测等)的简介.流程.案例应用执行详细攻略 目录 数据科学的任务(数据分析.特征工程.科学 ...

  2. 《数据科学与大数据分析——数据的发现 分析 可视化与表示》一2.3 第2阶段:数据准备...

    本节书摘来自异步社区<数据科学与大数据分析--数据的发现 分析 可视化与表示>一书中的第2章,第2.3节,作者[美]EMC Education Services(EMC教育服务团队),更多 ...

  3. python数据科学-单变量数据分析

    总第85篇 01|背景: 我们在做机器学习之前,需要自己先对数据进行深入的了解(这些数据是什么类型,总共有多少数据,有没有缺失值,均值是多少之类的),只有自己对数据足够了解了,才能够更好地利用机器学习 ...

  4. 数据分析 数据科学_数据科学中的数据分析

    数据分析 数据科学 资料剖析 (Data Profiling) Data Profiling is a method of examining data from an existing supply ...

  5. 【数据科学】探索性数据分析

    通常表现为:画一些直方图等,来看看数据的分布. 看起来探索性数据分析只是很小的一部分,其实它的地位很重要,是数据可科学中的重要一环. 这个像太祖长拳,用在不同的人手里,会有不同的效果.换句话说,随着你 ...

  6. 数据科学与大数据分析之项目3-关联规则

    关联规则 项目介绍 项目开始 项目介绍 不同年级.性别和入学人数的学生参加了一项测试.为每个学生记录测试结果"成功"或"不成功",并保存在"A1_su ...

  7. 数据科学与大数据分析之项目4-主题建模

    Topic Modeling 项目介绍 项目开始 Reference 项目介绍 使用python在Reuters-21578语料库上进行LDA主题建模. The NLTK in Python come ...

  8. 数据科学与大数据分析之项目6-CNN模型图像分类

    用预先训练好的CNN模型进行图像分类 项目介绍 项目开始 项目介绍 本项目使用Caltech256来作为训练和测试集. 解压缩该文件,您将看到257个文件夹.每个文件夹对应一个类.使用预先训练的Inc ...

  9. 数据科学与大数据分析之项目5-情感分析

    情感分析Sentiment Analysis 项目介绍 项目开始 项目介绍 在Twitter上选择一个你感兴趣的话题,比如一部电影,一个名人,或者任何流行语.收集至少200条与此主题相关的tweet. ...

  10. 数据科学与大数据分析项目练习-3将Apriori算法应用于R中提供的“Groceries”数据集

    R语言Apriori算法 项目要求: Project Start **规则生成和可视化** 我们需要安装arules and arulesViz包. 项目要求: 生成频繁项目集满足下面条件: – Th ...

最新文章

  1. 我们准备在网关中支持GrahpQL了
  2. Automation Test in Maya Plugin Development
  3. win8计算机安全模式,Win8.1怎么进入安全模式 两种进入Win8.1安全模式方法介绍
  4. php网站跨站脚本监测,基于PHP的在线跨站脚本检测工具.pdf
  5. 数据结构-线性表之带头结点的双向循环链表
  6. C#LeetCode刷题-图
  7. dhh basecamp_使Basecamp的薪酬透明化保留了人才
  8. 如何用 5 天攻克产品困境?Sprint 硅谷创新冲刺告诉你!
  9. 《Java项目开发案例整合》
  10. 【数据分享】1997-2016年全国大部分地级市气温降水数据
  11. IOMeter安装以及测试
  12. 关于网络编程中recv函数在什么情况下会返回的一点心得。
  13. LED点阵屏中“鬼影”现象的分析与解决
  14. 科大讯飞麦克风阵列AIUI开放平台基本操作初级
  15. threejs中几种挖洞方式
  16. 怎样把PDF翻译成中文
  17. 华为服务器修改硬盘显示顺序,服务器硬盘顺序
  18. java8新特性回顾(四)---并发增强之Striped64和longAdder
  19. MYSQL JDBC快速查询响应的方法,快速返回机制的实现
  20. 学习大数据:Java基础篇之反射

热门文章

  1. 3.3 keras模型构建的三种方式
  2. vc对图像进行平移,转置等几何变换
  3. python拦截tcp数据包_发送低级原始tcp数据包python
  4. 720环物全景制作_拍摄360全景照片多少钱?全景图片用什么软件看?
  5. python predict_对Keras中predict()方法和predict_classes()方法的区别说明
  6. diff git 指定时间_【GIT】从指定分支两个Tag中获取差异文件,进行代码的增量更新...
  7. anaconda和python有什么不一样_看着一样的胶带,价格为什么不一样?
  8. oracle jde 实施,OracleJDE系统EDI数据接口的实施.doc
  9. 5 thinkpad 黑将评测_ThinkPad L380视频评测:全能型商务助手
  10. java核心教程_核心Java教程