什么是数据分析?

顾名思义,数据分析就是对数据进行分析。
可是,数据分析的真正定义是什么呢?
数据分析是指利用适当的统计分析方法对收集来的大量数据进行分析,将他们加以汇总消化并理解,以最大化地开发数据功能,发挥数据的作用。

数据分析有哪几类?

数据分析可分为:
* 描述性数据分析
* 探索性数据分析
* 验证性数据分析
下面简单介绍一下,描述性数据分析属于初级数据分析,常用的数据分析方法有对比分析、平均分析、交叉分析等。
探索性数据分析侧重于在数据发现未知的新的特征;验证性分析侧重于验证已有假设的真伪证明。
后两者属于高级数据分析,常用的分析方法有相关性分析、因子分析、回归分析等。

数据分析有什么作用?

* 现状分析
* 原因分析
* 预测分析

数据分析六部曲

* 明确分析目的和思路
* 数据收集
* 数据处理
* 数据分析
* 数据展现
* 报告撰写

明确数据分析目的以及确定分析思路,是确保数据分析过程有效进行的先决条件,可以为数据收集、处理以及分析提供清晰的指引方向。
在明确数据分析目的后,就要梳理分析思路,搭建分析框架,并把分析目的分解成若干个不同的分析要点,及如何开展数据分析,需要从那几个角度进行分析,采用哪些分析指标。其中框架确定后还需要确保框架的体系化,体系化即整体分析思路框架的逻辑性。

数据挖掘与数据分析的关系

两者的本质其实是一致的,都是从大量的数据中发现规律,实现自己的目的。
简单来说,数据挖掘是数据分析的进阶。数据分析只是用到统计分析方法,而数据挖掘不仅用到数据分析阶段的数学知识,还需要用到计算机语言进行编程对数据进行处理。
一般来说,数据挖掘侧重于解决四种数据分析问题:分类、聚类、关联和预测

字段、记录、数据类型

字段是事物或现象的某种特征。简单来说,就是数据库中的列,一列为一个字段,对应着spss(统计学)中的变量。
记录是事物或现象的具体表现。简单来说,就是数据库中的一行,一行为一条记录,对应着spss(统计学)中的个案。
数据类型分为数值、文本、日期、货币、时间、分析、百分比等。
总的可以分为字符型、数值型、日期型等大类。日期型属于特殊的数值型数据。

变量尺度

在统计学中,按照对事物描述的精确程度,将采用的测量尺度从地低到高分为四个层次:定类尺度、定序尺度、定距尺度和定比尺度。

定类尺度

是对事物类别或属性的一种测度,如性别、职业。
特点:只能代表事物的类别与属性,不能比较各类别的大小。
SPSS中用“名义”来表示。
分类原则:相互独立、完全穷尽

定序尺度

对事物之间等级或顺序的一种测量,如学历、职级。
特点:只能排序,不能算数计算。
SPSS中用“有序”表示。

定距尺度

对事物次序之间间距的一种测度,如温度、时间
特点:只能加减,不能乘除,可排序,能计算次序之间差距

定比尺度

测算两个测量值之间比值的一种测度。
特点:可加减乘除,如收入、用户量等
定比尺度与定距尺度最大的区别是它有一固定的绝对“0”值。两者在绝大多数统计分析中没有本质的区别,SPSS将他们合并为一类为“标度”。

数据类型与变量尺度

数据类型是数据库用语,变量尺度是统计学用语。
两者的关系可以用下表来表示。

工作簿与工作表

在Excel中,一个sheet为一个工作表,一个Excel为一个工作簿,工作簿中可以有多个工作表。

数据处理

数据处理分为数据清洗数据加工

数据清洗

(spss中【数据】菜单栏)
数据清洗,顾名思义就是把数据洗干净,处理成自己想要的数据。
数据清洗包括:
* 删除重复数据
* 补充缺失数据
* 改正错误数据(包括内容错误和逻辑错误)
删除重复数据:【数据】-【标识重复个案】

数据加工

(spss中【转换】菜单栏)
经过数据清洗过的数据也不一定是我们想要的数据。还需要对数据进行信息提取、计算、分组、转换等,将其变成我们想要的数据表。

数据抽取

字段拆分:【转换】-【计算变量】-函数组-Substr(3),类似于excel中mid函数
随机抽样:【数据】-【选择个案】-【随机个案样本】

数据合并

字段合并:【转换】-【计算变量】-【函数组】-Concat函数
记录合并:【数据】-【合并文件】-【添加个例】

数据分组

可视化分箱:【转换】-【可视化分箱】
重新编码:【转换】-【重新编码为不同变量】

数据标准化

0-1标准化(离差标准化)、Z标准化(标准差标准化)

《谁说菜鸟不会数据分析》之数据分析相关推荐

  1. 谁学菜鸟不会数据分析之一——数据分析概念及作用

    数据分析概念作用 收拾心情开始我的数据分析学习之路,希望自己能够坚持下去,尽量抽取时间学习吧,还要尽量的研究数据挖掘的算吧,至于算法的实现还是在选择具体的软件呢,还不知道用什么软件来实现呢,现在所做的 ...

  2. 数据分析_SQL数据分析--旅游数据分析可视化实操

    SQL数据分析--旅游数据分析可视化实操.根据现有数据分析,具体操作情况如下: ①用户个人信息,数据共有4列,userid:用户ID: gender性别:province省份:age年龄段 测试集,1 ...

  3. 数据分析-1.数据分析介绍

    数据分析介绍 什么是数据分析: 数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,提取有用信息和形成结论而对数据加以详细研究和概括总结的过程.数据分析的目的有多种,概括起来有三种:现状分析. ...

  4. 数据分析大数据分析如何应用于电商行业?

    这几年想做电商和进入电商行业的人越来越多了,不管是自己开的淘宝店还是微店,你会发现自己朋友圈里面,总会有那么几个已经在做电商的.电商这么火,那对于做电商而言什么是最重要的呢?答案毫无疑问是数据·大数据 ...

  5. 视频教程-实用数据分析:数据分析师从小白到精通-大数据

    实用数据分析:数据分析师从小白到精通 多年数据分析.数据产品设计经验.先后供职于世界500强汽车.互联网企业,从0到1的负责大数据平台设计,数据决策平台设计和数据风控平台设计.在数据的分析和使用上经验 ...

  6. 如何做数据分析,数据分析流程是什么?

    前言 如何做数据分析,数据分析流程是什么?数据分析是基于商业目的,有目的地进行收集.整理.加工和分析数据,提炼出有价值的信息的一个过程.整个过程大致可分为五个阶段,具体如下图所示. 关于图中流程的相关 ...

  7. 大数据分析与数据分析的根本区别在哪里

    大数据分析与数据分析这几年一直都是个高频词,很多人都开始纷纷转行到这个领域,也有不少人开始跃跃欲试,想找准时机进到大数据或数据分析领域.如今大数据分析和数据分析火爆,要说时机,可谓处处都是时机,关键要 ...

  8. 2021最新spass数据分析教程 论文spass数据分析教程 数据分析怎么做spass教程

    在问卷调研中,SPSS分析被应用于统计分析的过程,能使研究者以客观的态度,通过对受众的系统提问,收集并分析有关研究数据,以描述.解释或预测问卷调查内容的现象及其各相关因素之间的关系. 2021最新sp ...

  9. 大数据分析与数据分析的根本区别在哪里?

    作者:CDA数据分析师 大数据分析与数据分析这几年一直都是个高频词,很多人都开始纷纷转行到这个领域,也有不少人开始跃跃欲试,想找准时机进到大数据或数据分析领域.如今大数据分析和数据分析火爆,要说时机, ...

  10. 【数据分析】数据分析方法(三):PEST 分析方法

    [数据分析]数据分析方法(三):PEST 分析方法 1. PEST 方法 PEST 分析方法是对公司发展宏观环境的分析,所以经常用于行业分析.通常是从 政策.经济.社会.技术 这四个方面来分析的. ( ...

最新文章

  1. 关于Session的使用和优化
  2. pandas 入门(2)
  3. Netty 4.0 新的特性及需要注意的地方
  4. linux nfs命令,linux命令:NFS服务
  5. js字符串拼接中关于单引号和双引号的那些事
  6. MFC的UDP编程实现
  7. 计算机与工程建设项目结合,计算机科学与技术在工程建设项目管理中应用.doc...
  8. php抽奖设置数量,php实现自定义中奖项数和概率的抽奖函数示例
  9. 使用Profile创建第一个Grails+Angular2应用
  10. 剑指Offer_42_和为S的两个数字
  11. 四川大学计算机学院 学术委员会,学术委员会完整列表
  12. 文档管理专家Aspose 2017年首季更新大合集
  13. 多尺度卷积稀疏编码的无监督迁移学习
  14. ~0 为什么等于 -1 ,在C语言中?
  15. 小擦呀,这省市三级联动的数据不太准确,找份最新的吧
  16. 日本经济泡沫与房价泡沫
  17. Windows利用系统自带的Dism命令挂载wim文件
  18. Failed to start LSB: Enable AMQP service provided by RabbitMQ broker.
  19. Sql server找不到启动图标
  20. Ubuntu无显示器远桌面程连接分辨率低图标大问题解决方法

热门文章

  1. XMOS软件开发入门(3) - xc语言(1)之hello world
  2. 【numpy_financial金融函数-复现复利威力】
  3. 【win 10】Chrome 添加YouTube™ 双字幕插件
  4. 盛大出手机输入法 亮点不多需改进点多多
  5. STM32 电机教程 9 - BLDC电机基础
  6. 办公自动化网络全配置
  7. 【渝粤题库】国家开放大学2021春2228物业信息管理题目
  8. php时间戳,PHP时间戳的实例讲解
  9. 概率论与数理统计笔记第一天
  10. 16进制字符串生成CRC-16/CCITT-FALSE校验码