数据分析伴随着大数据的发展而兴起,在日常的生活中扮演着越来越重要的作用,今天从“数据的来源、数据类型、数据采集陷阱”开始逐步介绍数据分析方面的知识,其中有些许谬误,还请及时指点。

1.1 数据来源介绍

数据来源主要分为两大类,企业外部来源和内部来源:
外部来源: 外包购买、网路爬取、免费开源数据等;
内部来源: 销售数据、社交通信数据、考勤数据、财务数据、服务器日志数据等;

1.2 数据字段类型

数据字段可以分为四类:

定类数据: 按事物某种属性分类或分组,数字大小代表类别。比如性别(男和女)
定序数据: 数据的中间级,用数字表示个体在某个有序状态中所处的位置,不能做四则运算。比如您对天猫的满意情况如何?(非常不满意、比较不满意、中立、比较满意、非常满意);
定距数据: 表现为数值,有单位,没有绝对零点,可以做加减运算,不能做乘除运算。比如,温度。
定比数据: 是由定比尺度计量形成的,表现为数值,可以进行加、减、乘、除运算。没有负数。

定比尺度,也可以称为比例尺度,它与定距尺度属于同一层次,它与定距尺度的区别在于是否有绝对零点。在定距尺度中,“0”表示某一个数值,而定比尺度中,“0”表示“没有”或“无”。例如,温度是典型的定距尺度,因为在摄氏温度中,0℃表示在海平面高度上水结冰的温度;但对于销售人员来说,“0”表示没有成交量,所以销量属于定比尺度。在实际生活中,“0”在大多数情况下均表示事物不存在,如长度、高度、利润、薪酬、产值等,所以在实际统计中,使用的多为比例尺度,即定比尺度。 由于在定距尺度中,“0”表示特定含义,因此有些书上把定距尺度看做是定比尺度的特殊形式,两者不加区别。

1.3 数据采集陷阱

数据的采集陷阱主要表现为三方面,分别为:

误差: 误差是指计算或测量中的采集值与实际值之间的差距。仪器产生的误差,软件故障使得数据断流造成的误差,通过人力采集数据这些都会造成误差。误差对数据质量的影响可以不用考虑。

偏差: 偏差在这里指特定分析值与平均值之间的差距。偏差对样本数据质量的影响是不得不考虑的。常见的由偏差引起的逻辑错误被称为“幸存者偏差”,人们所见到的只是他们见到的,不一定能代表群体和“人类”,同时也提醒数据工作者,在采集数据时,一定要留意样本中是否存在偏差。保证数据尽可能随机,可以有效减少样本偏差。同时可以采用查看主要特征的分布情况,以查看偏差的情况。

独立性: 衡量样本间相关关系的度量,好的采集数据应该让样本与样本间尽可能地相互独立。

数据分析-数据来源、字段类型、数据采集陷阱相关推荐

  1. 大数据分析数据来源的有哪些类型

    在数据量巨大的今天,如何以更高的效率获取分析所需的数据,以及如何利用这些数据反映最真实的情况,是业界不断讨论的话题.接下来,就带大家来了解下大数据分析及其数据来源. 大数据分析:顾名思义,就是对规模巨 ...

  2. 04_机器学习概述,什么是机器学习,应用场景,数据来源与类型,网上可用的数据集、常用数据集数据的结构组成、特征工程是什么、意义、特征抽取、sklearn特征抽取API、文本特征抽取(学习笔记)

    机器学习概述 人工智能.机器学习.深度学习之间的关系 机器学习框架 Pytorch Caffe2 theano Chainer Scikit-learn 语言支持 机器学习书籍 <面向机器智能 ...

  3. 更改数据库表中有数据的字段类型NUMERIC(18,2)为NUMERIC(18,6)

    前段时间遇到一个问题,需要更改一个表的带有数据的字段类型,需要将NUMERIC(18,2)为NUMERIC(18,6) [1]oracel的写法为: --第一步:把原字段换个名字 alter tabl ...

  4. 共享单车骑行数据分析数据来源

    背景介绍 随着我国的经济迅速发展,城市人口急剧增加,随之带来的是一系列的问题,交通拥堵,环境受到破坏,发展公共交通可以完美的解决现在我们面临的这些问题,自行车具有机动灵活.低碳环保的优点,如果自行车可 ...

  5. Oracle表中已有数据修改字段类型

    Oracle的表中已存在了数据,这时再来修改表的字段类型就无法修改.例如, number类型改成number(22),这时数据库会报ORA-01440: column to be modified m ...

  6. Oracle 表已经有数据 修改字段类型,把varchar2类型变成date类型

    Oracle修改字段类型,把varchar2类型变成date类型 表已经有数据 原来表是这样的 create table export ( name varchar2(10), datetimes v ...

  7. 大数据_数据来源类型

    大数据分析首先要将杂乱排列的大数据进行处理,转换成简洁,高效,能让数据使用者一眼看懂的数据.所以就要将数据进行"抽取-转换-加载"(the Extract-Transform-Lo ...

  8. 知识备忘phpcms 简单解析一 数据表字段

    PHPCMS V9帮助中心 数据结构 phpcms v9 数据... phpcms v9 数据... PHPSSO 数据库结... phpcms v9 数据表结构 在线版 PHPCMS V9 数据结构 ...

  9. 最全 SQL 字段类型(4种)、属性(6种)总结

    文章目录 字段类型 整数类型 小数类型(2种) 字符串类型(5种) 时间日期类型(5种) 属性 NULL属性 Default属性 主键 自增长属性 唯一键 comment属性 数据库记录长度 字段类型 ...

最新文章

  1. Bootstrap栅格布局系统的特点
  2. 学python用什么系统好-初次接触python,怎么样系统的自学呢?
  3. AI加持的竖屏沉浸播放新体验
  4. java继承原理内存角度_Java基础知识巩固
  5. 工作54:对ref的理解
  6. 前端学习(159):meta
  7. Java并发编程实战~ThreadLocal
  8. OpenJudge NOI 1.5 02:财务管理
  9. [130_存储业务]001_富士通存储系统Eternus_高级拷贝(Advanced Copy)特性介绍
  10. 2120: 数颜色(带修莫队)
  11. 苹果:失了 5G 会何妨?
  12. 简单自制拖拽布局思路vue-Cil
  13. tp5组装数据_tp5数据库查询和模型结合使用
  14. 【总结】树状数组讲解+例题
  15. 自己不能跑的车凭什么叫自行车?B站硬核up主把自行车做成了自动驾驶
  16. mavonEditor编辑器的使用
  17. 程序员画像,十年沉浮 | 必读
  18. 从《长安十二时辰》看车联网
  19. 哈勃望远镜研究员测试区块链的空间数据处理
  20. 第26讲:多表查询之自连接

热门文章

  1. linux的xshell怎么保存密码,Xshell保存账号密码方法
  2. Python3,5行代码让电脑永不息屏。
  3. Windows平台下 C++注册表项重命名实现
  4. Sklearn常用数据预处理方法介绍
  5. Mac OS X:单用户模式(Single User Mode)的操作和安全漏洞
  6. Android中的封装流式布局FlowLayout
  7. 【优化算法】灰狼优化算法(GWO)【含Matlab源码 1305期】
  8. 开源公告|更可信的人脸识别,腾讯优图TFace正式开源!
  9. 短视频直播系统的功能
  10. js等待加载转圈圈效果