数据分析-数据来源、字段类型、数据采集陷阱
数据分析伴随着大数据的发展而兴起,在日常的生活中扮演着越来越重要的作用,今天从“数据的来源、数据类型、数据采集陷阱”开始逐步介绍数据分析方面的知识,其中有些许谬误,还请及时指点。
1.1 数据来源介绍
数据来源主要分为两大类,企业外部来源和内部来源:
外部来源: 外包购买、网路爬取、免费开源数据等;
内部来源: 销售数据、社交通信数据、考勤数据、财务数据、服务器日志数据等;
1.2 数据字段类型
数据字段可以分为四类:
定类数据: 按事物某种属性分类或分组,数字大小代表类别。比如性别(男和女)
定序数据: 数据的中间级,用数字表示个体在某个有序状态中所处的位置,不能做四则运算。比如您对天猫的满意情况如何?(非常不满意、比较不满意、中立、比较满意、非常满意);
定距数据: 表现为数值,有单位,没有绝对零点,可以做加减运算,不能做乘除运算。比如,温度。
定比数据: 是由定比尺度计量形成的,表现为数值,可以进行加、减、乘、除运算。没有负数。
定比尺度,也可以称为比例尺度,它与定距尺度属于同一层次,它与定距尺度的区别在于是否有绝对零点。在定距尺度中,“0”表示某一个数值,而定比尺度中,“0”表示“没有”或“无”。例如,温度是典型的定距尺度,因为在摄氏温度中,0℃表示在海平面高度上水结冰的温度;但对于销售人员来说,“0”表示没有成交量,所以销量属于定比尺度。在实际生活中,“0”在大多数情况下均表示事物不存在,如长度、高度、利润、薪酬、产值等,所以在实际统计中,使用的多为比例尺度,即定比尺度。 由于在定距尺度中,“0”表示特定含义,因此有些书上把定距尺度看做是定比尺度的特殊形式,两者不加区别。
1.3 数据采集陷阱
数据的采集陷阱主要表现为三方面,分别为:
误差: 误差是指计算或测量中的采集值与实际值之间的差距。仪器产生的误差,软件故障使得数据断流造成的误差,通过人力采集数据这些都会造成误差。误差对数据质量的影响可以不用考虑。
偏差: 偏差在这里指特定分析值与平均值之间的差距。偏差对样本数据质量的影响是不得不考虑的。常见的由偏差引起的逻辑错误被称为“幸存者偏差”,人们所见到的只是他们见到的,不一定能代表群体和“人类”,同时也提醒数据工作者,在采集数据时,一定要留意样本中是否存在偏差。保证数据尽可能随机,可以有效减少样本偏差。同时可以采用查看主要特征的分布情况,以查看偏差的情况。
独立性: 衡量样本间相关关系的度量,好的采集数据应该让样本与样本间尽可能地相互独立。
数据分析-数据来源、字段类型、数据采集陷阱相关推荐
- 大数据分析数据来源的有哪些类型
在数据量巨大的今天,如何以更高的效率获取分析所需的数据,以及如何利用这些数据反映最真实的情况,是业界不断讨论的话题.接下来,就带大家来了解下大数据分析及其数据来源. 大数据分析:顾名思义,就是对规模巨 ...
- 04_机器学习概述,什么是机器学习,应用场景,数据来源与类型,网上可用的数据集、常用数据集数据的结构组成、特征工程是什么、意义、特征抽取、sklearn特征抽取API、文本特征抽取(学习笔记)
机器学习概述 人工智能.机器学习.深度学习之间的关系 机器学习框架 Pytorch Caffe2 theano Chainer Scikit-learn 语言支持 机器学习书籍 <面向机器智能 ...
- 更改数据库表中有数据的字段类型NUMERIC(18,2)为NUMERIC(18,6)
前段时间遇到一个问题,需要更改一个表的带有数据的字段类型,需要将NUMERIC(18,2)为NUMERIC(18,6) [1]oracel的写法为: --第一步:把原字段换个名字 alter tabl ...
- 共享单车骑行数据分析数据来源
背景介绍 随着我国的经济迅速发展,城市人口急剧增加,随之带来的是一系列的问题,交通拥堵,环境受到破坏,发展公共交通可以完美的解决现在我们面临的这些问题,自行车具有机动灵活.低碳环保的优点,如果自行车可 ...
- Oracle表中已有数据修改字段类型
Oracle的表中已存在了数据,这时再来修改表的字段类型就无法修改.例如, number类型改成number(22),这时数据库会报ORA-01440: column to be modified m ...
- Oracle 表已经有数据 修改字段类型,把varchar2类型变成date类型
Oracle修改字段类型,把varchar2类型变成date类型 表已经有数据 原来表是这样的 create table export ( name varchar2(10), datetimes v ...
- 大数据_数据来源类型
大数据分析首先要将杂乱排列的大数据进行处理,转换成简洁,高效,能让数据使用者一眼看懂的数据.所以就要将数据进行"抽取-转换-加载"(the Extract-Transform-Lo ...
- 知识备忘phpcms 简单解析一 数据表字段
PHPCMS V9帮助中心 数据结构 phpcms v9 数据... phpcms v9 数据... PHPSSO 数据库结... phpcms v9 数据表结构 在线版 PHPCMS V9 数据结构 ...
- 最全 SQL 字段类型(4种)、属性(6种)总结
文章目录 字段类型 整数类型 小数类型(2种) 字符串类型(5种) 时间日期类型(5种) 属性 NULL属性 Default属性 主键 自增长属性 唯一键 comment属性 数据库记录长度 字段类型 ...
最新文章
- Bootstrap栅格布局系统的特点
- 学python用什么系统好-初次接触python,怎么样系统的自学呢?
- AI加持的竖屏沉浸播放新体验
- java继承原理内存角度_Java基础知识巩固
- 工作54:对ref的理解
- 前端学习(159):meta
- Java并发编程实战~ThreadLocal
- OpenJudge NOI 1.5 02:财务管理
- [130_存储业务]001_富士通存储系统Eternus_高级拷贝(Advanced Copy)特性介绍
- 2120: 数颜色(带修莫队)
- 苹果:失了 5G 会何妨?
- 简单自制拖拽布局思路vue-Cil
- tp5组装数据_tp5数据库查询和模型结合使用
- 【总结】树状数组讲解+例题
- 自己不能跑的车凭什么叫自行车?B站硬核up主把自行车做成了自动驾驶
- mavonEditor编辑器的使用
- 程序员画像,十年沉浮 | 必读
- 从《长安十二时辰》看车联网
- 哈勃望远镜研究员测试区块链的空间数据处理
- 第26讲:多表查询之自连接