大数据分析首先要将杂乱排列的大数据进行处理,转换成简洁,高效,能让数据使用者一眼看懂的数据。所以就要将数据进行“抽取—转换—加载”(the Extract-Transform-Load,ETL),这就是所谓的数据处理三部曲。该环节需要将来源不同、类型不同的数据如关系数据、平面数据文件等抽取出来,然后进行清洁、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础

所以,对于大数据相关的工作来说,数据是基础;没有数据,一切都是浮云。没有数据,一切没有可能,没有数据,世界将会怎样……,世上只有数据好……,哈哈

这篇文档中给大家分享一下数据来源的类型:

1、文本类的数据:

1),txt:记事本,word文档等等,

2),csv:内容是以逗号和换行分割的文件。

如:

三国演义,罗贯中,50.1

水浒,施耐庵,50.2

红楼梦,曹雪芹,50.3

3),json格式(使用最多的格式):

如:

json对象

{

"id":"195192617231330820"

"name":"霸王音乐小闹钟夜灯床头钟创意学生儿童懒人钟表时尚卧室静音台钟"

"price":39.00,

"color":"white",

"state":"交易成功",

"business":"金霸王家居专卖店"

}

json对象数组

[

{

"id":"195192617231330820"

"name":"霸王音乐小闹钟夜灯床头钟创意学生儿童懒人钟表时尚卧室静音台钟"

"price":39.00,

"color":"white",

"state":"交易成功",

"business":"金霸王家居专营店"

},

{

"id":"191316354870330820"

"name":"奥妙洗衣液薰衣草香持久留香整箱包邮促销组合家庭"

"price":39.90,

"color":"white",

"state":"交易成功",

"business":"金信居家日用专营店"

}

]

4)、xml格式:

<books>

<book>

<id>01001</id>

<name>西游记</name>

<price>50.1</price>

</book>

<book>

<id>01002</id>

<name>西厢记</name>

<price>50.2</price>

</book>

<book>

<id>01003</id>

<name>鲁宾逊漂流记</name>

<price>35</price>

</book>

</books>

2、结构化

每条数据都有固定的格式,而且必须是固定的格式。结构化数据也称作行数据,是由二维表结构来逻辑表达和实现的数据,严格地遵循数据格式与长度规范,主要通过关系型数据库进行存储和管理,平时使用excel也是属于结构化数据:

如:

id

name

price

author

publish

1001

天龙八部

120

金庸

西安百越勤出版社

1002

平凡的世界

50

路遥

西安百越勤出版社

1003

狼图腾

39.8

姜戎

西安百越勤出版社

关于结构化的数据库,我们使用轻量,高效,移植方便的MySQL来给大家进行讲解。

结构化数据库也叫关系型数据库。数据库会利用约束来限制数据必须要遵守的结构,所以,结构化得以体现。(当然,您愿意用json来表示结构化的数据库,就需要人为去控制json中数据的结构(一般不会这么做,哈哈))

3、非结构化数据(把文本和结构化混合在一起)

不适于由数据库二维表来表现的非结构化数据,包括所有格式的办公文档、XML、HTML、各类报表、图片和咅频、视频信息等。当把文本和结构化的数据混在一起时,就相当于没有结构了。

关于非结构化的数据库,我们使用比较流行的MongoDB(FaceBook,谷歌都在用噢)来讲解

大数据_数据来源类型相关推荐

  1. 乐高ev3 读取外部数据_数据就是新乐高

    乐高ev3 读取外部数据 When I was a kid, I used to love playing with Lego. My brother and I built almost all k ...

  2. 大数据_数据中台建设的成熟度评估模型

    数据应用能力成熟度可以总结为统计分析.决策支持.数据驱动.运营优化四个结阶段.针对不同的阶段,从企业战略定位.企业数据形态.数据应用场景.数据应用工具.企业组织架构等多个方面.不同特征维度进行参考判定 ...

  3. 大数据_数据中台_数据汇聚联通

    目录 一.数据采集.汇聚的方法和工具 1.线上行为采集 2.线下行为采集 3.互联网数据采集 4.内部数据汇聚 二.数据交换产品 1.数据源管理 2.离线数据交换 3.实时数据交换 三.数据存储的选择 ...

  4. 无法从套接字中获取更多数据_数据科学中应引起更多关注的一个组成部分

    无法从套接字中获取更多数据 介绍 (Introduction) Data science, machine learning, artificial intelligence, those terms ...

  5. uni-app清理缓存数据_数据清理-从哪里开始?

    uni-app清理缓存数据 It turns out that Data Scientists and Data Analysts will spend most of their time on d ...

  6. resultset遍历取数据_数据放在哪?如何从数据库取数据?

    前言 数据放在数据库内(如:mysql) 如何获取数据,可用JDBC 1. 为什么要了解mysql数据库? 因为实际的生活中,网页里面的内容都不是静止的,会根据你的操作和交互,数据会发生变化 有数据变 ...

  7. 如何根据分页的当前页数查询数据_数据量很大的情况下,如何分页查询优化方案?...

    当需要从数据库查询的表有上万条记录的时候,一次性查询所有结果会变得很慢,特别是随着数据量的增加特别明显,这时需要使用分页查询.对于数据库分页查询,也有很多种方法和优化的点.下面简单说一下我知道的一些方 ...

  8. 杨超越微数据_资料来源同意:数据科学技能超越数据

    杨超越微数据 As data science enthusiasts know, there's a lot more to excelling in the field than just its ...

  9. 因果关系和相关关系 大数据_数据科学中的相关性与因果关系

    因果关系和相关关系 大数据 Let's jump into it right away. 让我们马上进入. 相关性 (Correlation) Correlation means relationsh ...

最新文章

  1. css html应用实例1:滑动门技术的简单实现
  2. 创业公司,没有好领导,有多少人才都是死路一条
  3. 建立分析模型和设计模型
  4. bzoj 3437: 小P的牧场(斜率DP)
  5. 在线js调试工具JSbin、jsFiddle
  6. 如何读取二进制图片-.ashx一般处理程序
  7. 博客营销为何这么神奇而不被淘汰的
  8. 格式化日期时间字符串 Get-Date -Uformat , -format
  9. 如何提高c语言编程能力,如何快速提高自己的编程能力
  10. VFP绘制Excel像素画。GetPixel 函数
  11. VUE微信H5生成二维码海报保存在本地相册
  12. STM32F103/107 移植Freemodbus RTU
  13. 大数据和区块链技术是什么关系?
  14. 从零到完成安卓项目实战【安卓端+后端】
  15. win7开机启动项设置_Win7电脑如何提高开机速度?
  16. 中国RoHS认证流程问题
  17. 管窥广电总局的TVOS,又一个Android定制版?
  18. IBM放弃SoftLayer品牌 将其归入Bluemix之中
  19. 从50亿图文中提取中文跨模态新基准Zero,奇虎360全新预训练框架超越多项SOTA
  20. C# 开发DirectX.DirectSound录音在Win10兼容解决方法

热门文章

  1. Nexus默认账号密码
  2. 云计算、物联网、大数据到底是什么?
  3. 高等数学笔记:定积分相关公式
  4. 项目总结 :木门app(2015.4.10 —— 2015.5.8)
  5. Linux下四款Web服务器压力测试工具…
  6. 手把手教程 | 使用 NICE DCV 在 G4 实例上运行 Android 应用程序
  7. r语言变量长度不一致怎么办_R语言实现数据离散化方法总结
  8. 【龙讯module小课堂】浅谈对gap的认识:PWmat中修正gap的module
  9. 使用python实现对图片的高斯模糊
  10. Unity3D《打地鼠》学习笔记及心得