一、大数据感知与获取概述

1. 认识数据

  1. 数据
    定性或者定量的方式来描述事物的符号记录。
  2. 数据的分类:
    模拟数据:连续的值,比如声音
    数字数据:离散的值,比如成绩

2. 数据密集型社会的到来

  1. 数据来源多样化
    结构化、非结构化(eg.日志、xml文档)和半结构化

3. 实现数据价值

  1. 大数据生命周期
    收集、存储、分析、治理和维护
    其中,70%~80% 工作量为收集和准备数据;20%~30%的为数据分析
  2. 大数据处理流程

二、数据渠道

1. 数据来源的分布

组织内部数据:自营系统(平台)、历史遗留数据(没有引入数据库时的业务数据)
组织外部数据:物联网数据、政府数据、互联网/移动互联网数据(主要)

三、内部数据及获取方法

1. ETL (Extract 抽取、Transfrom 转换、Load 加载)

  1. ETL 工作图

2. 数据抽取分类

  1. 全量抽取
    对整个DB的所有数据进行抽取,然后转换成ETL工具可以识别的格式。
    优:抽取过程直观简单,但是很少用到。
    缺:数据实时增加,全量抽取产生大量冗余数据,同时降低了抽取效率。

  2. 增量抽取
    只抽取自上次抽取以来DB中新增或修改的数据。

注意:抽取的过程中不能对现有业务系统造成太大的压力。

3. 捕获增量数据的方法

  1. 日志对比
    定义:通过 DB自身日志 判断变化的数据。
    eg. Oracle CDC(利用CDC在对源表进行插入、更新或删除等操作的同时就可以提取数据,并且变化的数据保存在DB的变化表中)

  2. 时间戳
    定义:增加一个时间戳字段,在更新、修改表数据的同时修改时间戳字段的值。
    抽取策略:当进行数据抽取时,通过比对系统时间与时间戳字段的值来决定抽取哪些数据。
    优:时间戳方式性能好,数据抽取相对简单。
    缺:① 对业务系统倾入性 (额外增加了时间戳字段)
    ② 无法捕获时间戳以前数据的删除和更新操作,在数据准确性上受到一定的限制

  3. 触发器
    定义:在数据表上建立触发器(例如可以建立插入、修改触发器),每当源表数据变化,通过相应触发器将变化的数据写入临时表。
    优:数据抽取性能较好
    缺:对业务建立触发器,对业务系统有影响

  4. 全表对比
    定义:采用 MD5校验码,事先为要抽取的表建立一个结构类似的MD5临时表,该临时表记录原表主键以及根据所有字段的数据计算出来的MD5校验码
    抽取策略:每次进行数据抽取时,对源表和MD5临时表进行MD5校验码的对比,从而决定原表中的数据是新增、修改还是删除,同时更新MD5校验码。
    缺:① 被动进行全表数据对比
    ② 当表中没有主键且含有重复记录时,MD5方式的准确性较差(对没有主键的表不是很适用)。

4. 数据抽取-其他数据源

  1. ETL抽取的数据源除了关系型数据库以外,还可以是文件
    对文件的抽取一般是进行全量抽取,每次抽取前保存文件的时间戳或计算文件的MD5校验码,下次抽取时对比,如果相同,则忽略本次抽取。

5. 数据转换与加工

  1. 数据转换
    目的:对抽取出来的数据加工、整理
    应用场景举例:
    ① 抽取的不同数据库中的姓名字段的姓和名的顺序可能不同,需要统一顺序
    ② 计量单位的问题:全球化公司对各国货币表示的销售额进行汇总(由于货币单位不同,需要转换单位)
    ETL引擎中的转换组件:
    字段映射、数据过滤、数据清洗、数据替换、数据计算、数据验证、数据加解密、数据合并、数据拆分

  2. 数据加载
    目的:将数据装载到数据仓库
    方法:
    ① 直接用SQL语句进行数据的插入、更新和删除操作
    ② 采用批量装载的方法,如bcp、Bulk、关系DB特有的批量装载工具或者API

6. 常用 ETL 工具

四、外部数据及获取方法

1. 网络大数据与网络爬虫

  1. 网络大数据特性
    多源异构、时效性(较强)、社会性(实体之间的关系构成了社会性)、交互性、突发性、高噪声(消息真伪)

  2. 网络爬虫
    网络爬虫是一种自动化浏览网络的程序或者说是网络机器人

  3. 网络爬虫抓取流程
    开始于一张被称为种子的统一资源地址列表,将其作为抓取的链接入口。当爬虫访问这些网页时,识别出页面上所有所需的网页链接,并将其加入到待爬队列中,此后从待爬队列中取出网页链接按照一套策略循环访问,直到待爬队列为空。

  4. 三类典型的网络爬虫

① 批量型爬虫:根据用户配置的URL进行网络数据批量爬取
② 增量型爬虫:根据用户配置的URL持续进行网络数据爬取,实时获取互联网数据(某URL中的数据一发生变化就爬)。
③ 垂直型爬虫:根据用户配置的URL持续进行指定网络数据爬取,实时获取互联网中与指定内容相关的数据。
理解指定网络数据:
① 限定URL:一般是通过正则匹配
② 限定内容:比如用CSS选择器或XPath的库取匹配内容

2. 网络爬虫抓取策略

如何处理URL中扇出的URL,涉及到网络爬虫抓取策略。
使用到抓取策略的地方如图所示:

① 深度优先
② 广度优先
③ 局部 PageRank 策略:通过网页被其他网页链接指向的数量+质量来表示其重要性,借此实现对每个网页的重要度排行。
④ OPIC(online page importance computation):将每个网页赋予相同的"金币" ,每当下载某个页面P,则将P拥有的"金币"平均分配给网页中所包含的链接页面。待爬队列中链接依"金币"排序。
OPIC计算速度快于PageRank策略。

3. 分布式网络爬虫

通过多个单机爬虫系统的有效协作和配合实现互联网大数据的抓取。

常见的简单分布式架构模型:

爬虫框架对比:

五、深网数据采集方法

1. 深网的概念
  1. 概念
    Surface Web:内容基本是非结构化的HTML信息,任何人都可以通过 Internet 访问它。
    Deep Web:用于表述那些信息内容存储在检索数据库中而仅仅响应直接查询提问的网站;内容多为结构化的DB信息。
2. 深网信息的特点

① 与信息需求、市场高度相关
② 是 Internet 上增长最快的信息类型,比传统的表面网更专更深
③一半以上存储在结构化数据库中

3. 深网的内容

① 由于缺乏被指向链接而没有被搜索引擎引到的页面
② Web上可访问的非网页文件
③ 通过填写表单形成对后台在线数据库的查询而得到的动态页面
需要注册或其他限制才能访问的内容

4. 深网数据采集 VS 搜索引擎的区别

5. 深网数据采集任务


① 查询接口识别,可使用多种方法来解析HTML表单或者对HTML表单进行语法分析来自动发现深网数据资源
② 自动填写表单,可将HTML表单与特定领域关联来实现表单的自动填写

六、实时流数据采集

1. 实时流数据场景

2. 实时流数据采集过程

3. 代表工具 Storm

2. 大数据感知与获取相关推荐

  1. 发布职位:智行者科技idriverplus#d轮结束,即将ipobase:北广鄂渝技术路线:激光雷达+摄像头+高精地图前端后端移动端大数据感知嵌入式算法

    发布职位:智行者科技idriverplus# d轮结束,即将ipo base:北广鄂渝 技术路线:激光雷达+摄像头+高精地图 前端后端移动端大数据感知嵌入式算法

  2. 发布职位:图森未来TuSimple# 4月份纳斯达克上市base 北上技术路线:激光雷达+毫米波雷达+摄像头 + 高级规划决策 + 高精地图前端后端软件大数据感知定位算法

    发布职位:图森未来TuSimple# 4月份纳斯达克上市 base 北上 技术路线:激光雷达+毫米波雷达+摄像头 + 高级规划决策 + 高精地图 前端后端软件大数据感知定位算法

  3. 2020地理设计组三等奖:融合多源大数据感知城市空间结构及城市活力的时空分异—以粤港澳大湾区城市群为例

    作品介绍 1 背景与意义 近30年来,我国的城镇化进程不断加快,并在局部地域形成规模性的城市群.到了2019年,中国城镇常住人口84843万人,占总人口比重(常住人口城镇化率)为60.60%,户籍人口 ...

  4. 大数据行业如何获取高薪岗位offer?

    在互联网行业需要保持不断的学习.学习大数据先思考自身未来想往哪个方向发展,想要入门快.基础深厚,并且需求多应用广建议从JAVA开始学起,找到适合自己的学习方法. 大数据行业人才稀缺,据第三方统计202 ...

  5. 阿里大数据比赛排名获取2

    文章已经转移至http://androiddevelop.cn/?p=565. 转载于:https://www.cnblogs.com/zhchoutai/p/7392104.html

  6. 群智大数据:感知、优选与理解

    摘要:移动群智感知是一种新的大规模感知模式,它利用随身携带的智能移动终端(智能手机.可穿戴设备等)形成大规模.随时随地且与人们日常生活密切相关的感知系统.通过广大用户参与获取的感知数据具有多模态.富内 ...

  7. 大数据股票接口怎么获取比较全面的股票信息?

    想要通过大数据股票接口获取全面的股票信息,首先我们要搞清楚什么是大数据股票接口,其次是我们需要有一定的编程基础. 因为,大数据股票接口就是俗称的l2行情接口,就是获取全市交易数据的一套软件,所以,拿着 ...

  8. 没有大数据就没有智慧城市

    10月30日消息,由住房和城乡建设部信息中心.工业和信息化部信息化推进司.国家测绘地理信息局国土测绘司.国家遥感中心.中国卫星导航定位应用管理中心共同主办,主题为"智慧•创新•服务" ...

  9. 大数据热的冷思考:无法取代传统的新闻传播科研方法

    古希腊哲学家毕达哥拉斯曾经提出"数是万物的本源"的思想,认为世界万物归根结底都是由某种数量关系决定的.在历史上,人类量化世界的野心和尝试从未停止,而科技的进步则不断为这一目标提供越 ...

  10. 《大数据》第1期“专题”——大数据与智慧城市

    大数据与智慧城市 陈宝权1,程章林2 1. 山东大学计算机科学与技术学院 济南 250101: 2. 中国科学院深圳先进技术研究院 深圳 518055 摘要:城市大数据的关联分析与智能提取是智慧城市建 ...

最新文章

  1. 关于github failed to push some refs
  2. [SDOI2018] 旧试题
  3. 编译gcc4.4.6与ICE遇到的几个问题
  4. 初始化稀疏矩阵 matlab,访问稀疏矩阵 - MATLAB Simulink - MathWorks 中国
  5. 实时获取滚动条的高度_适用于星上快速处理的雷达高度计有效波高反演技术
  6. 深度学习 《LSTM和GRU模型》
  7. vue 点击div 获取位置_vue接入腾讯位置服务之点击事件
  8. 图的长宽_新车|官方预告图发布,外观大变样,三菱新欧蓝德明年2月发布
  9. [CERC2017]Intrinsic Interval(神仙+线段树)
  10. ExecuteReader在执行有输出参数的存储过程时拿不到输出参数
  11. 《肖申克的救赎》--[美]斯蒂芬·金
  12. ROMS海洋模式笔记
  13. 《操作系统教程》(第五版)费翔林等著 课后习题参考答案
  14. Apache 架构师的 30 条设计原则
  15. 基础数据类型补充 set集合 深浅拷贝
  16. Dubbo的多种序列化算法
  17. linux绝育玩客云_绝育老母鸡(玩客云)pt下载浅谈
  18. Python基础知识学习笔记(一)
  19. 2018北航计算机 北理工计算机夏令营经验分享
  20. C++异步编程 for VS2011(四)

热门文章

  1. 半导体器件物理【6】固体量子——各种电子有效质量 + 状态密度函数
  2. 高端物理学名词_物理名词大全
  3. 怎么用python画sin函数图像_用python画三角函数
  4. Arping协议以及使用方法
  5. 仿映客直播礼物特效制作流程
  6. SVGA动画在直播源代码的运用——直播礼物的实现
  7. 记录片《货币》- 有价星球笔记
  8. IDEA 各版本下载地址
  9. HashMap 的底层
  10. CAD两条曲线如何连接成平滑的波浪线?