大数据的处理之数据的抽取
学习目标:
数据抽取的方式和实现方法
学习内容:
- 数据的抽取方式:全量抽取和增量抽取
2.数据加载的方法:全表删除插入方式,触发器方式
学习时间:
有sql 基础的话 ,6个小时
学习产出:
1.技术笔记一篇
2.练习题一套,包括答案 源代码
一 概念
(1)全量抽取
全量抽取类似于数据迁移或数据复制,它将数据源中的表的数据原封不动的从数据库中抽取出来,并转换成自己的ETL工具可以识别的格式。全量抽取比较简单。
(2)增量抽取
增量抽取只抽取自上次抽取以来数据库中要抽取的表中新增或修改的数据。在ETL使用过程中。增量抽取较全量抽取应用更广。如何捕获变化的数据是增量抽取的关键。对捕获方法一般有两点要求:准确性,能够将业务系统中的变化数据按一定的频率准确地捕获到;不能对业务系统造成太大的压力,影响现有业务。
二 数据加载的方法
1.全表删除插入方式是指每次抽取前先删除目标表数据,抽取时全新加载数据。该方式实际上将增量抽取等同于全量抽取。对于数据量不大,全量抽取的时间代价小于执行增量抽取的算法和条件代价时,可以采用该方式
2.触发器方式
触发器方式是普遍采取的一种增量抽取机制。该方式是根据抽取要求,在要被抽取的源表上建立插入、修改、删除3个触发器,每当源表中的数据发生变化,就被相 应的触发器将变化的数据写入一个增量日志表,ETL的增量抽取则是从增量日志表中而
大数据的处理之数据的抽取相关推荐
- 5大架构:细数数据平台的组成与扩展
作为软件工程师,不可避免地受到周围计算机工具的影响,语言.框架.甚至执行过程都会影响我们构建的软件. 数据库亦如此,基于一种特殊的方式,不可避免地影响到我们对应用程序中易变和共享状态的处理. 过去的十 ...
- 「大数据概述四」数据中台建设
数据采集层:既包括传统的ETL离线采集.也有实时采集.互联网爬虫解析等等. 数据处理层:根据数据处理场景要求不同,可以划分为HADOOP.MPP.流处理等等. 数据分析层:主要包含了分析引擎,比如数据 ...
- 久其报表大厅_天下苦“数”久矣,大数据分析平台解决物流数据孤岛
文|帆软数据应用研究院 王清晨 引言 不知从何时起,数据挖掘.数据决策.云计算.大数据等一系列高大上的名词充斥着我们的生活,无论是传统行业还是互联网行业仿佛都被这些抽象化的标签所支配着,多少程序猿为数 ...
- 【大数据】什么是数据集成?(SeaTunnel 集成工具介绍)
文章目录 一.什么是数据集成? 二.ETL 又是什么? 三.SeaTunnel 介绍 1)概述 2)SeaTunnel 的作用 3)SeaTunnel 的特点 4)Seatunnel 优势与缺点 5) ...
- 阿里大数据之路:数据管理篇大总结
来源:大数据技术与架构 全文共 13000个字,建议阅读 20 分钟 第1章 元数据 1.1 元数据概述 1.1.1 元数据定义 元数据打通了源数据.数据仓库.数据应用,记录了数据从产生到消费的全过程 ...
- 大数据分析与应用(中级) 数据预处理与特征工程
目录 一.数据预处理可以包括那些操作 二.数据抽样可以包含那些类型的抽样方式,每一种抽样方式的原理是什么? 1.随机抽样(Random Sampling) 2.系统抽样(Systemactic Sam ...
- 大数据技术基础_网易大数据体系之时序数据技术
分享嘉宾:范欣欣 网易大数据技术专家 编辑整理:王吉东 内容来源:AI科学前沿大会 出品社区:DataFun 注:欢迎转载,转载请注明出处. 本次分享内容: 时序数据平台主要业务场景 时序数据平台体系 ...
- 大数据理论体系总结--数据仓库管理与全链路数据体系
前言 就这样,大数据领域蓬勃发展了好几年,有很多伙伴执迷于技术,成为了分布式计算与存储的领域专家.也有很多伙伴执迷于数据,成为了行业的数据研发专家.当然还有很多小伙伴,热衷于工具系统开发,成为了数据技 ...
- 大数据之路:数据同步
目录 1.数据同步基础 2.阿里数据仓库的同步方式 3.数据同步遇到的问题和解决方案 1.数据同步基础 大数据的数据同步主要包括从分布式业务系统同步进入数据仓库和数据从数据仓库同步进入数据应用和数据服 ...
- 【数据科学】小数据治理靠“人工”,大数据治理靠“智能”
摘要 本文把小数据和大数据的基本概念,小数据治理与大数据治理的范围.区别.方法及主要特征介绍比较清晰. (1)小数据治理靠"人工",小数据的治理十五字方针:理数据.建标准.接数据. ...
最新文章
- Z-Stack - Modification of Zigbee Device Object for better network access management
- 皮一皮:如此父母...究竟是好还是不好(沉思)...
- Yolo-FastestV2 移动端可达300FPS,参数量仅250k
- [转]ExtJs基础--Html DOM、Ext Element及Component三者之间的区别
- MyBatis 实际使用案例-dataSource
- editplus的使用技巧
- Python:正则表达式
- TortoiseSVN更改账号的方法
- OpenGL与EGL最简流程(十八)
- 美赛O奖论文翻译-2015埃博拉病毒
- Android实现TCP客户端
- 实用的活动报名微信小程序应用
- 谷歌浏览器发送POST请求(测试Post接口)
- 京东简单介绍(互联网知识)
- python微博爬虫实战_爬虫实战——四大指数之微博指数(一)
- PWM呼吸灯(小白版)
- AtCoder abc256全题解(区间合并模板、矩阵快速幂优化dp、线段树……)
- 生态版图 | 10月份YashanDB获信创产品认证,并与3款产品完成互认证
- 入驻QQ一天就爆满,Midjourney中文版来了
- PTA:7-37 秀恩爱分得快 (简洁易懂,详解)
热门文章
- adb命令刷入kingroot_一加5工具箱:一加5玩机神器|刷机工具箱|解锁上锁|刷机root|解密data,一键Xposed...
- EasyRecovery2022版支持电脑, 硬盘, U盘, 内存卡, 回收站等设备数据恢复
- 图像处理的空间频率(波数)、角波数与空间波长
- 360安全卫士卸载干净-笔记
- excel表格显示无法连接服务器,excel中表格无法连接数据库-EXCEL 连接SQL SERVER数据库显示无法连接...
- 产生式系统 实验报告 人工智能原理实验
- 神经网络反向传播(BP)算法推导
- Hive函数collect_set、concat_ws、concat、if
- 高中计算机会考知识点选择题,高中信息技术会考选择题知识点
- MAX262程控滤波器