戳蓝字“CSDN云计算”关注我们哦!

作者:Feng

来源:哈尔的数据城堡

现代商业市场是一个数据驱动的环境,可以说不论技术怎么更新换代,数据都有着不可替代的地位,而且抛开数据谈大数据服务就是瞎扯,没有数据作支撑的大数据平台就是一个空壳。无论是公司内部的数据还是外部的数据都可以构成我们大数据平台的数据来源,大数据平台数据的来源主要来自数据库、日志、前端埋点、爬虫。

01 从数据库导入

在大数据技术风靡起来前,关系型数据库(RDMS)是主要的数据分析与处理的途径。发展至今数据库技术已经相当完善,当大数据出现的时候,行业就在考虑能否把数据库数据处理的方法应用到大数据中,于是 Hive、Spark SQL 等大数据 SQL 产品就这样诞生。

虽然出现 Hive 大数据产品,但是在生产过程中业务数据依旧使用 RDMS 进行存储,这是因为产品需要实时响应用户的操作,在毫秒级完成读写操作,而大数据产品不是应对这种情况出现的。到这里你可能就有一个疑问,如何把业务的数据库同步到大数据平台中?一般来说业务数据我们使用实时和离线采集数据来将数据抽取到数据仓库中。然后再进行后续数据处理和分析,一些常见的数据库导入工具有 Sqoop、Datax 和 Canal 等。

Sqoop 是 Apache 旗下一款 Hadoop 和关系型数据库之间传送离线数据的工具。实现关系型数据库(MySQL 、Postgres 等)同 Hadoop 集群的 Hdfs、Hbase、Hive 进行数据同步, 是连接传统关系型数据库和 Hadoop 的桥梁。atax 与 Sqoop 类似也是进行离线数据传输,支持阿里数据库系列数据同步。

Canal 则是通过读取 MySql的 BinLog 日志 实时传输数据到大数据平台,实现数据的实时介入。

如果你希望了解更多,可以阅读上篇文章《浅谈数据同步之道》

02 日志导入

日志系统将我们系统运行的每一个状况信息都使用文字或者日志的方式记录下来,这些信息我们可以理解为业务或是设备在虚拟世界的行为的痕迹,通过日志对业务关键指标以及设备运行状态等信息进行分析。

Apache Flume 是大数据日志收集常用的工具。从图中可以看出 Flume 运行的核心是 Agent,以 Agent 为最小的独立运行单位。Agent 主要由三个组件:Source,Channel、Sink。

Source: 收集数据,封装数据为事件(Event)后发送到 Channel,数据来源可以是企业服务器、文件系统、云、数据存储库等。

Channel: 通常,读取速度比写入速度快。因此,我们需要一些缓冲区来匹配读写速度差异。基本上,Channel 提供一个消息队列的功能,用于存储 Source 发送的事件,对事件进行消息排序,发送到 Sink。

Sink: 从 Channel 收集数据,将数据输送大数据存储设备,比如 HDFS、Hive、Hbase 等,Sink 也可以作为新的 Source 输入源,两个Agent 进行级联,根据需求开发各种处理结构。

03 前端埋点

为什么需要埋点?现在的互联网公司越来越关注转化、新增、留存,而不是简单的统计 PV、UV。这些分析数据来源通过埋点获取,前端埋点分为三种:手工埋点、可视化埋点、自动化埋点。

手工埋点:

前端需要返回数据的位置调用写好的埋点 SDK 的函数,按照规范传入参数通过 Http 方式传入后代服务器中。这种方式可以下钻并精准采集数据,但工程量巨大。

自动化埋点:

也叫无埋点,即是无需埋点,在全部位置都设置埋点,对用户所有操作进行采集,这种方式通过统一的 SDK 返回数据,再选择需要的数据进行分析,这种方式加大服务器的压力,采集许多不需要的数据,浪费资源。在实践中,可以采用对部分用户或者部分简单操作页面进行全埋点采集。

可视化埋点:

是介于手工埋点和自动化埋点之间方式,通过可视化交互设置埋点,可以理解为人为干预的自动化埋点形式。

那如何选择埋点方式?对于一个按钮,如果采用可视化埋点或者自动化埋点时,可以轻易采集用户何时点击按钮,对于需要运行获取获得的数据是无法采集,比如订单的商品详细信息等,对这种情况应该采用手动埋点处理采集。对此,埋点问题不应该通过单一的技术方案来解决,在不同场景下我们需要选择不同的埋点方案。

04 爬虫

时至至今, 爬虫的数据成为公司重要战略资源,通过获取同行的数据跟自己的数据进行支撑对比,管理者可以更好的做出决策。而且越难爬虫获取竞争对手的数据,对于公司来说是越有价值。

小结

数据采集本身不是目的,只有采集到的数据是可用、能用,且能服务于最终应用分析的数据采集才是根本。数据采集的准确性决定了这个数据分析报告是不是有使用价值。只有当数据采集具有科学性、客观、严密的逻辑性时,建立在这样的数据分析基础之上的的出来的结论才具有现实的价值和意义。

重磅推荐 ↓ ↓ ↓

福利

扫描添加小编微信,备注“姓名+公司职位”,加入【云计算学习交流群】,和志同道合的朋友们共同打卡学习!

推荐阅读:

  • 边缘计算将吞掉云计算!

  • ARM 发布新一代 CPU 和 GPU,实现 20% 性能提升!

  • 前端开发 20 年变迁史

  • 北漂杭漂的程序员,是如何买到第一套房子?

  • “爱装X”开源组织:“教科书级”AI知识树究竟长什么样?

  • 500行Python代码打造刷脸考勤系统

  • 权游播完了, 你在骂烂尾, 有人却悄悄解锁了新操作……

真香,朕在看了!

大数据从哪里来?| 技术头条相关推荐

  1. 报名 | 基于大数据的中国城市技术社会治理探索

    本讲座选取北京.深圳.成都三个城市基于大数据手段的技术社会治理探索的四个街道(区)的典型案例,以社区社会资本.行政资源配置力度为划分标准,将这些街区的探索实践归纳为四种中国城市大数据技术社会治理模式. ...

  2. 大数据流通与交易技术国家工程实验室成立大会在京举行

    3月11日,由国家发改委正式批复的"大数据流通与交易技术国家工程实验室"成立大会暨第一次研究中心主任联席会议召开.国家发展和改革委员会.中央网信办.工业和信息化部以及上海市政府等相 ...

  3. AI和大数据下,前端技术将如何发展?

    简介:2010年前后,各种大数据应用进入爆发期.如果说之前的Web应用更多地是在"产生"数据,那在2010年之后,如何更好地"展现"数据则被提上了新的高度,很多 ...

  4. 大数据算法与分析技术国家工程实验室将建设

    国家发展改革委近日正式下发通知,同意由西安交通大学作为承担单位,国家电网公司全球能源互联网研究院作为联合共建单位,筹建"大数据算法与分析技术国家工程实验室". 国网信通部落实公司党 ...

  5. 《大数据》杂志——大数据容灾备份技术挑战和增量备份解决方案

    大数据容灾备份技术挑战和增量备份解决方案 罗圣美1,2,李 明1,叶郁文1 (1.中兴通讯股份有限公司 南京 210012: 2.清华大学计算机科学与技术系 北京 100084) 摘要:大数据已成为当 ...

  6. 上交AI研究院副院长马利庄:基于大数据的人脸识别技术进展与展望

    文章发布于公号[数智物语] (ID:decision_engine),关注公号不错过每一篇干货. 转自 | 中国人工智能学会 本篇大家整理的是来自上海交通大学人工智能研究院副院长.华东师范大学特聘教授 ...

  7. 大数据包围你我,技术人如何走知识分享之路

    本期推荐:[云享人物·大咖面对面]华为云首席产品官方国伟独家专访:当下云发展有待突破的并不是技术问题:现在为什么是#华为云# 的最佳时机:以不变应万变,什么是云产品规划的三个关键出发点:生态对于云的意 ...

  8. 自然语言处理工具HanLP被收录中国大数据产业发展的创新技术新书《数据之翼》...

    在12月20日由中国电子信息产业发展研究院主办的2018中国软件大会上,大快搜索获评"2018中国大数据基础软件领域领军企业",并成功入选中国数字化转型TOP100服务商. 在本届 ...

  9. 大数据需要学习哪些技术?

    大数据是对海量数据进行存储.计算.统计.分析处理的一系列处理手段,处理的数据量通常是TB级,甚至是PB或EB级的数据,这是传统数据处理手段所无法完成的,其涉及的技术有分布式计算.高并发处理.高可用处理 ...

  10. 大数据和区块链技术是什么关系?

    如今,大数据和区块链技术的关系日益密切了起来.可能有人要问了,大数据针对的是海量数据的处理,而区块链技术是一种实现内容共享和点对点交易的网络技术,两者有什么联系呢?确实两者只是不同场景情况下的不同数据 ...

最新文章

  1. 性能测试——房屋租赁系统(Badboy、JMeter)
  2. 数据库连接池技术详解【吐血整理,疯狂推荐】
  3. 树莓派3B+运行arm_computer_library
  4. SQL进阶提升(疑惑篇order by)-学习sql server2005 step by step(十一)
  5. C++笔记(1)explicit构造函数
  6. mongoDB Error:not master and slaveOk=false
  7. Java进制间的转换
  8. 浅谈UWB室内定位(一)_vortex_新浪博客
  9. SMB、FTP、DNS、等六个服务总结
  10. 装机防骗武器——鲁大师
  11. 2020年计算机二级access考试大纲,2020年全国计算机二级ACCESS考试分析与小结(7页)-原创力文档...
  12. Linux iptables防火墙详解(三)——iptables匹配条件
  13. 856. Score of Parentheses
  14. PHP开发工资条短信通知
  15. kmeans算法及python实现
  16. 输入一个整数(1~7),显示对应星期英文的缩写
  17. 如何为SharePoint文件添加标记
  18. yii2 之图片上传插件fileinput使用说明
  19. 2010年6月 工作 计划 发奋图钱 再接再厉
  20. validation list嵌套对象校验

热门文章

  1. python字符串填充_填充函数(Python)字符串.zfi
  2. crmeb pc端模板下载_PC端人人影视下载速度如何提高
  3. java 类加载 双亲委派_Java类加载器和双亲委派机制
  4. centos安装mysql5.6系统崩溃_CentOS7安装MySQL5.6冲突总结
  5. 距离,原来还有这么多类
  6. 线性代数拾遗(六):特征值与特征向量
  7. 教授是如何教授数学思维的?
  8. 斯坦福大学教育学院院长:学习本身就是一门学问
  9. 故宫的“烧脑奇书”又火了!豆瓣9.2分,11种结局,可以玩一年!
  10. 一份所有中国人都应该听的歌单,你听过几首?