谈谈大数据采集和常见问题
后台回复【加群】,申请加入数据学习交流群
全文共 1762个字,建议阅读 5 分钟
大家好,我是峰哥,今天给大家讲解一下大数据面试中对于数据采集部分的一些问题。
01
什么是数据采集
数据采集是大数据的基石,不论是现在的互联网公司,物联网公司或者传统的IT公司,每个业务流程环节都会产生大量的数据,同时用户操作的日志也会产生大量的数据,为了将这些结构化和非结构化的数据进行采集,我们必须要有一套完整的数据采集方案流程,为后续的数据分析应用提供数据基础。
根据不同业务场景,对于数据采集的时效性要求也是不一样的,一般分为离线数据采集和实时数据采集。
02离线数据采集
离线数据采集主要包括从数据库中采集,如MySQL、Oracle、MongoDB等;从离线文件采集,如外部系统数据。每天凌晨会抽取前一天的数据(T+1),对于维度数据一般采用每次全量采集,对于业务数据,为了提高采集效率,同时也为了保住业务数据库的稳定性,采用每天增量采集,然后将T+1的数据合并成新的全量数据。
对于关系型数据库,如MySQL,一般是有主从数据库的,为了保住稳定和不影响主库的查询性能,我们一般抽取从库数据。对于文件数据抽取前需要先检测文件是否存在,源系统提供文件的时候需要提供对应的校验文件,校验文件里一般包含文件的记录数、字段格式等信息。采集到文件后需要对文件进行校验,文件完整的情况下才能继续后续数据处理程序。
03
实时数据采集
实时数据采集主要是一些页面日志的采集,也就是我们常说的用户行为分析数据。日志采集一般有以下几个步骤:数据埋点,数据上报,数据存储。
数据埋点:网站上线后一般会植入一段JS脚本,用户访问页面时,JS会收集当前页面的一些信息,用户问的上下文信息以及当前访问的页面业务相关数据。
数据上报:JS执行完毕后,会将所有收集到的信息拼装到一个请求内,通过日志请求将数据发送到日志服务器,存储为JSON文件;一般情况下,在 JS 执行完成后就会立即向日志服务器发送消息队列中。
数据存储:存储在磁盘上的文件会部署数据采集组件比如Flume,将采集到的日志数据发送到HDFS进行存储或者转存到HBase进行存储。消息队列的数据则可以直接消费落地到HDFS或者HBase进行存储。
04
数据采集的问题
是不是所有的日志数据都实时采集?
用户的每个操作都会产生一个操作日志,但并不是每生成一条日志就实时上报至服务器,而是在产生日志后,先暂存在客户端本地,再结合着相应的上报控制策略进行数据上报。其中上报策略主要指根据日志的业务特性,数据的时效性,用户的网络特性等等信息设定不同的上报策略,有些日志会因为其数据时效性的要求进行实时数据上报,而有些日志则会在用户启动应用,或者间隔一段时间后将日志上报上来。
总是找不到想要的埋点数据?
在实际业务数据采集中会发现每个模块的业务数据格式都是不一样的。因此就需要设计一种日志数据采集标准,可以针对特定的业务场景,制定通用的数据采集标识,研发人员在进行页面埋点时,依据标准的数据采集标识规则进行埋点,从而收集业务的详细信息。这个标准需要产品经理、前端开发人员、数据开发人员、数据分析人员、数据运营人员等多方达成一致,确保后面产品展现、埋点开发、模型开发、数据分析和运营能够正常开发、解析、统计分析数据。
如何对多个业务生成唯一标识?
在数据埋点中如何唯一确定用户的身份一件很重要的工作,因为如果做不到用户的唯一标识,那么后续很多数据模型是无法构建的。所以在设计埋点标准时,一般会包含用的设备ID和用户ID,关于设备ID安卓和IOS的方法也不一样,大家可以搜索相关资料(https://zhuanlan.zhihu.com/p/152051748);用户ID,也就是我们常说的注册账号。
05
数据采集用到的大数据技术
在数据采集中用到了哪些大数据技术呢?今天晚上跟大家一起直播分享。
点击下方预约。
进群方式:添加下方微信,回复:加群,通过审核会拉你进群。
(备注:行业-职位-城市)
谈谈大数据采集和常见问题相关推荐
- 大数据采集的几点问题的思考
最近去面试,遇到面试官提到了几个关于"数据采集"方面的问题. 一般大数据处理流程的共识是: 大数据采集.大数据预处理.大数据存储及管理.大数据分析及挖掘.大数据展现和应用(大数据检 ...
- jdk32位安装包下载_神灯地图大数据采集破解版-神灯地图大数据采集软件下载 v4.6.0官方版-...
神灯地图大数据采集软件是一款采集地图信息的工具,能够获取各行业精准客户数据,针对主流电子地图上的商户信息进行实时采集,搜索结果包含商户名称.电话联系方式.地址.坐标信息. 神灯地图大数据采集软件是一款 ...
- jdk32位安装包下载_神灯地图大数据采集软件下载|神灯地图大数据采集软件 最新版4.6.0 下载...
神灯地图大数据采集软件可以让用户们在百度,高德等主流地图导航平台上,去采集自己想要的相关数据,包括商户名称.电话联系方式等,并且可以支持关键词筛选,可以帮助用户们过滤掉自己不想要的数据,让自己能够直接 ...
- jdk32位安装包下载_神灯地图大数据采集工具破解版2020|神灯地图大数据采集软件 V4.6.0 官方版 下载_当下软件园...
神灯地图大数据采集软件是一款采集地图信息的工具,能够获取各行业精准客户数据,针对百度地图.高德地图.腾讯地图.搜狗地图.360地图等主流电子地图上的商户信息进行实时采集,搜索结果包含商户名称.电话联系 ...
- jdk32位安装包下载_神灯地图大数据采集软件下载_神灯地图大数据采集软件 v4.6.0 官方版...
神灯地图大数据采集软件是一款专门用来采集地图数据信息的工具,能对百度地图.腾讯地图等各大主流电子地图上的商户信息进行实时采集,然后能给出商户的联系方式.地址.名称等,而且操作简单,采集速度快. 软件特 ...
- 灵玖软件大数据采集技术提高出版行业效率
随着信息技术的发展和数字时代的到来,大数据采集成为出版业新一阶段的发展方向.出版单位自身的固有资源已经远远不能满足用户对知识化服务的需求,亟需更多的信息获取渠道.目前,不少商务企业.科研机构.高等院校 ...
- url采集工具_大数据关键技术浅谈之大数据采集
在前几篇文章中,企通查为大家介绍了大数据处理的基本流程.从大数据的一系列处理过程中(抽取.集成.分析.解释),我们可以发现这一整套流程中涵盖了数据存储.处理.应用等多方面的技术. 大数据价值的完美体现 ...
- 大数据采集技术与预处理
大数据概述 1 你搭建web服务器,建了一个网站.服务器的日志文件自动记录了每一个访问的IP地址等信息.现在要对这些信息进行收集,属于 A. 数据采集 B. 数据清洗 C. 数据存储 D. 数据挖掘 ...
- 智子观测宣布和数榜签约合作,强化大数据采集技术
近期,随着chatGPT被各行各业广泛应用,越来越多的高科技企业涌现出来.作为其中的佼佼者,宁波有一信息科技有限公司专注于人工智能和大数据领域,以创新的产品和服务赢得了广大客户的青睐. 该公司主营产品 ...
最新文章
- 解题报告:POJ 3281 Dining(最大流 / “三分图”建图)
- python进行数据分析 kindle_利用Python进行数据分析
- I am the load of my word
- 一看就明白的爬虫入门讲解-基础理论篇(上篇)
- 现代谱估计:多窗口谱重建
- 【深度学习】array, list, tensor,Dataframe,Series之间互相转换总结
- 介绍几款开源好用的产品
- android横向排列 间隙,Android开发消除横向排列的多个Button之间的空隙
- 织梦个人空间中调用ip,会员类型,邮箱,金币,会员积分
- php shell ddos,用shell解决ddos攻击实例
- LuaForUnity1:Lua介绍与使用
- LoadRunner 录制常见错误解决方法
- ip访问次数统计 nginx_nginx访问量统计
- ThinkPad E431 Bluetooth驱动
- lombook插件安装
- 文献解读——基于深度学习的病毒宿主预测
- 苹果设计可变色Apple Watch表带,智能穿戴玩法多
- PDF拆分与合并工具(DOS版)
- python正则匹配练习
- 计算机视觉项目-文档扫描OCR识别
热门文章
- 原生js怎么追加html,原生JS改变HTML内容
- pscad4.5与matlab,pscad与matlab接口方法和改进建议.ppt
- JAVA-下载并运行Spring源码,超细节,包成功!
- vim/vi 4种替换方法,批量替换,手动替换
- 知道效果广告,让你的广告投入更有价值!
- 杨中科老师谈C语言指针问题快速解惑
- “3A大作”微信,体积终于缩小了? 退退退!!!!
- 阿里巴巴优酷视频增强和超分辨率挑战赛记录
- qboost怎么设置_qboost怎么设置*流畅 qboost怎么设置*好
- SWFT study-1