最近去面试,遇到面试官提到了几个关于“数据采集”方面的问题。
一般大数据处理流程的共识是:

大数据采集、大数据预处理、大数据存储及管理、大数据分析及挖掘、大数据展现和应用(大数据检索、大数据可视化、大数据应用、大数据安全等)。

其中,数据采集是第一步。有这么几个情况:
(1)日志类型的数据采集;
(2)接口类型的数据采集;
(3)爬虫数据采集;
(4)传感器数据采集等等。。

当然有别的分类,这里暂时凭个人理解做个分类。

数据结构,又分结构化,半结构化,非结构化。

遇到的常见问题有:
(1)数据有多个来源
(2)异构,混杂结构数据和非结构数据
(3)数据动态生成
(4)整合难

总称就是:多源异构动态大数据整合!这是数据采集会遇到的问题。这还真是一个很大的命题,值得一批学者去研究。

当然,现在也有一些技术能处理一部分问题。有一些数据采集平台,比如flume。笔者没有使用过这些工具,不能瞎说。只是,结合自己的一些经验,做一些思考,并记下来,为以后遇到此类问题做个参考。

未完待续。。

参考索引:
http://developer.51cto.com/art/201601/504888.htm
https://zhuanlan.zhihu.com/p/43988449

大数据采集的几点问题的思考相关推荐

  1. 【2016年第1期】农业大数据资产管理面临的挑战与思考

    李俊清,宋长青,周虎 山东农业大学农业大数据研究中心,山东 泰安 271018 摘要:农业大数据资产管理是发展农业农村大数据的前提,结合农业领域和大数据领域的热门议题,对农业大数据资产管理进行了相关研 ...

  2. 海关大数据平台建设与应用场景思考

    张涵诚:海关大数据平台建设与应用场景思考 文/张涵诚 海关十三五规划明确指出,要运用大数据技术提升海关管理智能化水平.要数据科学赋能海关,提高智能化水平的提高就一定离不开平台建设,也离不开大数据各种算 ...

  3. 灵玖软件大数据采集技术提高出版行业效率

    随着信息技术的发展和数字时代的到来,大数据采集成为出版业新一阶段的发展方向.出版单位自身的固有资源已经远远不能满足用户对知识化服务的需求,亟需更多的信息获取渠道.目前,不少商务企业.科研机构.高等院校 ...

  4. url采集工具_大数据关键技术浅谈之大数据采集

    在前几篇文章中,企通查为大家介绍了大数据处理的基本流程.从大数据的一系列处理过程中(抽取.集成.分析.解释),我们可以发现这一整套流程中涵盖了数据存储.处理.应用等多方面的技术. 大数据价值的完美体现 ...

  5. 大数据智能下数据脱敏的思考

    大数据时代下,海量数据中蕴藏的价值得以挖掘,但也带来隐私信息与关键性敏感数据保护方面的困难.数据脱敏技术是解决这一问题的重要手段之一.传统的脱敏方法人工干预大,配置成本高,对用户的专业素养要求高. 为 ...

  6. 大数据采集技术与预处理

    大数据概述 1 你搭建web服务器,建了一个网站.服务器的日志文件自动记录了每一个访问的IP地址等信息.现在要对这些信息进行收集,属于 A. 数据采集 B. 数据清洗 C. 数据存储 D. 数据挖掘 ...

  7. 智子观测宣布和数榜签约合作,强化大数据采集技术

    近期,随着chatGPT被各行各业广泛应用,越来越多的高科技企业涌现出来.作为其中的佼佼者,宁波有一信息科技有限公司专注于人工智能和大数据领域,以创新的产品和服务赢得了广大客户的青睐. 该公司主营产品 ...

  8. 最全的大数据采集方法分类

    数据采集的设计,几乎完全取决于数据源的特性,毕竟数据源是整个大数据平台蓄水的上游,数据采集不过是获取水源的管道罢了. 一.大数据环境下的数据处理需求 大数据环境下数据来源非常丰富且数据类型多样,存储和 ...

  9. 大数据采集(hdu)第二章笔记

    2.1大数据采集概述 大数据采集技术就是指对数据进行提取(Extract).转换(Transform).加载(Load)操作(即ETL操作),将不同来源的数据整合成为一个新的数据集,为后续的查询和分析 ...

最新文章

  1. SpringBoot接口频繁超时,长时间找不到原因,我用 Arthas 定位到了
  2. 对称加密算法_技术分享丨这是一篇简单的小科普——什么是对称加密算法?(下)...
  3. 移动端IM开发者必读(一):通俗易懂,理解移动网络的“弱”和“慢”
  4. 导出来的双引号怎么处理_阿里巴巴国际站图片处理小技巧
  5. leetcode976. 三角形的最大周长(又是你得不到的简单题)
  6. 要求员工自愿无偿加班 特斯拉真是拼...
  7. 【emWin】例程十:bmp图片显示
  8. mybatis 插入一条记录 参数为map的写法【用遍历Map的key和value的方式,可以实现只插入有效值】...
  9. 量化投资策略——海龟策略
  10. 计算机留学美国ps,美国计算机专业ps范文
  11. Silverlight MMORPG WebGame游戏设计(五)-----Client的嫁妆
  12. oracle输出加文字,输出cx字符串
  13. 手机的imei号的获取
  14. Emojify – Create your own emoji with Deep Learning 通过深度学习创建你自己的表情
  15. 学生如何免费激活JetBrain所有产品(PyCharm,IDEA......)
  16. 计算机的硬盘就是内存不足,电脑内存不够用加内存条还是固态硬盘_电脑内存不够解决方法 - 系统家园...
  17. 这个水卡算法规律有会的吗?
  18. Ymir平台部署安装
  19. 区块链软件:与物联网结合
  20. Kubernetes 1.6新特性系列 | 动态配置和存储类

热门文章

  1. python基_python之地基(一)
  2. 软件工程领域 相关概念
  3. 今日头条信息流 - 开户技巧
  4. android 仿微信账单生成器手机版式,至尊版清理大师app
  5. Unity下Animation资源压缩简析
  6. 微软 Teams 等服务大规模宕机
  7. 【收藏夹2020-2021】
  8. CPU组合逻辑控制方式
  9. Linux设置ip地址不更改
  10. 社招转行进腾讯了(自学经验 + 面试心得)