大数据技术的核心是从数据中获取价值,而第一步就是要弄清楚有什么数据,怎样获取。4.1 数据分类 数据的分类有很多种,按照数据形态划分为结构化数据和非结构化数据。结构化数据如传统的Data Warehouse 数据;非结构化数据有文本数据,图像数据,自然语言数据等。结构化数据,结构固定,每个字段有固定的语义和长度,计算机程序可以直接处理;非结构化数据,计算机无法直接处理,需要先对数据进行格式转换或信息提取。按照数据的来源和特点,电信的数据又可以分为原始数据,用户面详单信令,信令数据等。4.2 数据获取组件 数据来源不同,获取的技术也不同.电信特有的探针技术,以及获取网页常用的爬虫,采集日志数据的组件Flume。4.3 探针 4.3.1 探针原理 打电话,手机上网,背后承载的都是电信的路由器,交换机等设备的数据交换。从电信的路由器,交换机把数据采集上来的专有设备是探针。根据放置的位置不同,分为内置探针和外置探针。内置探针:探针设备和电信已有设备部署在同一个机框内,直接获取数据。外置探针:在现网中,大部分网络设备已经部署完毕,无法移动原有的网络,这时就需要外置探针。外置探针主要由以下几个设备组成:1.Tap/分光器:对承载在铜缆,光纤上传输的数据进行复制,并且不影响原有两个网元间的数据传输。2.汇聚LAN Switch:汇聚多个TAP/分光器复制的数据,上报给探针服务器3.探针服务器:对接收到的数据进行解析,关联等处理,生成xDR,并将xDR上报给分析系统,作为其数据分析的基础。探针通过分光器或得到数据网络中各个接口的数据,然后发送到探针服务器进行解析,关联等处理.4.3.2 探针的关键能力 1.大容量2.协议智能识别传统的协议识别方法采用SPI(Shallow Packet Inspection)检测技术。但SPI仅仅分析IP报四层以下的内容,根据tcp/udp的端口来识别应用。许多传统和新兴的应用采用了各种端口隐藏技术来逃避检测,比如在8000端口上进行http通信,在80端口上进行skype通信,在2121端口上开启ftp服务等。因此,仅通过第四次端口信息已经不能真正判断流量中的应用类型,更不能应对基于开放端口,随机端口甚至采用加密等方式进行传输的应用类型。要识别这些协议,无法单纯依赖端口检测,而必须在应用层对这些协议的特征进行识别。除了逃避检测的情况外,目前还出现了运营商和OTT合作的场景。协议智能识别技术能够深度分析数据包所携带的L3~L7/L7+的消息内容,连接的状态/交互信息等,从而识别出详细的应用程序信息。3.安全的影响探针的核心能力是获取通信的数据,但随着越来越多的网站使用HTTPS/QUIC加密L7协议,传统的探针能力就会受到极大的限制。比如像分析YouTube的流量,只有通过解析L7协议才能知道用户访问的是YouTube,所以加密之后会影响探针的解析能力,很多业务就无法进行。现在业界尝试使用深度学习来识别协议,如360设计了一个5~7层的深度神经网络,能够自动学习特征并识别每天数据中的50~80种协议。4.IB(InfiniBand)技术InfiniBand架构是一种支持多并发链接的"转换线缆"技术。4.4 网页采集 4.4.1 网络爬虫 网络爬虫的基本工作流程如下:1.首先选取一部分种子url2.将这些url放入待抓取的url队列3.从待抓取url队列中取出待抓取的url,解析dns,得到主机的ip,并将url对应的网页下载下来,存储到已下载网页库中。此外,将这些url放入已抓取url队列4.分析已经抓取的网页内容中的其他url,并将url放入待抓取的url队列,从而进行下一轮循环抓取策略:1.深度优先遍历策略2.宽度优先遍历策略3.反向链接数策略4.PartialPageRank策略5.OPIC策略6.大站优先策略更新策略:1.历史参考策略2.用户体验策略3.聚类抽样策略系统架构:1.主从模式2.对等模式4.4.2 简单爬虫Python代码示例 4.5 日志收集 4.5.1 Flume 3.Flume 架构分析1.系统特点1.可靠性end-to-end, Store on Failure, Best Effort2.可扩展性3.可管理性4.功能可扩展性4.5.2 其他日志收集组件 4.6 数据分发中间件 4.6.1 数据分发中间件的作用 数据采集上来后,需要送到后端的组件进行进一步分析,前端的采集和后端的处理往往是多对多的关系。在前端的采集和后端的处理之间需要一个消息中间件来负责消息转发,以保证消息的可靠性,匹配前后端的速度差。传统的日志分析系统提供了一种离线处理日志的可扩展方案,但若要实时处理,通常会有较大的延迟。而现有的消息(队列)系统能够很好的处理实时或者接近实时的应用,但未处理的数据通常不会写到磁盘上,这对于Hadoop之类(一小时或者一天只处理一部分数据)的离线应用来说,可能存在问题。kafka正是为了解决以上问题而设计的,它能够很好的处理离线和在线应用。kafka 架构:1.生产者(Producer):消息和数据生产者2.代理(Broker):缓存代理,kafka核心功能3.消费者(Consumer):消息和数据消费者设计要点:1.直接使用Linux文件系统的cache来高效缓存数据2.采用Linux zero-copy 提供发送性能。传统的数据发送需要发送4次上下文切换,采用sendfile系统调用后,数据直接在内核态交换,系统上下文切换减少为2次。4.6.2 Kafka架构和原理 

4.大数据架构详解:从数据获取到深度学习 --- 数据获取相关推荐

  1. 大数据架构详解:从数据获取到深度学习.pdf

    大数据架构详解:从数据获取到深度学习.pdf ----------------------------- 作者:朱洁,罗华霖 著 出版社: 电子工业出版社 ISBN:9787121300004 版次: ...

  2. 《大数据架构详解:从数据获取到深度学习》第八次重印

    第八次重印: 个人去年十月份出版的<大数据架构详解:从数据获取到深度学习>卖的还不错,京东,当当,亚马逊一直在热销榜上,一直排在前列,榜首常客! 既上个月重印之后,本月又重印了一次,累计八 ...

  3. 为什么写《大数据架构详解》这本书

    花了差不多一年半时间,牺牲了每个周末,费了九牛二虎之力,终于完成个人人生的第一本书<大数据架构详解:从数据获取到深度学习>.整个过程其实挺痛苦的,时常想放弃,幸好坚持下来了. 回想这我50 ...

  4. 喜大普奔,《大数据架构详解》一书 登陆 当当,京东热卖榜

    2016-11-27 朱洁 大数据和云计算技术 最近加班太多,"江郎才尽了",这周不想写博客了,休息下. 讲点高兴的事情,我的新书<大数据架构详解>登陆当当,京东热卖榜 ...

  5. 《大数据架构详解》一书第16次重印

    又收到编辑寄的样书,看了下<大数据架构详解:从数据获取到深度学习>一书从16年10月出版以来,第16次重印. 京东评价超过2万条: 作者手上有少量全新样书,有想要签名样书的同学可以加作者微 ...

  6. 《大数据架构详解》一书再版意见征集

    <大数据架构详解:从数据获取到深度学习>这本书从2016年10月出版以来,一直在重印,早就超过3万本,在大数据和云计算专业领域里面卖的还可以的,多谢各位读者和朋友们的厚爱.对大数据技术有学 ...

  7. 《大数据架构详解》读后感

    <大数据架构详解> -- 读后感 作者:朱洁 罗华霖 出版商:中国工信出版社 电子工业出版社 版次:2016年10月第1版 印数:7001 ~ 12000册 定价:69.00元 本书花了大 ...

  8. 2.大数据架构详解:从数据获取到深度学习 --- 运营商大数据架构

    第2章 运营商大数据架构 2.1 架构驱动的因素 运营商面临着被管道化,营收下滑,大数据项目承担企业战略转型,数据变现的使命.互联网企业的大数据往往是承担业务创新,未来探索的一种驱动因素,所以对于架构 ...

  9. 大数据架构详解学习笔记

    读书笔记 书名<大数据结构详解–从数据获取到深度学习>,作者:朱洁 罗华霖 运营商大数据平台架构 数据获取方法 感兴趣章节 6.2.3 Linux 系统调优原理 关于虚拟内存部分新了解的一 ...

  10. 大数据架构详解_【数据如何驱动增长】(3)大数据背景下的数仓建设 amp; 数据分层架构设计...

    背景 了解数据仓库.数据流架构的搭建原理对于合格的数据分析师或者数据科学家来说是一项必不可少的能力.它不仅能够帮助分析人员更高效的开展分析任务,帮助公司或者业务线搭建一套高效的数据处理架构,更是能够从 ...

最新文章

  1. MATLAB中导入数据:importdata函数
  2. Exchange EMC打开出错 解决
  3. 哨兵2号波段_艾略特波段理论分析,A50和恒指走势的蛛丝马迹,完全暴露A股主力意图!...
  4. linux脚本变量运算符,linux——Shell 脚本基础篇(变量类型,变量操作,定义,运算与逻辑关系)...
  5. Panda处理文本和时序数据?首选向量化
  6. 利用trunk实现vlan内通信_实现不同VLAN间通信——单臂路由
  7. 【VTK】VTK 之一 环境准备
  8. 杭州电子科技大学计算机非全日制,杭州电子科技大学全日制和非全日制研究生有何区别?...
  9. 小程序发布新版本后,部分用户手机白屏
  10. 基于Python的基金数据汇总分析
  11. ubuntu linux 教程 pdf,Ubuntu 12.04 菜鸟完全使用教程(四) PDF
  12. Android 系统,Wifi连接后,显示wifi已连接但无法访问网络。
  13. 保利威视频播放器功能抽取,仅作为播放课程资源使用,去除多余功能
  14. html搜索栏背景透明,Win10秘籍:让Cortana搜索框“透明”给你看
  15. ios pdf自动换行方法(解决中文乱码问题)
  16. 计算机与材料科学的关系,计算机在材料科学与工程中的运用.ppt
  17. 【Web技术】1488- 大多数人都会遇到的几个H5坑(实战)
  18. 室友一把王者的时间我拿捏了数据结构——顺序表(C语言版)
  19. acca专用计算机,计算机专业是什么?可以报ACCA吗?
  20. 基于python-opencv和PIL的截取视频区域生成 GIF 动图

热门文章

  1. IntelliJ IDEA多屏后窗口不显示问题解决(用工具一键解决)
  2. Python3:递归实现输出目录下所有的文件
  3. MapReduce分布式编程框架
  4. 【树链剖分/倍增模板】【洛谷】3398:仓鼠找sugar
  5. 现在生活好累啊。。。
  6. R语言实现常用的5种分析方法(主成分+因子+多维标度+判别+聚类
  7. android photopicker怎么修改状态栏,一个非常好看的图片选择框架LPhotoPicker,确定不来看看么...
  8. 分段锁——ConcurrentHashMap
  9. grails 私有库相关设置
  10. C#中IL反汇编工具的使用 其具体含义如下文