在人们考虑大数据时,人们留意到了“大”这一个字,可是在投建基础架构时,人们还应当留意“分布式”。

实际上,大数据的应用程序需要处理大量信息,并且在出自弹性的考虑将数据拷贝到多个部位时,信息的规模变得越来越大。可是,大数据的最关键属性并非在于它的规模,而在于它将大作业切分成很多小作业的能力,它才能将解决一两个任务的资源细化到好几个位置变成并行处理。

在将大规模和分布式架构组合合为一体时,人们就能发觉大数据网络有一组独特的需求。下边是需要考量的五个层面:

1.网络弹性与大数据的应用程序

假如有一组分布式资源必需通过互联网络开展协调时,可用性就显得尤为重要。假如互联网出现故障,那样导致的不良影响是出现不持续的坏计算资源与数据集。

精确地说,大部分网络结构和工程师的首要侧重点是正常运作时间。可是,网络问题时间的根本原因又不尽相同。他们或者来源于于各个领域,包含机械故障(硬件与软件)、维系和人为错误。故障是无法避免的。尽管网络的高度可用性也很关键,可是想要设计极致可用性是不可能的。

网络架构师不能用故障来躲避目的,而应当设计某些能适应故障的弹性网络。网络的弹性在于路径多样性(资源之间设置多条路径)和故障转移(可以迅速察觉问题和迁移到其他路径上)。除开传统的平均故障时间间隔(MTBF)方法,大数据网络的真正设计标准必须要包括这些性能。

2.处理大数据的应用中的网络拥塞问题

大数据的应用程序不但是规模大,并且也有一种我称之为突发性的特性。当一个作业启动之后,数据就开始调拨。在高流量时间段里,拥塞是一个严重的问题。殊不知,拥塞将会造成更多的队列时间延迟和丢包率。除此之外,拥塞还将会触发重转,这可能让实际上负荷艰巨的互联网没法承受。因而,网络架构设计时应当尽可能减少拥塞点。按照可用性的设计标准,降低拥塞要求网络具有较高的路径多样性,这样才能容许网络将流量分离到很多不一的路径上。

3.大数据中网络一致性要比迟延性更关键

事实上,大部分大数据应用程序对网络延迟不太敏感。假如计算时间的数量级为几秒钟或几分钟,那样即便网络上出现较大延时也是无所谓的——数量级大约为几千毫秒。殊不知,大数据应用程序通常具备较高的同步性。这代表着作业是并行执行的,而各个作业之间较大的性能差异或者会引起程序运行的故障。为此,网络不但要足够高效,并且要在时间与空间上具备相同的性能。

4.目前就要准备大数据将来的可伸缩性

或者令人有点意外的是,大部分大数据集群事实上并不大。或者说,即便每台服务器配置双向冗余,适用全部集群也只需要四个接入交换机(假定是分別有72个10GbE浏览端口的Broadcom交换机)。

可伸缩性并非在于现如今集群目前有多规模性,而是说怎样均衡地拓展支持将来的部署规模。假如基础架构设计目前只合适小规模部署,那样这个架构将怎样随之节点数目的增多而持续进化?在未来某一个时刻,它是不是需要完全重新设计架构?这个架构是不是必须某些短程数据和数据位置信息?重要是要记住,可伸缩性并非取决于绝对规模,而是更关注于实现足够规模解决方案的路径。

5.利用网络分割来处理大数据

网络分割是创建大数据环境的关键条件。在非常简单的形式上,分割将会暗示着要将大数据流量与其余网络流量分离,这样应用程序形成的突发流量才不易影响别的核心任务工作负荷。此外,人们还需要解决运行多个作业的多个租户,以考虑性能、合规性和/或审计的需求。这些工作要求在一些场合中实现网络负荷的逻辑分离,某些场所则还要实现它们的物理分离。架构师必须同时在两个层面上开展规划,可是原始需求最好统一在一起。

构建大数据网络 需要重视这五个地方相关推荐

  1. 国家网络安全工程师、大数据网络运维工程师就业前景好

    国家网络安全工程师.大数据网络运维工程师就业前景怎么样?相信这是很多年轻人的担忧之处,有的人甚至会想到自己辛苦学习最后找不到好的就业单位将会是一种损失.接下来小编就带您探究这两个行业的就业前景究竟如何 ...

  2. 从0到1构建大数据生态系列1:数据蛮荒中的拓荒之举

    缘起 我们都知道,当前大数据的需求基本属于遍地开花.无论是帝都.魔都,还是广州.深圳,亦或是全国其他各地,都在搞大数据:不管是不到百人的微小公司,还是几百上千人的中型公司,亦或是上万的大型公司,都在需 ...

  3. EMR on ACK 全新发布,助力企业高效构建大数据平台

    简介: 阿里云 EMR on ACK 为用户提供了全新的构建大数据平台的方式,用户可以将开源大数据服务部署在阿里云容器服务(ACK)上.利用 ACK 在服务部署和对高性能可伸缩的容器应用管理的能力优势 ...

  4. 大数据架构和模式(五):利用大数据识别保险行业中的欺诈业务案例

    大数据架构和模式(五):利用大数据识别保险行业中的欺诈业务案例 [复制链接]     pig2 1232 主题 2069 帖子 1万 积分 超级版主 积分 11358 收听TA 发消息 电梯直达 楼主 ...

  5. 数字孪生政务丨构建大数据可视化展现平台,提高行政服务效能

    "全面推进政府履职和政务运行数字化转型,统筹推进各行业各领域政务应用系统集约建设.互联互通.协同联动,创新行政管理和服务方式,全面提升政府履职效能."--<国务院关于加强数字 ...

  6. 从BAT看企业构建大数据体系的六层级

    文章讲的是从BAT看企业构建大数据体系的六层级,本文将企业大数据体系的构建分为六个层级,但并非是线性过程,每个层级之间或有基础关系,但并不是说一定要逐层构建.例如创业型公司,在缺乏数据研发实力的时候, ...

  7. 打怪升级之小白的大数据之旅(二十五)<Java面向对象进阶之IO流三 其他常见流>

    打怪升级之小白的大数据之旅(二十五) Java面向对象进阶之IO流三 其他常见流 上次回顾 上一章,我们学习了常用的字节流与字符流,本章,我会将其他的一些常见的流进行分享,IO流很多,我介绍不完,就挑 ...

  8. 国家级大数据网络加速实验室落户迅雷

    11月12日 日前,国家发改委正式批复,大数据网络加速技术国家地方联合工程实验室落户迅雷.据了解,该实验室是在大数据加速领域唯一的国家级工程实验室.这意味着,迅雷在大数据网络加速技术领域达到了行业领先 ...

  9. 熊啸锋:什么是大数据网络营销,它的好处和原理以及实战运用

    ​现如今,大数据已经不是一个新鲜事物了,而且已经应用到了我们生活的方方面面,你的个人数据,你的购物数据,你的生活和工作等,都已经被大数据记录了下来. 本文主要分享以下几部分内容 一.什么是大数据网络营 ...

最新文章

  1. 一次挂死(hang)的处理过程及经验
  2. 小白学习python好还是java好_小白应该学Python还是Java?
  3. Python 学习笔记之字典(进阶篇)
  4. java startswith忽略大小写_Java String startsWith()方法与示例
  5. 专为Android加载图片Fresco:详细图解SimpleDraweeView加载图片基础
  6. SAP转储订单(STO)
  7. 客户挽留:信用卡客户流失管理
  8. 前端学习(3104):react-hello-react案例
  9. wdcp找回mysql密码_wdcp忘记后台admin密码,重置MYSQL ROOT密码
  10. Nginx应用场景之反向代理
  11. python opencv 找到圆点标定板所有点后通过距离找两个角点4
  12. MFC用户界面设计 一
  13. 百度地图API秘钥问题
  14. 【EntityFramework CodeFirst 】错误解析:LINQ to Entities does not recognize the method ToString
  15. java 实现 指派_Activiti 开发案例之动态指派任务
  16. 虚拟摄像头之三: 重构android8.1 的 v4l2_camera_HAL 支持虚拟摄像头
  17. 银行也想拥抱区块链,但发现实在太难了
  18. python 培训基础
  19. gaussdb 优化建议
  20. Web全栈开发学习笔记—Part2 与服务端通信—d.在服务端将数据Alert出来

热门文章

  1. mysql or 短路_MySQL是否使IF()函数短路?
  2. jpush推送格式 swift_Swift - JPush极光推送的使用6(定时推送通知)
  3. Maven使用注解配置SQL映射器(@Results,@ResultMap)
  4. java 改变文件路径_在C#中改变文件路径
  5. 20201221:力扣220场周赛题解
  6. mysql怎么用sb文件_初识mysql数据库
  7. c2665 “initgraph”: 2 个重载中没有一个可以转换所有参数类型_一个使用延迟候选项生成的用于自动化程序修复方法的工具...
  8. xgboost算法_xgboost算法过程推导
  9. ueditor 覆盖下拉框问题解决
  10. 程序员高效技巧系列 -- 完全脱离鼠标的终端