大数据平台主要是解决对海量多样化的数据源进行数据采集、数据存储,数据分析和数据处理,并提供满足日渐增长的扩展性要求。大数据平台的应用场景,大致可分为如下几个:

  场景一:舆情分析

  有的客户需要做舆情分析,要求所有数据存放若干年,舆情数据每日数据量可能超百万,年数据量可达到几十亿的数据。而且爬虫爬过来的数据是舆情,通过大数据技术进行分词之后得到的可能是大段的网友评论,客户往往要求对舆情进行查询,做全文本搜索,并要求响应时间控制在秒级。爬虫将数据爬到大数据平台的Kafka里,在里面做流处理,去重去噪做语音分析,写到ElasticSearch里。大数据的一个特点是多数据源,大数据平台能根据不同的场景选择不同的数据源。

  场景二:商业智能应用

  BI产品主要针对数据集进行的数据分析以聚合运算为主,比如求合、求平均数、求同比、求环比、求其他的平方差或之类的标准方差。大数据平台既能满足大数据量的水平可伸缩,又能满足高性能的聚合运算。同时平台提供高效的列式存储,可以有效满足商业问题分析需求。

  场景三:企业级大数据平台:

  从业务的角度看,细分为查询检索、数据挖掘、统计分析、深度分析,其中深度分析分为机器学习和神经网络。

  从技术的角度看,细分为Batch、SQL、流式处理、machine learning、Deep learning。

  企业的数据一部分来自于本身的业务数据,比如:MySQL、oracle等,还有一部分是大量的事件。数据源不同,处理的方式也不一样。传统的技术手段很难全面覆盖。采用大数据实时分析平台,那么,基于日志数据源,就用事件写入kafka;如果是针对MySQL、oracle等传统rdbms,就用Sqoop,写入HDFS里,并建立Hive的集群。还可以存一份数据在云端。有一部分业务就是对数据合并后放入HDFS做大量的业务查询和业务统计。这时希望用SQL的方式进行查询,会有很多选项,它选择的是大数据平台的Impala等。还有一些流式处理或机器学习可以用到大数据平台的Spark。

  从场景的角度出发,分析了倒推,用什么样的数据源,采用什么样的采集方法,什么样的存储方式,能够满足离线、内存、实时、流的各种模型,可以从图中得到解决方案。

大数据实时分析平台应用在哪些场景相关推荐

  1. 拥有一亿会员的爱奇艺如何搭建大数据实时分析平台

    生活在信息爆炸时代的我们越来越清晰的认识到海量信息与数据分析的重要性,如提高数据挖掘能力.为运营决策提供关键数据.通过数据分析助力业务创新.在商业决策中的提供较有价值的信息等成为关键,于是大数据分析平 ...

  2. 如何设计一个大数据实时分析平台

    大数据实时分析平台(以下简称PB-S),旨在提供数据端到端实时处理能力(毫秒级/秒级/分钟级延迟),可以对接多数据源进行实时数据抽取,可以为多数据应用场景提供实时数据消费.作为现代数仓的一部分,PB- ...

  3. 爱奇艺大数据实时分析平台的建设与实践

    0 导语 生活在信息爆炸时代的我们越来越清晰的认识到海量信息与数据分析的重要性,如提高数据挖掘能力.为运营决策提供关键数据.通过数据分析助力业务创新.在商业决策中的提供较有价值的信息等成为关键,于是大 ...

  4. 银行大数据风控平台的建设要点与应用

    金融行业是经营风险的行业,风险控制能力是金融机构的核心竞争力.通常而言,金融机构一般是通过给客户的信用状况评分来计量贷款违约的可能性,并通过客户的风险水平进行利率定价. 而传统的信用测算主要是利用历史 ...

  5. clickhouse大数据分析技术与实战_比Hive快500倍!大数据实时分析领域的黑马

    戳蓝字"小强的进阶之路"关注我们哦! 大数据实时分析领域的黑马是ClickHouse一个用于联机分析(OLAP)的列式数据库管理系统(DBMS). clickhouse背景 俄罗斯 ...

  6. 比 Hive 快 500 倍!大数据实时分析领域的黑马

    作者 | 朱凯 开源技术早已成为整个软件行业的基石和创新来源.开源技术的普惠性,有效降低了技术落地的门槛.ClickHouse 正是一款在大数据实时分析领域为大数据 OLAP 而生的优秀开源软件. 由 ...

  7. 海关外贸企业大数据风控平台产品应用

    海关外贸企业大数据风控平台根据获取实时数据,实现对外贸企业实时动态分析,通过迁移学习.机器深度学习方法,对客户360度画像,分析客户行为习惯,从而实现客户精准营销应用,智能推送优质客户资源,严格控制风 ...

  8. 国内物联网平台(7):Ablecloud物联网自助开发和大数据云平台

    国内物联网平台(7) --Ablecloud物联网自助开发和大数据云平台 马智 平台定位 面向IoT硬件厂商,提供设备联网与管理.远程查看控制.定制化云端功能开发.海量硬件数据存储与分析等基础设施,加 ...

  9. 11万字数字政府智慧政务大数据建设平台(大数据底座、数据治理)

    本资料来源公开网络,仅供个人学习,请勿商用,如有侵权请联系删除. 部分资料内容: 一.1.1 数据采集子系统 数据采集需要实现对全区各委办单位的数据采集功能,包括离线采集.准实时采集和实时采集的采集方 ...

最新文章

  1. [svc]caffe安装笔记-显卡购买
  2. 电量模块MODBUS RTU寄存器解读
  3. VC6.0 DLL项目与WINDOWS项目的转换
  4. KAFKA介绍(分布式架构)
  5. Linux(Ubuntu)设置系统时区
  6. 49 张图详解 WiFi 的 26 个知识点
  7. PC浏览器播放HLS协议的视频
  8. matlab 此上下文中不允许出现函数定义
  9. 从祖师级到新生代,48位开发者的「武功秘籍」
  10. 用Python给喜欢的女孩写一个办公小工具,她说棒极了
  11. oppo X907刷机包 COLOROS 1.0 正式版发布 安卓4.2.2
  12. 将csv格式转换为excel后缀为xlsx
  13. 重磅出炉!中国高校人工智能专业综合排名榜单
  14. Code: 516. DB::Exception: Received from localhost:9000. failed: password is incorrect or there is no
  15. 回忆高中数学--概述“奇变偶不变,符号看象限”
  16. 高等学校学生公寓消防安全设计及管理设计要点
  17. shopify 二次开发 如何创建定制产品,如何让用户写入定制内容
  18. 解决共享打印机引起0x000006d9故障
  19. Cocos系列视频教程
  20. JS中showModalDialog 详细使用

热门文章

  1. 文本文件的输入输出流(这里的重点在于字符集问题)
  2. 【声波传钱】支付宝新功能 “声波支付” 自动售货机已投入试运
  3. 树莓派4B设置双网卡静态IP、网卡优先级、查看系统多少位
  4. latex中的对号和错号
  5. MySql 建表出现的问题:[ERR] 1064 - You have an error in your SQL syntax; check the manual..........
  6. 大数据笔记(二十一)——NoSQL数据库之Redis
  7. 指针数组vs数组指针 指针函数vs函数指针
  8. 一些值得借鉴的处事、励志语句
  9. 新东方年会节目员工吐槽公司问题 俞敏洪:奖励12万
  10. Tomcat学习--源码导入和运行