案例与解决方案汇总页:
阿里云实时计算产品案例&解决方案汇总

产品介绍

新华智云是一家致力于通过大数据技术驱动媒体变革的公司,数芯是新华智云推出的实时舆情分析平台,旨在满足用户一系列舆情分析需求。包括:对事件、新闻、媒体、人物、地域、机构、行业,甚至关键词、热门话题等的抓取、识别、聚合、热度分析以及可视化展示等。

  • 总览
  • 事件跟踪

系统设计

网络舆情是社会舆论的一种表现形式,通俗的说是人们通过网络表达对某些社会事件的看法和态度。网络舆情以事件为载体,以事件为核心,是广大网民情感、态度、观点的表达、传播、互动以及后续影响力的总和。

一个舆情分析分析系统,主要解决的问题包括:发现事件、跟踪事件、发掘观点、评估影响力等。

  • 系统挑战

    • 舆情分析系统需要对接多个上下游

      • 数据上游:爬虫数据和采购数据。爬虫采集不同数据结构类型的平台数据。
      • 数据下游:写入不同的存储系统。如统计结果写入RDS,清洗后数据写到OTS中,文章存储到ES中做索引等等。

      如果设计不合理,多上下游将会极大影响系统复杂度。

    • 数据处理过程包括数据清洗和数据统计
      • 清洗过程既有基于规则的信息抽取,又有基于算法的实体识别。
      • 统计过程需要先把数据结构化拼装,然后按照各种维度进行灵活的统计。
    • 具有自我迭代的能力

      设计良好的舆情分析系统应该具有自我迭代的能力,能够根据历史数据进行优化,不断提供系统效能。

  • 系统架构

    大数据舆情分析系统架构图如下。

    • 舆情规划是整个系统的控制器,控制着舆情发现的目标、信息源等;
    • 信息获取是舆情分析的基础,能够快速、准确的获取足量信息是系统成功的前提;
    • 信息处理与算法部分是舆情分析的关键,担负着把原始数据加工成信息与知识的重任,并且对归档后的数据进一步分析能够发现系统问题、发现新的事件和新的模型,能够进一步提升系统效果;
    • 最终的信息要服务的形式的暴露出来,为人所用;
  • 信息处理
    数芯平台的信息处理部分如下图所示。 
    • 数据来源(注:数据采集成功后统一发布到DataHub中)

      • 爬虫:实时的去各大网站、微博、微信等内容平台抓取数据。
      • 从其他机构采集数据。
    • 数据处理

      实时计算订阅DataHub然后进行数据处理。数据处理包括两个重要的部分:实时数据流和算法服务API。

      • 实时数据流

        通过实时计算串起整个实时数据流,总体包括对数据进行清洗、提取目标,整理成结构化的数据,然后按照所需维度对结构化的数据进行聚合。并且要把原始数据、结构化的数据、汇总的结果都发布到下游存储系统中。

        • 数据清洗:对爬虫抓取的数据进行清洗,比如垃圾过滤、文本去重等。这一步通过实时计算提供的UDX(自定义函数)来调用算法服务API来完成;
        • 目标提取:从已经完成清洗的数据中抽取出感兴趣的目标,比如抽取实体(人物、地点、事件等),对内容的情感评分,抽取文章关键词等,这一步的目标是从非结构化的文本中抽取结构化的信息;
        • 结果聚合:对已经结构化的数据按维度聚合,比如某事件的按天计数,某新闻的传播热度等。最终把这些聚合信息联合原始信息分别写到下游存储中去。
      • 算法服务API

        预先训练好模型,把垃圾过滤、文本去重、实体提取、情感打分、关键词提取等暴露成API服务,供实时计算调用。

    • 数据存储与服务

      RDS保存聚合数据,OTS保存原始新闻,ES对新闻建立索引,提供搜索服务,这三个数据存储直接为最终产品服务。

总结

数芯之前数据处理部分使用的是自建的spark,需要自行运维和对接各种上下游系统,迁移到了阿里云实时计算平台,整体收益包括:

  • 运维成本:免运维,阿里云提供高保障。
  • 对接上下游:直接注册,免开发。
  • 开发成本:SQL开发,效率高,门槛低。
  • 数据流:一个产品串起整个数据流,ETL用UDX,统计用SQL。
从更高的维度上看,这个案例属于实时ETL场景,实时ETL的目标把数据从a投递到b,中间进行清洗、格式转化、信息抽取等。如果对吞吐、实时性有一定要求,可以在方案阶段优先考虑实时计算产品。

注:本文部分内容来自新华智云工程师杨丛聿的分享,特此感谢。

如果您有需求,欢迎联系付空。

基于实时计算(flink)打造舆情分析平台——新华智云...相关推荐

  1. 基于实时计算(flink)打造舆情分析平台——新华智云

    案例与解决方案汇总页: 阿里云实时计算产品案例&解决方案汇总 产品介绍 新华智云是一家致力于通过大数据技术驱动媒体变革的公司,数芯是新华智云推出的实时舆情分析平台,旨在满足用户一系列舆情分析需 ...

  2. 基于实时计算Flink的机器学习算法平台及场景介绍

    作者:高旸(吾与),阿里巴巴高级技术专家 1. 前言 随着互联网"人口红利"的"消耗殆尽",基于"T+1"或者离线计算的机器学习平台及推荐系 ...

  3. 基于实时计算Flink版的场景解决方案demo

    简介:通过两个demo分享技术实时计算flink版的解决方案 本文整理自阿里云智能行业解决方案专家GIN的直播分享 直播链接:https://developer.aliyun.com/learning ...

  4. 如何使用实时计算 Flink 搞定实时数据处理难题?

    简介:如何使用实时计算 Flink 搞定实时数据处理难题?本文由阿里巴巴高级技术专家邓小勇老师分享,从实时计算的历史回顾着手,详细介绍了阿里云实时计算 Flink 的核心优势与应用场景,文章内容主要分 ...

  5. 实时计算 Flink 版总体介绍

    简介:实时计算 Flink 版(Alibaba Cloud Realtime Compute for Apache Flink,Powered by Ververica)是阿里云基于 Apache F ...

  6. 基于实时计算(Flink)与高斯模型构建实时异常检测系统

    案例与解决方案汇总页: 阿里云实时计算产品案例&解决方案汇总 1. 概述 异常检测(anomaly detection)指的是对不符合预期模式或数据集(英语:dataset)中其他项目的项目. ...

  7. Alink 是阿里巴巴基于实时计算引擎 Flink 研发的新

    0x00 摘要 Alink 是阿里巴巴基于实时计算引擎 Flink 研发的新一代机器学习算法平台,是业界首个同时支持批式算法.流式算法的机器学习平台.二分类评估是对二分类算法的预测结果进行效果评估.本 ...

  8. 实时计算 Flink 版应用场景解读

    简介:本文由阿里巴巴高级产品专家陈守元老师分享,详细讲解实时计算 Flink 的具体业务场景并分享实时计算 Flink 的相关应用案例. 作者:陈守元(巴真),阿里巴巴高级产品专家 摘要:本文由阿里巴 ...

  9. 实时计算 Flink SQL 核心功能解密

    2019独角兽企业重金招聘Python工程师标准>>> 实时计算 Flink SQL 核心功能解密 Flink SQL 是于2017年7月开始面向集团开放流计算服务的.虽然是一个非常 ...

最新文章

  1. vue php 增删改查,vue的增删改查(简单版)
  2. 内存管理中的几种地址类型
  3. Axure8.0深入一点(篇)
  4. object取值_如何重写object虚方法
  5. 【转】正则表达式简介及在C++11中的简单使用教程
  6. 【图像】imagededup照片去重(感知哈希,汉明距离)
  7. 关于 SAP Spartacus 服务器端渲染 SSR 无法使用窗口宽度以进行自适应设计的问题
  8. php5.4配置gd库,php配置GD库
  9. 0x00007FFEBAD050D8 处(位于 first.exe 中)有未经处理的异常: Microsoft C++ 异常: cv::Exception,位于内存位置 0x0000000DD73CE
  10. 中缀表达式转后缀表达式 java_中缀表达式转后缀表达式并计算结果Java实现
  11. 使用FileWriter和BufferedWriter向文本文件中写信息
  12. TOGAF 10 正式发布
  13. 关于网页消息提示音问题解决与实现
  14. objectArx ---反应器
  15. 网站SEO优化知识梳理
  16. CTF训练营学习笔记1(web)
  17. 手把手教你整合SSM实现一个简单的CRUD项目
  18. 电脑无法识别U盘的解决方式集锦_艾孜尔江撰稿
  19. 300最不常用的springboot计算机毕业设计题目汇总,总有你需要用到的
  20. 小说作者推荐:漫漫何其多合集

热门文章

  1. Sklearn机器学习中的主要算法原理以及实现
  2. 运用 Ntop 监控网络流量
  3. ARM芯片上电启动流程
  4. 主成分分析、因子分析及其有关的数学基础
  5. 你用什么软件做笔记?
  6. android 日期格式 毫秒
  7. java实习面试复盘(22年广州番禺)
  8. 索尼T700完全用机指南【转自太平洋电脑网】
  9. 数独挑战之九宫格入门第一题解题思路
  10. Windows10 LTSC 2021 开机 wsappx进程 CPU占用高