文章目录

  • 一、引言
    • 1.1 目的
    • 1.2 项目信息
    • 1.3 缩写说明
    • 1.4 术语定义
    • 1.5 参考资料
  • 二、舆情分析系统概述
    • 2.1 舆情分析系统介绍
    • 2.2 舆情分析系统价值主张与愿景
    • 2.3 舆情分析系统功能架构
    • 2.4 系统数据描述
  • 三、功能性需求
    • 3.1 舆情首页需求
      • 3.1.1 领域舆情热度
      • 3.1.2 领域舆情热度时间变化
      • 3.1.3 地域舆情分布
    • 3.2 舆情搜索页需求
      • 3.2.1 舆情事件搜索
    • 3.3 舆情预警页需求
      • 3.3.1 事件负面评论预警列表
      • 3.3.2 事件情感占比排名
      • 3.3.3 事件热度增长列表
      • 3.3.4 事件热度增长排名
    • 3.4 舆情事件总览页需求
      • 3.4.1 事件关键词词云
      • 3.4.2 事件传播趋势
      • 3.4.3 时间核心传播人
      • 3.4.4 时间关注度增长趋势
    • 3.5 舆情事件文章页需求
      • 3.5.1 事件文章排名
      • 3.5.2 事件文章地域分布
      • 3.5.3 事件热度TopN文章
      • 3.5.4 事件文章时间线列表
    • 3.6 舆情事件评论页需求
      • 3.6.1 事件评论关键词词云
      • 3.6.2 事件评论情感走势
      • 3.6.3 事件评论者性别占比分析
      • 3.6.4 事件高赞评论
      • 3.6.5 事件高回复评论
    • 3.7 管理员页需求
      • 3.7.1 爬虫参数配置
      • 3.7.2 TopN参数配置
      • 3.7.3 事件负面评论占比预警阈值配置
      • 3.7.4 系统日志页
  • 4. 非功能性需求
    • 4.1 可交互性
    • 4.2 可维护性与可扩展性
    • 4.3 可适应性
    • 4.4 响应性
    • 4.5 可靠性
    • 4.6 安全性

一、引言

1.1 目的

  编写此文档的目的是确认舆情分析系统的需求及系统边界,指导系统的设计。

1.2 项目信息

  • 项目名称:舆情分析系统
  • 项目提出者:指导教师
  • 开发者:东北大学软件学院大数据班T09实训项目组(lzf、lcx)
  • 用户:舆情分析员、系统管理员

1.3 缩写说明

1.4 术语定义

1.5 参考资料

  • 新浪舆情通:https://yqt.mdata.net/

二、舆情分析系统概述

2.1 舆情分析系统介绍

  我们的舆情分析系统主要包括舆情总缆分析、舆情搜索、文章分析、文章评论分析、事件舆情分析、事件舆情预警六大功能模块以及管理员系统配置模块。针对舆情总览分析、舆情搜索、文章分析、文章评论分析、事件舆情分析、事件舆情预警我们的分析数据来源于多个网站关于某一事件的报道文章的爬取,如微博、今日头条、知乎等,但主要集中于微博。管理员配置模块配置的是爬虫的爬虫间隔、舆情事件的展示参数以及系统日志查看。

2.2 舆情分析系统价值主张与愿景

  不论是热点新闻还是娱乐八卦,传播速度远超我们的想象。可以在短短数分钟内,有数万计转发,数百万的阅读。如此海量的信息可以得到爆炸式的传播,如何能够实时的把握民情并作出对应的处理对很多企业来说都是至关重要的。我们的舆情分析系统的目的是通过大数据技术实时获取民众舆论并分析舆论变化情况,同时能够提供舆情预警使得可以引导舆情向好的方向发展。

2.3 舆情分析系统功能架构

  下图为舆情分析系统整体功能架构图:

2.4 系统数据描述

  系统的数据来源于微博博文与今日头条新闻文章舆情数据的实时爬取,爬取的数据包括文章内容、文章作者、文章点赞量、文章评论量、文章转发量、文章时间、文章评论、文章评论对应的评论者性别、文章评论的点赞量、文章评论的回复量等。
爬虫爬取到的数据为JSON串(表示的是文章对象),文章对象的属性及其说明如下:

  • field

    • 文章所属领域
  • user_name
    • 用户名(即文章作者名)
  • user_id
    • 用户ID(即文章作者ID),文章作者为某一事件的传播人
  • user_type
    -用户类型(即作者类型)
  • gender
    • 作者性别
  • location
    • 作者地域,由于或取不到文章发表时的IP,采用文章作者的地域作为文章发表时的地址
  • fans_count
    • 作者粉丝数
  • blog_id
    • 文章(如博客等)ID
  • create_date
    • 创建时间,即文章时间
  • text
    • 文章内容(文章文本)
  • attitudes_count
    • 文章点赞量
  • comments_count
    • 文章评论量
  • reports_count
    • 文章转发量
  • get_time
    • 文章爬取时间
  • comments
    • 文章的各个评论组成的JSON数组,数组的元素为JSON字符串(表示的是评论对象)

  评论对象的属性及其说明如下表所示:

  • comment_id

    • 评论ID
  • commenter_id
    • 评论者ID
  • commenter_name
    • 评论者名称
  • commenter_gender
    • 评论者性别
  • comment_text
    • 评论文本
  • comment_reply
    • 评论回复量
  • comment_like
    • 评论点赞量

三、功能性需求

  系统用户中舆情观察分析员与系统管理员的用例图为:

3.1 舆情首页需求

3.1.1 领域舆情热度

  用表格展示不同领域下近七天事件的热度排名,表格展示的字段有事件名称,时间热度,事件类型,热度排名,点击事件名称可跳转到对于事件的详情页。

3.1.2 领域舆情热度时间变化

  用折线图展示不同领域最近七天的舆情热度变化。

3.1.3 地域舆情分布

  用热度地图展示中国范围内所有舆情文章的地域数量分布情况。

3.2 舆情搜索页需求

3.2.1 舆情事件搜索

  提供搜索框,输入事件关键词,将对应的事件名称,事件热度,事件类型用表格的显示展示在搜索框下,点击事件名称可跳转到对应事件详情页。

3.3 舆情预警页需求

3.3.1 事件负面评论预警列表

  用表格展示近七天内事件负面评论占比大于预警阈值的事件,表格包括事件名称,事件负面评论占比,负面舆论环比增长率(由最近一天的数据和前一天的数据计算而来),表格可根据事件负面评论占比和环比增长率进行排序,其中正增长用红色字体和增长箭头标识,负增长由绿色字体和下降箭头标识,点击事件名称可跳转至对应事件详情页。

3.3.2 事件情感占比排名

  用饼图展示事件负面评论占比排名 TopN 的事件,以及展示事件负面评论环比增长排名 TopN 的事件。

3.3.3 事件热度增长列表

  用表格展示近七天事件的热度增长率,表格字段有事件名称、时间热度、增长率,其中正增长用红色字体和增长箭头标识,负增长由绿色字体和下降箭头标识,点击事件名称可跳转至对应事件详情页。

3.3.4 事件热度增长排名

  用柱形图标识事件增长率排名靠前的事件,包括事件名称和事件热度增长率。

3.4 舆情事件总览页需求

3.4.1 事件关键词词云

  用词云图展示事件关键词。

3.4.2 事件传播趋势

  用折线图展示事件关注度走势和事件信息量走势,关注度是事件所有文章阅读量(由于无法爬取到阅读量,采用点赞量代替)之和,信息量事件所有文章的数量。

3.4.3 时间核心传播人

  用饼图展示事件核心传播人占比,可设置展示媒体或网民,展示的数据主要有传播人名称和传播量,传播量指文章的转发量。

3.4.4 时间关注度增长趋势

  用折线面积图展示事件关注度环比增长率随时间的变化曲线。

3.5 舆情事件文章页需求

3.5.1 事件文章排名

  用柱状图展示相关事件文章排名,横坐标是文章作者的名称,纵坐标数据可由按钮切换成点赞数,转发数,评论数。

3.5.2 事件文章地域分布

  用地图展示事件文章发表的地域分布(关于某事件的所有文章在全国的数量分布)。

3.5.3 事件热度TopN文章

  卡片展示热度排名TopN文章的具体内容,作者名称,文章热度,可用走马灯组件进行切换展示。

3.5.4 事件文章时间线列表

  用时间线按时间展示当前事件文章的发表,展示字段文章时间,文章作者,文章内容。

3.6 舆情事件评论页需求


3.6.1 事件评论关键词词云

  用词云图展示当前事件下所用评论的关键词。

3.6.2 事件评论情感走势

  折线图展示当前事件下所有评论的情感趋势变化,图像中标识出最大值和最小值,横坐标为事件,纵坐标分别为负面评论和正面评论的占比,点击折现右边显示当前横坐标时间之前的所有评论,按照正面,负面,中立进行分类。

3.6.3 事件评论者性别占比分析

  用饼状图展示当前事件下评论者的性别占比。

3.6.4 事件高赞评论

  饼图展示当前事件下的高赞评论。

3.6.5 事件高回复评论

  饼图展示当前事件下的高回复评论。

3.7 管理员页需求

3.7.1 爬虫参数配置

  设置爬虫爬取事件间隔。

3.7.2 TopN参数配置

  设置文章排名、文章热度排名、事件高赞与高回复评论排名。

3.7.3 事件负面评论占比预警阈值配置

  在事件负面评论占比输入框内输入事件负面评论占比阈值,点击设置事件负面评论占比预警阈值。

3.7.4 系统日志页

  按时间线显示系统操作的记录。

4. 非功能性需求

4.1 可交互性

  系统的人机交互符合人的认知心理学基本原理,并且需要降低系统工作人员的学习成本,必要的话还要提供系统使用的帮助文档。

4.2 可维护性与可扩展性

  系统基于大数据生态组件构建,鉴于大数据组件的横向扩展能力,系统的可扩展性有一定保证。系统代码的开发需要满足代码开发规范,需要做好充分的注释、注意代码的可复用性、注意功能模块之间解耦能力,使得系统能够以较低成本进行二次开发、进行功能扩展、进行系统维护。

4.3 可适应性

  网页需要支持可视化图表在主流浏览器的正常加载显示,以及在浏览器窗口大小变化时它们也能够适应窗口大小正常加载显示。

4.4 响应性

  在网络正常的情况下用户点击网页后页面的跳转时间<=3s;若页面的数据量较大而导致的页面加载时间长的话,页面必须提供网页加载提示。

4.5 可靠性

  在系统发生故障后,需要保证系统可以在较短时间内重建其性能水平并恢复直接受影响数据的能力,并且使系统故障率保持在一定的水平下。

4.6 安全性

  系统需要保证数据的安全,防止数据的泄漏等。

基于 Flink、ClickHouse 的舆情分析系统:需求规格说明书与需求界面相关推荐

  1. 基于 Flink、ClickHouse 的舆情分析系统:项目展示与 Git 地址

    一.基于 Flink.ClickHouse 的舆情分析系统 基于Flink.ClickHouse.ElasticSearch 的舆情分析系统 二.Git Code https://github.com ...

  2. 数据查询和业务流分开_基于大数据的舆情分析系统架构 - 架构篇

    前言 互联网的飞速发展促进了很多新媒体的发展,不论是知名的大V,明星还是围观群众都可以通过手机在微博,朋友圈或者点评网站上发表状态,分享自己的所见所想,使得"人人都有了麦克风".不 ...

  3. 基于大数据的舆情分析系统架构

    前言 互联网的飞速发展促进了很多新媒体的发展,不论是知名的大V,明星还是围观群众都可以通过手机在微博,朋友圈或者点评网站上发表状态,分享自己的所见所想,使得"人人都有了麦克风".不 ...

  4. 软件测试(测试用例、配置管理、bug、软件需求规格说明书、需求)

    什么是软件测试 软件测试是不是就是找bug? 软件测试就是证明软件不存在错误的过程. 软件测试就是为了证明程序能够正确运行. 测试与调试的区别: 目的不同. 测试的任务是发现程序中的缺陷. 调试的任务 ...

  5. 基于Flink的实时日志分析系统实践

    前言 目前业界基于 Hadoop 技术栈的底层计算平台越发稳定成熟,计算能力不再成为主要瓶颈. 多样化的数据.复杂的业务分析需求.系统稳定性.数据可靠性, 这些软性要求, 逐渐成为日志分析系统面对的主 ...

  6. 项目、系统开发中的需求分析说明书和需求规格说明书的区别

    项目组成员在针对要开发的系统做需求调研后,就要编写对应的需求说明书. 作为软件工程师,你就得知道需求分析说明书和需求规格说明书的区别,以期在正确的时候编写正确的需求文档. 两者有何不同: (1)面向对 ...

  7. 团队项目第二周 - 需求规格说明书 - 天冷记得穿秋裤队

    团队项目第二周 - 需求规格说明书 - 天冷记得穿秋裤队 队员姓名 学号 陈俊旭(组长) 3116004630 夏瓦克提·木合塔尔 3116004658 张婷(副组长) 3216004672 周方源 ...

  8. 一份合格的软件需求规格说明书的要求

    合格的软件需求规格说明书 软件需求规格说明作为产品需求的最终成果必须具有综合性:必须包括所有的需求.开发者和客户不能作任何假设.如果任何所期望的功能或非功能需求未写入软件需求规格说明那么它将不能作为协 ...

  9. 用户需求说明书与需求规格说明书区别

    1.用户需求说明书是用户的需求,需要和用户确认的.需求规格说明书是系统需求主要是对内的.需求管理的时候也需要用到用户需求. 2.  优点:用户的语言与设计人员的语言是不同的,所以需要有面向不同人员的文 ...

  10. 基于实时计算(flink)打造舆情分析平台——新华智云

    案例与解决方案汇总页: 阿里云实时计算产品案例&解决方案汇总 产品介绍 新华智云是一家致力于通过大数据技术驱动媒体变革的公司,数芯是新华智云推出的实时舆情分析平台,旨在满足用户一系列舆情分析需 ...

最新文章

  1. python【力扣LeetCode算法题库】14-最长公共前缀(列表解压)
  2. python大学课程-大学只安排了C和Python课程,是否有必要学习一下Java
  3. golang协程特点
  4. ABAP和Java里的单例模式攻击
  5. java线程三部分_java 多线程三
  6. 2021-07-05-日历
  7. php使用模版开发的实例,PHP-Web应用程序开发:使用模板_php
  8. 《Java8实战》-第十章笔记(用Optional取代null)
  9. win11如何下载游戏版 Windows11下载游戏版的步骤方法
  10. 【图像去噪】基于matlab GUI多种滤波器图像去噪【含Matlab源码 1778期】
  11. python3的spyder安装_Python开发环境Spyder安装教程
  12. C语言pow 函数的总结:
  13. 寒假第一周 总结与反思
  14. Unity项目优化——Web版
  15. 最合理的关键词密度是多少?
  16. 文案类网页没有投诉按钮,屏蔽微信投诉按钮
  17. 面向对象思想----不看后悔!
  18. Verilog语言基础语法
  19. 基于JSP+SSH的在线租车汽车租赁系统
  20. 渗透测试的灵魂:信息收集

热门文章

  1. 某高校校园网的规划与设计(课程设计)
  2. 使用Eclipse Babel语言包汉化eclipse
  3. diff git 代码实现_Git比对文件之间的差异
  4. 几种常见的文献管理软件
  5. CentOS 7:安装网易云音乐
  6. 东芝2000ac废粉盒怎么二次利用_阜新降级组件回收厂家,废太阳能板回收_振昌_光伏...
  7. java quic kcptun_Server-网络加速Kcptun
  8. Linux下Intel网卡固件烧写工具
  9. 计算机专业笔记本需要小键盘吗,笔记本小键盘数字键不能用 并点击解除锁定...
  10. 凹凸性和Jensen不等式