0 引言
当今社会, 互联网技术发展迅猛, 社交媒体对网络舆情传播方式产生了很大影响, 其中微信、微博、QQ群、论坛是典型的代表, 传统的舆情传播方式发生了很大变化。不容置疑, 互联网等新兴技术的出现和发展彻底改变了人们的生产生活和传统表达方式。随着移动宽带互联网的普及, 特别是未来5G技术的广泛应用, 每天都会有相当多的网络舆情数据产生并影响着人们的生活。新形势下迫切需要运用大数据技术构建网络舆情[1]监督机制, 合理引导网络舆情, 打造健康网络, 控制网络舆情, 维护社会稳定。

1 网络舆情监督机制模型设计
通过相关研究, 分析了大数据背景下网络舆情所呈现的特征规律[2], 探讨了大数据技术在网络舆情监督过程的运用, 行测了网络舆情监督概念模型, 并尝试建立网络舆情监督系统[3], 为提高舆情监督效率, 及时解决群众问题, 发挥了重要作用。

1.1 网络舆情监督过程分析
图1 网络舆情监督过程
图1 网络舆情监督过程 下载原图

基于大数据的网络舆情监督过程如下:

(1) 数据采集阶段
根据有关法律法规, 网络舆情征收部门, 组织团队制定网上舆论收集方式和手段, 确定收集的信息来源, 收集范围, 主要集中网站, 通过遍历用户关注的网站列表, 抓取网站内容, 收集网民, 教育和医疗系统, 环境污染, 重大竞争等提及的关键信息, 满足对网络舆情信息[4]的全面掌握, 并根据源文件生成下级URL列表, 并将内容捕获放入集合库中。采集要有深度和广度, 深度包括按需采集到的新闻评论、转发数、粉丝数、回帖数, 广度包括监测重点板块、监测热门重点网站、扩展舆情广度等, 来源上包括文本采集和音视频采集等。

(2) 数据分析阶段
对于收集的网络数据, 将原始数据发送到文本分析平台进行分析, 可以根据各种指标综合计算热点, 负面信息和主题分析。语义是由逐个使用规则驱动的。使用句法分析的结果作为语义分析的输入, 交叉比较一些关键词以提取可能是歌词信息的单词和事件, 将一系列结果存储到数据库中。

(3) 舆情监督阶段
根据数据的积累以及运用大数据技术对数据进行处理, 将舆情分析结果制成舆情监督产品。支持基于云平台架构的分布式部署支持大规模云监控系统, 整理舆论传播时间、传播节点, 并根据影响程度、影响范围、热点信息等级, 发生时间等因素进行综合排序。最后, 生成分析报告, 帮助相关部门掌握相关舆情信息, 控制舆情发展。

(4) 数据服务阶段
本阶段是相关部门利用分析过后的信息产品做出相关决策, 防止舆论危机的发生, 及时防止突发事件发生, 采取相应对策, 遏止不良后果的过程。

1.2 网络舆情监督机制概念模型
根据分析, 构建的网络舆情监督机制概念模型, 由以下4个模块构成, 具体内容如图2所示。

图2 网络舆情监督机制概念模型
图2 网络舆情监督机制概念模型 下载原图

解释如下:

(1) 采集模块
对于指定的网站、微博等, 根据人信息的点击次数进行排序, 保存相关内容, 记录真实IP, 并索引其他IP地址网络, 进行交叉检查。对于新闻页面, 微博微信的收集, 主要关键词内容等, 通过大数据挖掘技术和网络爬行[5]技术索引到, 不断扩展直到整个互联网。

(2) 预处理模块
在对提取的相应信息进行文本排序、整合、清理和转换之后, 将数据存储在数据库中, 确定舆情信息的类型和等级并根据等级存储关键字, 形成统一的格式化信息。

(3) 分析模块
通过提取文本摘要、聚合类似句子、分析抒情情感、排序敏感度等, 分析预处理模块所获取信息, 分析话题热度和持有的不同观点和各自比例, 确定关注度和发展趋势预测, 生成舆情事件的相关指标比例, 形成舆情分析报告。

(4) 决策支持模块
通过对网络舆情信息的监测[5]分析, 继续传播健康信息, 合理解释或引导不合理信息。提前向有关部门报告可能会引起强烈反应的不合理信息, 以便领导做出正确决策。在决策过程中, 会考虑到舆情信息的现状, 进一步完善处理舆情调整机制。

2 网络舆情监督机制模型系统实现
建立舆情事件分析模版, 搭建动态化、可视化、实时性的舆情监督平台。 主要包括:

2.1 舆情信息采集
本文基于Nutch开源框架实现信息获取。如图3所示。

Nutch有两个版本可供选择, 1.X版本内容由1.X抓取, 直接存储在HDFS文件系统中, 2.X版本需要提前部署HBase数据库[6], 并且已爬网内容存储在HBase中。考虑到版本和使用要求的不同, 本文选择NutchV2.2.1版本, 方便添加标签和读取存储内容。抓取的内容包括网站主页, 微博和论坛。主要步骤如下。

(1) 初始化抓取数据库

抓取数据库的初始化过程如下:

(2) 根据爬行数据库生成预取列表并写入相应的段;

(3) 根据预取链接获取网页文件;

(4) 解析获取的页面, 并更新数据库;

图3 采集流程图
图3 采集流程图 下载原图

(5) 重复上述步骤, 达到指定深度后停止抓取;

(6) 从爬行数据库中获取页面重要性分数, 同时更新分段;

(7) 对获取的页面进行反转处理, 建立索引数据库;

(8) 删除重复的页面并合并段中的索引;

(9) 生成最终提供系统查询的索引文件

2.2 舆情信息存储
在HBase中完成信息存储功能[7]。直接使用HBase自己的ZooKeeper模块进行分布式管理和协调。ZooKeeper是Google的Chubby一个开源的实现, 是Hadoop和Hbase的重要组件。它是一种为分布式应用程序提供一致服务的软件, 具有以下功能:配置维护, 组服务, 分布式同步, 域名服务等。

下一步需要向已爬网页面添加属性, 将Nutch标记配置为LDA特定标记, 使用LDA算法进行聚类分析, 并在HBase数据库中编写LDA标记。LDA作为一种非监督机器学习技术, 可以用来识别大规模文档集和语料库中隐含的主题信息[8]。它使用单词bag方法, 将每个文档视为单词频率向量, 可以将文本信息转换为易于建模的数字信息。

2.3 舆情信息分析和决策
根据LDA算法分析舆论信息, 这是对概率潜在语义分析 (pLSA) 的改进。在对语料库进行训练之后, pLSA模型将获得记录主题和单词的相关性的矩阵, 以及记录文档与文档主题的相关性的主题向量[9]。LDA模型基于pLSA将受试者的先验分布设置为Dirichlet分布。基于这些训练的参数, LDA可以确定新文章的新主题向量, 使得每个文档可以被映射到坐标 (主题向量) 。

使用LDA算法对新获取的页面进行聚类[10], 并根据单词在文档中出现的概率生成热词。舆情监测系统对热词数据进行分析, 生成包含热词最多的文档的报告, 并将报告读给管理人员, 使管理人员及时掌握舆情动态。管理者可以标记对舆论监督有价值的热词, 形成敏感的词汇, 选定的热词成为监控的焦点。在舆情监督系统中, 受监控的热词也被视为LDA聚类的方向并被指导形成一个主题。舆情监督系统采用主题表达方法自动生成热门话题, 并推荐给网络管理员进行审核, 形成有效, 可用的舆情监督机制。

3 总结
面对网络舆情的异常现象, 如何智能、科学地处理网络舆情, 是政府舆情决策的重要组成部分, 也是把握网络舆情演变、程度和有效性的必由之路。在此基础上, 设计了基于大数据技术的网络舆情监督机制模型, 并通过理论和实证研究验证了模型的可行性, 最后设计了网络舆情监督机制模型的系统实现。然而, 由于篇幅的限制, 本文只解决了机制和宏观异常监测的一些问题, 而复杂环境下的异常监测与预测, 需要进一步的研究。

大数据背景下网络舆情监督机制的研究(非原创)相关推荐

  1. 大数据背景下网络信息安全分析探讨

    大数据背景下网络信息安全分析探讨 刘松溢 (华北理工大学 河北省唐山市曹妃甸区华北理工大学063210) 摘要:在经济快速发展的今天,大数据技术已被广泛地运用于社会生活中,这些技术的应用给人类的生产和 ...

  2. 大数据学情分析_大数据背景下的大学生学情分析研究

    宋承云 张琼敏 石美凤 厉华杰 摘 要:"学情分析"是教学活动的基本环节,也是教学研究的基本内容.在我国大学生教育从"量"到"质"转型的背景 ...

  3. 【2016年第2期】大数据背景下的治理现代化:何以可能与何以可为(下)

    4  大数据时代治理现代化: 何以可为 大数据确实给国际治理现代化带来了诸多机遇,同时也带来了诸多挑战,比如数据暴力和数据鸿沟.数据隐私的泄漏.数据质量难以保证等.人们需要思考的是推进治理现代化应何以 ...

  4. 大数据背景下知识产权侵权行为网络异化与解决思路 —— 以著作权间接侵权为视角...

    一.大数据对知识产权的影响 (一)大数据对于知识产权的促进作用 互联网的发展壮大为智力成果的传播提供了一个全新的方式,即网络传播方式.相对于传统传播方式,网络传播方式几乎为零成本,因此,网络技术的出现 ...

  5. 【2016年第2期】大数据背景下的治理现代化:何以可能与何以可为(上)

    刘强强,石乾新 贵州大学公共管理学院,贵州 贵阳 550025 摘要:大数据是后工业社会中信息爆炸式增长和网络计算技术迅速发展的结果.大数据时代深刻地改变着现代社会的生活方式和治理理念.分析了公共治理 ...

  6. 大数据时代的网络舆情(0710)

    这本书好像没什么人评分,时隔三年,里面提到的一些观点至今适用,对于刚刚接触舆情相关知识的小白来说,该书比较友好,不会涉及繁杂公式理论,宏观上解释了网络舆情发展和规律,提供了一些思路.写这个是为了记录一 ...

  7. 学界 | 大数据背景下,景观研究怎么做?

    在这篇文章的开头,在下并不想将很多有关于大数据景观的大概念和大理论摆出来,因为并不直观也很难理解,所以,直接想给大家分享两个案例,之后我们在逐步深入说明: 巴塞罗那大时代--用展现来强化文化遗产和社会 ...

  8. 浅谈大数据背景下数据库安全保障体系

    现阶段大数据产业的快速发展创造了极大的经济效益,大数据的出现推动了社会经济发展,但是随之而来的数据库安全问题也引起了学者对大数据信息安全问题的反思.大数据时代下的信息与隐私安全问题已经成为全球性重点关 ...

  9. 【读书笔记】舆情分析浅谈:读《论新媒体发展背景下网络舆情的发展及治理》有感

    舆情分析浅谈 读<论新媒体发展背景下网络舆情的发展及治理>有感 最近读了一些有关"舆情"的论文,其中印象比较深的有一篇<论新媒体发展背景下网络舆情的发展及治理&g ...

  10. 大数据背景下的精准广告与隐私保护

    互联网已经进入到大数据时代,"数据为王"的互联网经营模式与传统数据保护的隐私权之间,或多或少存在千丝万缕的联系.大数据商业化使用中,与用户最为密切的当属精准广告的投放,即广告商.广 ...

最新文章

  1. 常用几种激活函数的总结
  2. Minor GC和Major GC和Full GC
  3. (附)python3 只需3小时带你轻松入门——python常用一般性术语或词语的简单解释
  4. 数据结构和算法(03)---栈和队列(c++)
  5. 二十六、PHP框架Laravel学习笔记——模型的一对多关联
  6. 揭秘Python并发编程——协程
  7. redis中value大小_查看redis的Value值大小
  8. python + sklearn ︱分类效果评估——acc、recall、F1、ROC、回归、距离
  9. shell 第一次练习
  10. 38.使用标签-基础表单标签
  11. 【windows】python打包后多进程引发的无限循环启动
  12. dnf时装预览怎么打开_dnf怎么查找各职业时装代码
  13. 用js判断ie版本,ie11被识别为ie7
  14. oracle恢复表的数据到某个时间点
  15. word参考文献乱码问题
  16. Javase MINA框架
  17. QThread: Destroyed while thread is still running 解决方法
  18. 微信小程序组件、路由、组件通信、侦听器
  19. 已购买阿里云CDN流量包仍旧扣费的原因及解决方法
  20. 关于网易滚动菜单视图的实现

热门文章

  1. 暂停影片剪辑_暂停声音剪辑
  2. 使用tf.image.resize() 和tf.image.resize_with_pad()调整图像大小
  3. Ambiguous mapping(模糊映射)
  4. cst自学教材_CST微波工作室入门与应用详解
  5. android 轮播图 github,Android轮播图控件的实现详解(附GitHub开源链接)
  6. 80多款装机必备软件,一次搞定
  7. pd调节规律_PID调节规律总结
  8. Flink SQL regular join 如何设置状态过期
  9. PS中套索工具的使用
  10. win10 手动设置 DNS 地址