.net实现基础的舆情监测系统思路

前段时间因公司项目需求,开发了一个比较基础的舆情监测系统,实现的主要思路如下:

  • 1数据采集
  • 2数据索引
  • 3数据分析
  • 4舆情监测平台

数据采集


数据采集主要实现对监测站点(网站、论坛、微博)数据的抓取。这部分我采用的是.net开源数据爬虫soukey,通过soukey配置监测站点及数据抓取的规则(具体配置规则可查考网上的教程或者直接看源码),soukey支持多任务多线程操作,并可把抓取的数据直接导入数据库中。导入数据库的过程,针对相同URL的网站数据进行筛选不要重复导入,建议在数据库中建个触发器过滤相同URL的数据。但需要注意的是针对微博的数据则需要对数据进行更新,因为微博除了发表内容外,还包含了转载量、点赞数、评论数这些内容是具有时效性的根据你的抓取周期,动态更新。

数据索引


通过数据采集把数据加入数据库后,要对数据进行索引,这里我使用了lucene,选择的原因:1查询效率高(如果你的项目是大数据可以考虑使用分布式lucene项目solr,如果单纯监测几百几千个站点的信息,lucene足以应付),2对中文分词的支持(盘古分词可集成进lucene),3提供的查询API种类多,可根据API实现相似文章推荐,原文追溯等功能。具体内容请参考
结合soukey周期抓取数据耗时,使用FluentScheduler(nuget可以下载,使用很简单)定时器,定个固定的时间周期,定期对数据进行索引,具体怎么建索引请参考lucene的书籍(没有.net版本的书,只有java的,但其实是一样的,.net的lucene.dll就是照着java版写的)

数据分析


包括热点分析、情感倾向分析、传播路径分析、专题事件分析等,这里我就讲下情感倾向分析(其他的几点都是业务上的分析,只要业务了解,不存在实现难度)。
情感倾向分析,这个问题我琢磨了很久,解决的根本在于把文章按句子进行分解,识别主语、识别负面词(词库自己整理搜集)、正面词判断句子正负面,然后综合文章正负面,然而,如何将语句中的主语抓取出来,网上能够查阅到的资料非常有限,我暂时没解决,我目前实现的思路是根据系统使用用户行业,定义一些评价对象,如:城管局,你可以定义城管、城管局长(局长名字)、副局长(副局长名字)等等。然后在文章情感倾向分析的过程中,判断文章内容中是否包含评价对象,如果有则判断评价对象前后间隔N个内是否包含正负面词汇来判断文章的正负面,如果文章内容中没有评价对象,则可以认为该文章与用户无关,无论多负面或正面对于用户来说都是中性的。
备注:情感分析的准确性,主要在于你对词汇搜集配置的完整性,分析的过程比较耗时,建议在建索引的时候,同步进行分析,把分析结果存入索引中。对于情感分析也应该考虑增加人为辨识的功能,可提供用户修改对文章的正负面功能。

舆情监测平台


舆情监测平台主要功能包括首页、舆情数据、舆情分析、舆情简报、舆情事件、舆情设置。
首页:展示舆情热点、舆情走势、热点词库等信息。
舆情数据:根据用户设置的舆情关键字进行数据的检索,对数据可在线查看,并提供原文跟踪与类似文章推荐的功能。微博数据可查看评论数、点赞数、转载数。包括常规数据与预警数据。预警数据根据配置可自动发送邮件或短信的形式反馈给用户。
舆情分析:根据不同的分析维度对数据进行图表化得分析展示。
舆情简报:按照时间查询条件生成在符合时间周期内的舆情简报,主要包括图标展示与数据内容展示。
舆情事件:以关键字与搜索周期组合的形式定义一个事件,然后对数据进行查询分析,得到针对该事件的图表化分析结果+列表数据
舆情设置:配置舆情关键词,预警关键词,评价对象,正负面分析词典。
实现过程中图表这块用的是highcharts,前端涉及的日期的一些查询按日、周、月、年一些转化用的是moment.js;生成舆情简报主要用的是aspose.word;定时索引更新过程中用到了FluentScheduler。

net实现基础的舆情监测系统思路相关推荐

  1. 品牌舆情监测系统简介,品牌舆情监测及应对方案?

    品牌舆情监测是指通过观察和分析互联网和社交媒体上关于企业.产品或服务的信息,以了解消费者对企业.产品或服务的看法和感受.品牌舆情监测可以帮助企业了解消费者对企业.产品或服务的反馈,从而改进产品和服务, ...

  2. 什么是舆情监测系统,如何选择舆情监测系统?

    网络舆情监测工具有很多产品,我们以鸿蒙舆情系统为例,介绍什么是舆情监测系统,该如何选择舆情监测系统. 一.什么是舆情监测系统 舆情监测系统利用互联网信息采集技术.智能信息处理技术和全文检索技术,结合网 ...

  3. “校园舆情监测系统”网站设计及网页编辑总结

    "校园舆情监测系统"网站设计及网页编辑总结 这是很早之前,13年左右在做舆情系统前端时写的一些总结,现在放到博客上,以防丢失. 后端使用Django Web 框架. 前端使用dja ...

  4. 舆情监测系统适用哪些行业,如何选择舆情监测系统?

    当前,去网上搜索第三方舆情监测工具可以看到很多家不同公司的产品,比如TOOM舆情监测系统,那我们该如何选择舆情监测系统?舆情监测系统到底适用什么行业,带着这些疑问,接下来我们简单了解一下. ​一.舆情 ...

  5. 互联网舆情监测系统的设计研究,TOOM舆情监测系统研究框架?

    舆情监测研究分析是指通过对社会公众对某个事件.话题.品牌.政策等的态度和情绪进行收集.处理.分析和评估,帮助政府.企业.媒体等利益相关者及时掌握公众的反应,做好应对危机和制定舆情管理策略的工作,互联网 ...

  6. 鸿蒙舆情监测系统源码分析——功能架构

    在前面几篇文章中,我们介绍了舆情监测系统的基本概念以及基本使用方法,接下来我们以鸿蒙舆情系统为例,从源码角度分析舆情监测系统的功能架构. 舆情监测系统的输入.处理和输出 输入 与一般的企业软件不同,舆 ...

  7. 舆情监控系统java_java舆情监测系统

    每天记录学习,每天会有好心情.*^_^* 每天都要认真学习,才能更加进步.└(^o^)┘ 在工作和学习的过程中要善于思考,勤于学习.并做出适当的记录,才能最快速的学习并掌握一项知识.希望在这个平台和大 ...

  8. 网上舆情如何早发现?网络舆情监测系统解决办法

    网络信息传播速度.时间快,传播空间广泛以及传播数量多,所以,网上舆情信息的传播也具备此特性.因此,对于网络舆情信息监测专员们来说,怎么及时发现准确搜集统计网上舆情是个大难题. 毕竟网上舆情变动大,再加 ...

  9. 舆情监测系统功能简介,网络舆情监测系统平台有哪些?

    一般来说,互联网舆情监测服务平台具有及时.全面.准确的特点,对维护社会稳定发展具有重要的现实意义.那么,哪些TOOM舆情监测小编带您了解舆情监测系统功能简介,网络舆情监测系统平台有哪些? 一.什么是舆 ...

  10. 舆情监控系统计算机 书籍,网络舆情监测系统方案建议书.doc

    STYLEREF 标题 \* MERGEFORMAT 目 录 xx省网络舆情监测系统方案建议书 目 录 TOC \o "1-3" \h \z \u HYPERLINK \l &qu ...

最新文章

  1. 采购审批专题总结--bob
  2. 苹果新的编程语言 Swift 语言进阶(三)--基本运算和扩展运算
  3. 如何判断java对象是否为String数组
  4. 5G 超高清关键技术:高帧率重置、高动态渲染、云加端增强
  5. How to Set up SSH Tunneling (Port Forwarding)?
  6. mysql不存在就批量新增_mysql批量插入,存在则修改,不存在则插入
  7. ASP.NET MVC HandleError异常过滤器过滤器用法
  8. 任正非:华为活下来走到今天,要感谢乔布斯发明iPhone
  9. 一键开启微信“开关头像”,快试试!
  10. Tensorflow.Keras 时序回归模型的建立
  11. 适配器自动分配的169开头的地址_代理ip地址怎么换
  12. C语言程序设计(谭浩强第五版)——例题
  13. simulink 状态空间加反馈报错
  14. 上位机和下位机有什么区别和关系?常用上位机软件开发工具介绍
  15. U-Net网络模型(添加通道与空间注意力机制)代码---亲测提高精度
  16. 用python爬取3万多条评论,看韩国人如何评价韩国电影《寄生虫》?
  17. 视频云服务四路玩家,谁是最大赢家
  18. 微型计算机系统构成的核心部分是,计算机系统组成及工作原理题目
  19. 膜拜!阿里内部学习的五大深入理解Java虚拟机PDF,真的强
  20. MATLAB R2018a for Mac

热门文章

  1. 更改Windows OEM信息
  2. javascript颜色选择器
  3. c语言表达式优先级最高的是,C语言运算符优先级表
  4. 随机森林python反欺诈_携程金融自动化迭代反欺诈模型体系
  5. 超级简单的纯js 象棋,看一遍你也会写
  6. python记录鼠标和键盘操作并重复_鼠标和键盘操作
  7. 栈的输出_TAOCP|基本算法|栈、队列与双端队列
  8. K近邻算法,Matlab实现
  9. USB设备无法识别的五大原因
  10. (八)、MultipartFile