灵玖软件:www.lingjoin.com

随着互联网的蓬勃发展,网络媒体具有巨大的引导舆论、影响受众的影响力,网上形成的舆论热点不断,频繁地成为值得深思的社会现象。如:三鹿奶粉事件、南京市江宁区房产局局长周久耕
“最牛房产局长”事件、 “王石捐款门”事件、 “拍虎”英雄周正龙事件、强生婴幼儿产品质量问题等。


很多企业纷纷看到了网络舆情监测的巨大需求以及潜在利益,大肆炒作。笔者从2000年在科学院开始涉足网络舆情的研究与实际监测系统的研发,前前后后接触到了众多的研究者,用户、各类专家以及打着舆情旗号炒作造势的商业公司,评审过几乎所有的所谓“舆情系统”。感觉鱼龙混杂,炒作成分过多,忽悠的太离谱,误国误民误投资者累见不鲜,甚至花样都没有太多创新。某跨国公司号称为FBI等服务,舆情监测能力超强,演示起来超级漂亮,忽悠了很多国家级机构,但某机构4年前花巨资(至少300万)购买之后,至今一直荒废在机房,全部打水漂。某公司本身拿了一套开源的采集检索系统,也号称是舆情监测系统,最后也所赚颇丰。类似的案例太多太多,笔者帮不少单位处理了很多类似的烂尾工程,看到了太多专家忽悠人(所谓“流氓有文化”),非常痛心,痛心国家有限的投入被滥用,痛心客户一腔热血换来一夜凄凉。
人们在舆情监测方面往往被别有用心的商业机构宣传所误导,下面笔者结合多年潜心的舆情计算研究经历,避开各种技术名词,尝试从网络舆情的四大要素与评价进行阐述,以正视听。
网络舆情监测主要包括四大要素及其对应的评估方法:
1.舆情信息源:主要包括通道类型、信息源广度、媒体类型三个方面

舆情通道类型有:普通网页、新闻通道、论坛通道、博客通道、跟帖、回帖;论坛、博客等时效性强的网站才是舆情监测的重点,而这类网站的采集往往需要模拟人正常浏览的方式,有指导的进行定向跟踪、防刷新以及Javascript技术,与无指导的网页漫爬(Crawling)相比,完全不是一个层面的问题,技术挑战极大,中科院有一个十余人的垂直采集研究组,耗时3年多才解决了大部分问题。
信息源广度指的是每一类通道中,能否覆盖绝大部分网站或者频道,能否采集主流的网站,比如天涯、新浪博客,
媒体类型主要包括文本、图片、音视频等。

实际上,绝大部分舆情监测系统的信息源获取都是采用传统的网页采集技术,涉及到复杂的动态新型网页的时候,基本上都是采用网页采集外加规则配置的模式,针对几个专门配置好的论坛板块,进行采集分析可以保证演示效果,但这类系统投入实用的时候,业务部门往往会发现很难扩展,希望监测关键数据源的时候,手工配置量惊人,最终反而不如人工收集。

具体评价时,需要了解的问题包括:信息通道是否丰富、是否可以快速地配置信息源、是否覆盖主流的论坛和博客、覆盖的网站的具体规模,以及每天的采集量,是否支持Javascript?是否支持音视频等。
2.舆情要素元信息:主要包括文章的正文、摘要、作者、发表时间、以及用户的点击浏览量、回帖数、评论数等;

舆情要素元信息是舆情判别的依据,仅包括正文实际上仅能进行检索,和传统的搜索引擎没有本质的区别。舆情要素元信息涉及到网络信息提取技术,即从各类复杂的网页中提取各类属性字段,技术挑战在于网页形式多样,而各类属性分布特点千差万别,需要有自动判别与分析的技术,当前主要系统都是依靠严格的规则进行提取的,其中的问题在于设置的模版规则可扩展性差,而且网站本身会经常性的调整模版。好的舆情系统能跟自动生成模版的模版,人工配置几分钟就可以完成,可扩展性强,能自动适应网页的变化;
具体评价时,需要了解的问题包括:舆情要素元信息包括哪些字段,点击回复等用户行为特征是否实时更新?如何配置模版,是否复杂等。
3.舆情分析;
舆情分析牵涉到热点话题识别、转载识别、多文档摘要、倾向性分析、文本聚类与分类等功能。
网络热点话题发现是很多舆情监测系统舆情分析的卖点,但是主要问题在于热点发现的速度很慢,而且热点滞后严重,往往是流行了好几天才发出来,另外,找出来的热点也仅仅是印证当前的热点,实用性不大,舆情热点的表示与统计分析才是关键的重点。舆情热点的表示往往是词不达意,缺乏摘要提示,这里面牵涉到多文档摘要以及舆情时间趋势和空间发布的综合舆情分析;

转载识别是识别文章的转载路径(转载过程中内容实际上往往有很多编辑修改过程),根据笔者的研究,新闻平均转载次数超过3次,有的高达几百次。当下的系统往往是依靠签名算法或者标题相同即认为是转载,这两种方法都有很多的问题。关键的技术是内容语义指纹的识别,语义指纹作为代表一篇文章的关键特征,依靠语义指纹进行转载的识别。

倾向性分析指的是识别文章对具体话题和人物褒贬态度,这个功能很多都是噱头,真正投入使用的不多,因为其中的自然语言理解技术难度非常大,中科院自然语言处理组在国家863的支持下,研究了4年多,才完成一个初步的原型,最近的使用略有进步,但还没有到完善的地步。

网络舆情监测中的文本分类聚类与传统的方法差别很大,关键问题是要按照客户的需求进行定制,需要综合各类舆情要素元信息与内容统计特征,全面计算。一般的舆情系统存在可扩展性差、效率低等问题。

具体评价时,需要了解的问题包括:舆情分析热点识别的效率以及时效性、倾向性分析的准确性、转载识别的准确性、多文档摘要的流利程度等。
4.舆情预警

舆情预警是指:一旦出现危害客户利益的信息或者情报,即可进行预警通知,同时对舆情预警后续状态进行检测。舆情预警要求客户需求可以方便定制,现在的系统往往是采用关键词匹配的方式,其准确性相对差,预警效率低下,最后反而降低了舆情响应的及时性。舆情预警涉及到了兴趣相似度计算与反馈的关键技术,要求综合舆情要素挖掘与内容相似度计算等综合报警,报警方式包括弹屏、自动发送Email、发送短信等。预警后对用户的处理效果进行实时检测。
具体评价时,需要了解的问题包括:如何设置预警内容、具体预警方式等。
【作者介绍】

张华平,北京理工大学网络搜索挖掘与安全实验室负责人,2005年获得中科院计算机博士学位,副研究员,研究生导师,2010年钱伟长中文信息处理科学技术奖一等奖获得者,“百星计划”首批入选者;同时担任首都师大兼职硕导,辽宁师大客座教授,中国计算机学会高级会员,北京市重点产业知识产权联盟专家,北京市科委评审专家,中关村管委会技术评审专家,先后获得计算所所长特别奖,中科院院长奖。主要研究领域为:网络舆情计算研究,先后主持了国家863等舆情相关的课题6项,研制的天玑舆情系统已经广泛地应用于中国证监会、银监会、广电、工信部等多家单位,已经成为实际的业务系统。 

转载于:https://my.oschina.net/u/944980/blog/131031

网络舆情系统的四大要素-张华平博士相关推荐

  1. 评价网络舆情系统的eCIA方法---灵玖网络舆情

    灵玖软件:www.lingjoin.com 很多企业纷纷看到了网络舆情监测的巨大需求以及潜在利益,大肆炒作.笔者从2000年在科学院开始涉足网络舆情的研究与实际监测系统的研发,前前后后接触到了众多的研 ...

  2. 张华平博士接受51CTO专访

    灵玖软件:www.lingjoin.com 自然语言处理与信息检索共享平台 2013年4月12日,51CTO传媒执行总编马沛来到北京理工大学计算机学院采访了张华平博士,主要内容包括:以大数据时代为背景 ...

  3. 基于python的网络舆情系统通用框架

    一.前言 网络舆情是目前各类企业和机构研究的热点内容,舆情数据种类繁多衍生出各类舆情系统.舆情系统的数据来源可以通过数据网站进行购卖,更多的可以利用网络爬虫技术进行数据爬取.舆情系统整体上应具有数据采 ...

  4. 《影响中国大数据产业进程100人》张华平:如何应用网络搜索挖掘内容价值

    前言: 大数据是一个事关我国经济社会发展全局的战略性产业,大数据技术为社会经济活动提供决策依据,提高各个领域的运行效率,提升整个社会经济的集约化程度,对于我国经济发展转型具有重要的推动作用!2016年 ...

  5. 网络舆情监测服务系统技术说明,日常网络舆情监测记录?

    随着互联网快速发展,网络舆情监测服务系统技术可以实现对互联网信息的全面监控,具备敏感词监控.图片识别.预警推送.舆情浏览.综合分析.事件分析.小视频监测等功能.接下来TOOM舆情监测带您简单了解网络舆 ...

  6. 网络舆情数据分析系统技术方案

    舆情分析工作的开展最先需要做好的就是网络舆情的搜集工作,由于互联网信息内容庞杂多样,舆情信息搜集起来困难,所以要进行舆情分析更是难上加难.但若舆情信息收集的不全,就极易导致舆情分析不正确.那么,到底舆 ...

  7. 网络舆情分析关键词怎么获取的系统平台方法

    舆情热点事件发生后,有效做好舆情应对工作的前提是先要做好舆情分析工作.一般来说,比较常见的舆情分析方式就是对舆情分析关键词进行提取,通过关键词来搜集精准有效的数据信息进行分析. 由于舆情热点产生后,会 ...

  8. 网上舆情如何早发现?网络舆情监测系统解决办法

    网络信息传播速度.时间快,传播空间广泛以及传播数量多,所以,网上舆情信息的传播也具备此特性.因此,对于网络舆情信息监测专员们来说,怎么及时发现准确搜集统计网上舆情是个大难题. 毕竟网上舆情变动大,再加 ...

  9. 舆情监测系统平台对网络舆情监测的作用

    舆情监测服务平台具有及时.全面.准确等特点,所以对维护社会的稳定发展有重要现实意义.那么,问题是都有哪些公司做舆情监测服务平台?舆情监测服务平台对网络舆情监测的作用又有哪些呢? 一.舆情监测服务平台的 ...

最新文章

  1. 风格化图像_【技术综述】人脸风格化核心技术与数据集总结
  2. 蒙特卡洛积分与重要性采样详解
  3. Linux 高级存储管理
  4. CodeSmith Professional 5与VS2010有冲突
  5. java学习 - 函数
  6. vb不能插入png图片_VB6.0载入PNG格式图片
  7. Go语言的线程模型-Goroutine机制
  8. fortran和python的效率_Fortran数值计算真的比C快吗,经测试是一样快的,是不是很多人都在以讹传讹?...
  9. matlab程序求反应谱,MATLAB程序精确法求解反应谱
  10. 【推荐算法】协同过滤算法介绍
  11. 【GMSK+FPGA】基于verilog的GMSK调制系统设计
  12. 基于rdkit将smiles转换为smarts
  13. 使用Houdini快速将图片转换成文字模型
  14. 学习笔记:几种矩阵乘法(matmul product普通乘积、hadamard product矩阵点乘、kronecker product克罗内克积、斯特拉森矩阵乘法)
  15. echarts 百度地图统计分布图,地图可视化统计
  16. 2018美团点评校招-K的倍数
  17. Elliptic Curve Cryptography: 轻轻的学
  18. linux源码分析之cpu初始化 kernel/head.s,linux源码分析之cpu初始化
  19. 成人c语言培训,C语言程序设计在成人教育中教学.doc
  20. 方舟 linux服务器设置,方舟生存进化私人服务器怎么设置 方舟手游私服设置教程...

热门文章

  1. Debian 国内常用镜像源
  2. 用智能人脸识别门禁管理工地更严谨考勤更方便
  3. EventListener
  4. 【论文学习】Towards Accurate Oriented Object Detection in Aerial Images with Adaptive Multi-level Feature
  5. 百度AI攻略:EasyDL专业版
  6. wordpress博客构建
  7. 记录一次es7.8.1报错解决过程 unknown key [column] for create index
  8. java结束if_java中如何结束if循环
  9. Docker的平行空间通信
  10. 有了花呗还需要办信用卡吗?