网络舆情系统的四大要素-张华平博士
灵玖软件:www.lingjoin.com
随着互联网的蓬勃发展,网络媒体具有巨大的引导舆论、影响受众的影响力,网上形成的舆论热点不断,频繁地成为值得深思的社会现象。如:三鹿奶粉事件、南京市江宁区房产局局长周久耕
“最牛房产局长”事件、 “王石捐款门”事件、 “拍虎”英雄周正龙事件、强生婴幼儿产品质量问题等。
很多企业纷纷看到了网络舆情监测的巨大需求以及潜在利益,大肆炒作。笔者从2000年在科学院开始涉足网络舆情的研究与实际监测系统的研发,前前后后接触到了众多的研究者,用户、各类专家以及打着舆情旗号炒作造势的商业公司,评审过几乎所有的所谓“舆情系统”。感觉鱼龙混杂,炒作成分过多,忽悠的太离谱,误国误民误投资者累见不鲜,甚至花样都没有太多创新。某跨国公司号称为FBI等服务,舆情监测能力超强,演示起来超级漂亮,忽悠了很多国家级机构,但某机构4年前花巨资(至少300万)购买之后,至今一直荒废在机房,全部打水漂。某公司本身拿了一套开源的采集检索系统,也号称是舆情监测系统,最后也所赚颇丰。类似的案例太多太多,笔者帮不少单位处理了很多类似的烂尾工程,看到了太多专家忽悠人(所谓“流氓有文化”),非常痛心,痛心国家有限的投入被滥用,痛心客户一腔热血换来一夜凄凉。
舆情通道类型有:普通网页、新闻通道、论坛通道、博客通道、跟帖、回帖;论坛、博客等时效性强的网站才是舆情监测的重点,而这类网站的采集往往需要模拟人正常浏览的方式,有指导的进行定向跟踪、防刷新以及Javascript技术,与无指导的网页漫爬(Crawling)相比,完全不是一个层面的问题,技术挑战极大,中科院有一个十余人的垂直采集研究组,耗时3年多才解决了大部分问题。
实际上,绝大部分舆情监测系统的信息源获取都是采用传统的网页采集技术,涉及到复杂的动态新型网页的时候,基本上都是采用网页采集外加规则配置的模式,针对几个专门配置好的论坛板块,进行采集分析可以保证演示效果,但这类系统投入实用的时候,业务部门往往会发现很难扩展,希望监测关键数据源的时候,手工配置量惊人,最终反而不如人工收集。
具体评价时,需要了解的问题包括:信息通道是否丰富、是否可以快速地配置信息源、是否覆盖主流的论坛和博客、覆盖的网站的具体规模,以及每天的采集量,是否支持Javascript?是否支持音视频等。
舆情要素元信息是舆情判别的依据,仅包括正文实际上仅能进行检索,和传统的搜索引擎没有本质的区别。舆情要素元信息涉及到网络信息提取技术,即从各类复杂的网页中提取各类属性字段,技术挑战在于网页形式多样,而各类属性分布特点千差万别,需要有自动判别与分析的技术,当前主要系统都是依靠严格的规则进行提取的,其中的问题在于设置的模版规则可扩展性差,而且网站本身会经常性的调整模版。好的舆情系统能跟自动生成模版的模版,人工配置几分钟就可以完成,可扩展性强,能自动适应网页的变化;
转载识别是识别文章的转载路径(转载过程中内容实际上往往有很多编辑修改过程),根据笔者的研究,新闻平均转载次数超过3次,有的高达几百次。当下的系统往往是依靠签名算法或者标题相同即认为是转载,这两种方法都有很多的问题。关键的技术是内容语义指纹的识别,语义指纹作为代表一篇文章的关键特征,依靠语义指纹进行转载的识别。
倾向性分析指的是识别文章对具体话题和人物褒贬态度,这个功能很多都是噱头,真正投入使用的不多,因为其中的自然语言理解技术难度非常大,中科院自然语言处理组在国家863的支持下,研究了4年多,才完成一个初步的原型,最近的使用略有进步,但还没有到完善的地步。
网络舆情监测中的文本分类聚类与传统的方法差别很大,关键问题是要按照客户的需求进行定制,需要综合各类舆情要素元信息与内容统计特征,全面计算。一般的舆情系统存在可扩展性差、效率低等问题。
具体评价时,需要了解的问题包括:舆情分析热点识别的效率以及时效性、倾向性分析的准确性、转载识别的准确性、多文档摘要的流利程度等。
舆情预警是指:一旦出现危害客户利益的信息或者情报,即可进行预警通知,同时对舆情预警后续状态进行检测。舆情预警要求客户需求可以方便定制,现在的系统往往是采用关键词匹配的方式,其准确性相对差,预警效率低下,最后反而降低了舆情响应的及时性。舆情预警涉及到了兴趣相似度计算与反馈的关键技术,要求综合舆情要素挖掘与内容相似度计算等综合报警,报警方式包括弹屏、自动发送Email、发送短信等。预警后对用户的处理效果进行实时检测。
张华平,北京理工大学网络搜索挖掘与安全实验室负责人,2005年获得中科院计算机博士学位,副研究员,研究生导师,2010年钱伟长中文信息处理科学技术奖一等奖获得者,“百星计划”首批入选者;同时担任首都师大兼职硕导,辽宁师大客座教授,中国计算机学会高级会员,北京市重点产业知识产权联盟专家,北京市科委评审专家,中关村管委会技术评审专家,先后获得计算所所长特别奖,中科院院长奖。主要研究领域为:网络舆情计算研究,先后主持了国家863等舆情相关的课题6项,研制的天玑舆情系统已经广泛地应用于中国证监会、银监会、广电、工信部等多家单位,已经成为实际的业务系统。
转载于:https://my.oschina.net/u/944980/blog/131031
网络舆情系统的四大要素-张华平博士相关推荐
- 评价网络舆情系统的eCIA方法---灵玖网络舆情
灵玖软件:www.lingjoin.com 很多企业纷纷看到了网络舆情监测的巨大需求以及潜在利益,大肆炒作.笔者从2000年在科学院开始涉足网络舆情的研究与实际监测系统的研发,前前后后接触到了众多的研 ...
- 张华平博士接受51CTO专访
灵玖软件:www.lingjoin.com 自然语言处理与信息检索共享平台 2013年4月12日,51CTO传媒执行总编马沛来到北京理工大学计算机学院采访了张华平博士,主要内容包括:以大数据时代为背景 ...
- 基于python的网络舆情系统通用框架
一.前言 网络舆情是目前各类企业和机构研究的热点内容,舆情数据种类繁多衍生出各类舆情系统.舆情系统的数据来源可以通过数据网站进行购卖,更多的可以利用网络爬虫技术进行数据爬取.舆情系统整体上应具有数据采 ...
- 《影响中国大数据产业进程100人》张华平:如何应用网络搜索挖掘内容价值
前言: 大数据是一个事关我国经济社会发展全局的战略性产业,大数据技术为社会经济活动提供决策依据,提高各个领域的运行效率,提升整个社会经济的集约化程度,对于我国经济发展转型具有重要的推动作用!2016年 ...
- 网络舆情监测服务系统技术说明,日常网络舆情监测记录?
随着互联网快速发展,网络舆情监测服务系统技术可以实现对互联网信息的全面监控,具备敏感词监控.图片识别.预警推送.舆情浏览.综合分析.事件分析.小视频监测等功能.接下来TOOM舆情监测带您简单了解网络舆 ...
- 网络舆情数据分析系统技术方案
舆情分析工作的开展最先需要做好的就是网络舆情的搜集工作,由于互联网信息内容庞杂多样,舆情信息搜集起来困难,所以要进行舆情分析更是难上加难.但若舆情信息收集的不全,就极易导致舆情分析不正确.那么,到底舆 ...
- 网络舆情分析关键词怎么获取的系统平台方法
舆情热点事件发生后,有效做好舆情应对工作的前提是先要做好舆情分析工作.一般来说,比较常见的舆情分析方式就是对舆情分析关键词进行提取,通过关键词来搜集精准有效的数据信息进行分析. 由于舆情热点产生后,会 ...
- 网上舆情如何早发现?网络舆情监测系统解决办法
网络信息传播速度.时间快,传播空间广泛以及传播数量多,所以,网上舆情信息的传播也具备此特性.因此,对于网络舆情信息监测专员们来说,怎么及时发现准确搜集统计网上舆情是个大难题. 毕竟网上舆情变动大,再加 ...
- 舆情监测系统平台对网络舆情监测的作用
舆情监测服务平台具有及时.全面.准确等特点,所以对维护社会的稳定发展有重要现实意义.那么,问题是都有哪些公司做舆情监测服务平台?舆情监测服务平台对网络舆情监测的作用又有哪些呢? 一.舆情监测服务平台的 ...
最新文章
- 风格化图像_【技术综述】人脸风格化核心技术与数据集总结
- 蒙特卡洛积分与重要性采样详解
- Linux 高级存储管理
- CodeSmith Professional 5与VS2010有冲突
- java学习 - 函数
- vb不能插入png图片_VB6.0载入PNG格式图片
- Go语言的线程模型-Goroutine机制
- fortran和python的效率_Fortran数值计算真的比C快吗,经测试是一样快的,是不是很多人都在以讹传讹?...
- matlab程序求反应谱,MATLAB程序精确法求解反应谱
- 【推荐算法】协同过滤算法介绍
- 【GMSK+FPGA】基于verilog的GMSK调制系统设计
- 基于rdkit将smiles转换为smarts
- 使用Houdini快速将图片转换成文字模型
- 学习笔记:几种矩阵乘法(matmul product普通乘积、hadamard product矩阵点乘、kronecker product克罗内克积、斯特拉森矩阵乘法)
- echarts 百度地图统计分布图,地图可视化统计
- 2018美团点评校招-K的倍数
- Elliptic Curve Cryptography: 轻轻的学
- linux源码分析之cpu初始化 kernel/head.s,linux源码分析之cpu初始化
- 成人c语言培训,C语言程序设计在成人教育中教学.doc
- 方舟 linux服务器设置,方舟生存进化私人服务器怎么设置 方舟手游私服设置教程...
热门文章
- Debian 国内常用镜像源
- 用智能人脸识别门禁管理工地更严谨考勤更方便
- EventListener
- 【论文学习】Towards Accurate Oriented Object Detection in Aerial Images with Adaptive Multi-level Feature
- 百度AI攻略:EasyDL专业版
- wordpress博客构建
- 记录一次es7.8.1报错解决过程 unknown key [column] for create index
- java结束if_java中如何结束if循环
- Docker的平行空间通信
- 有了花呗还需要办信用卡吗?