关于舆情系统的“准”
近日,和很多公司沟通交流的时候,都发现在舆情系统的准确度上被提了很多问题,也有很多撕逼的地方,于是我打算写下这篇文章,说说自己的感受,欢迎同行指正。
首先,我认为舆情系统的准确度是个不太好标准化的定义,需要根据具体的需求来区分判断。比如,准确度会分为客观指标以及主观感受两个维度,下面就细分说明一下我的认知。
一,如果是监测企业或组织口碑的监测任务,客观来说准确度指的是找出客户关注的“点”(通常是定制关键词)所发现的所有舆情文本中,情感为负面或符合客户命中要求的文本。这里会有几个关键点,客观标准来说,所有符合客户定制的关键词规则的文本需要检索出来,假设某系统这部分准确率90%。其次,情感分析指数会有一个阈值,不管是客户设置还是系统默认/自动设置的阈值,判断为负面的文本是否正确,假设这里准确率为80%。如果客户需求并不是情感负面,而是特定条件,比如关键词命中或者某个舆情类型命中,那么准确率主要考验检索功能,假设这里也是80%。那么综合准确率就是90%乘以80%=72%,可以看出,这个准确率就已经离大家心中认知的95%以上才认为是比较好的情况差很多了。而且这还只是客观准确率,也就是类似实验室方案的测试结果,并不代表真实使用的感受。
那么真实使用系统的“用户”,他们对准确率是怎么感受的呢?客户的感性认知中,对于舆情系统的准确率包含了多个维度。这里需要着重提出几个关键性问题,首先为了得到用户预期的准确的数据,会有一些关键限制点。第1点,数据采集覆盖维度是否够广,广度决定了召回率,也就是解决某个老生常谈的问题:
领导:“小王,你怎么没发现这个负面文章?我从百度上一搜就搜出来了”
小王:“冤枉啊,领导,你看着破系统,这条没找出来”
领导:“嗯,这系统不好用,一点也不准”
第2点,关键词规则设置是否合理有效,这点我在之前的文章中有提过,关键词规则设置是个学问,而且还要结合具体系统以及舆情事件情况来设置,也有点尝试和碰运气的成分。但是如果设置不好,自然感性准确率就会差很多。
第3点,筛选和排序机制是否合理,如果关键词规则设置已经合理,那么系统会返回大量符合的数据,这个时候就像大海捞针,需要逐步缩小范围。缩小范围的目的是为了最终找出来符合客户需求的数据,缩小的方法包括了使用情感分析引擎、更细致的关键词规则或其他分类模型的方法。综合这3点得出的最后准确率才是客户的感性准确率,而很多系统因为多种原因(例如客户服务不够导致关键词规则设置不合理、客户预期和理解没解释清楚导致数据覆盖范围没有覆盖到等),最终导致客户就是觉得系统不好用、不准确。所以,一个舆情系统的筛选功能、排序逻辑、预警条件等功能是否合理,也很大程度上决定了最终的感受。
也就是说,实际上准确率和召回率本身是一起衡量的,最终客观衡量指标一般会用F值。但是实际客户感受或者系统对比的时候,感性认知会远远超过这种单纯的比较方法。
二、如果是针对目标人物的监测任务,那么准确率的维度就包含了数据覆盖程度、人名识别准确率、人物描述识别能力(句法关系分析、词性标注等)。一篇文章中定位是否是关于某人的主要文章的方法很多,主要需要看NLP分析中的几个点,首先客户设置了人物人名,所以实体提取中人名识别引擎准确率必须要高。人名正确提取后,可能这篇文章并不是主要说这个人的,所以句法分析和词权重分析的过程体现了价值,首先分析出描述这个人的句法关系,找到描述词,通常是形容词。再有就是通过指代词判断是否后续的文本还在继续描述这个人,并且判断相关词在全文中的权重值是否够高。综合判断后才能得出,首先这篇文章是包含目标人物的,并且文章内容中很大一部分是描述此人的。之后才会根据客户具体需求来判断是否该文章是目标文章,比如是否情感为负面,尤其是要发现描述该人物的形容词情感值,以及描述语句的观点拆分后的情感值。
三、如果是针对某个舆情事件的监测任务,准确率的判断维度也比较复杂,包含了关键词设置、文章相似相关分析、数据覆盖度等维度。这里比较重要的是文章的相似相关分析,通常舆情事件发生后总会发现一篇以上的重点目标文章,如果关键词设置是大海捞针,那么捞出来的针就是某篇文章。也就是说,第一层客户需求是找出所有该舆情事件的文章。如果某篇文章被发现并人工标注出是100%命中的客户需求的话,客户的第二层需求就是,找出所有相似或者相关的文章,需要从标题和内容两重进行相似相关判断。这个时候客户感受仍然和PM设计的筛选功能以及排序逻辑有很大相关性,最终好的舆情系统一定是排序较高的文章就已经满足了客户的预期。
综合以上三种舆情监测任务,我们可以看出,系统设计时的客观准确率指标,并不能代表客户的实际感受。而舆情PM一直在这些细节上不停地打磨,虽然舆情系统几年来更新幅度不小,但是整体架构仍然没有改变和突破,所以很多客户并没有感觉到PM和RD在隐藏在界面之后的细节做出来的改进。最终这些改变会通过量变达到质变,下一代的舆情系统的革新很难是破坏性的,更大可能性是渐进微创新式的。
关于舆情系统的“准”相关推荐
- 互联网舆情系统的架构实践
"数据猿年度重磅活动预告:2020年度金猿策划活动(金猿榜单发布+金猿奖杯颁发)即将推出,尽情咨询期待! 大数据产业创新服务媒体 --聚焦数据 · 改变商业 编者按 现代社会是一个信息驱动的 ...
- 百分点大数据技术团队:互联网舆情系统的架构实践
现代社会是一个信息驱动的社会,每天都有大量的信息产生. 据统计,互联网上每天有数十亿条媒体文章产生,在线信息检索超过500亿次. 伴随着互联网技术的发展和新媒体创新应用,人们越来越倾向于通过微博.微信 ...
- 清博舆情系统_什么是舆情
文章目录 1. 引言 1.1 编写目的 1.2 背景 1.3 参考资料 1.4 术语定义及说明 2. 设计概述 2.1 任务和目标 2.1.1 需求概述 2.1.2 运行环境概述 2.1.3 条件与限 ...
- 网络舆情系统的四大要素-张华平博士
灵玖软件:www.lingjoin.com 随着互联网的蓬勃发展,网络媒体具有巨大的引导舆论.影响受众的影响力,网上形成的舆论热点不断,频繁地成为值得深思的社会现象.如:三鹿奶粉事件.南京市江宁区房产 ...
- 开源免费的舆情系统的架构
思通舆情 的功能: 舆情监测:通过全文搜索.来源搜索.热搜监测等多重功能实现对全网文本.图片.视频舆情实时发现; 舆情预警:根据用户设置预警条件,判别舆情信息,并第一时间通过多渠道告知用户; 舆情分析 ...
- StoneDT开源舆情系统大数据技术栈介绍
我们目前开源的 舆情系统 分为3个部分,整个系统使用了多种开源技术组件和开源框架,涵盖涉及技术领域广泛,例如:分布式计算.大数据.人工智能.数据中台.数据挖掘.深度学习.java和python的大量实 ...
- Python爬虫之初识简介以及舆情系统简介【爬虫篇一】
目录 爬虫简介 爬虫基本操作 爬虫的作用: 舆情系统: 简单示例: 爬虫简介 爬虫技术的形成(搜索公司的出现) 第一阶段:大黄页(自己建立一个文档,记录域名 和该域名作用) 第二阶段:搜索公司出现,收 ...
- 基于python的网络舆情系统通用框架
一.前言 网络舆情是目前各类企业和机构研究的热点内容,舆情数据种类繁多衍生出各类舆情系统.舆情系统的数据来源可以通过数据网站进行购卖,更多的可以利用网络爬虫技术进行数据爬取.舆情系统整体上应具有数据采 ...
- 评价网络舆情系统的eCIA方法---灵玖网络舆情
灵玖软件:www.lingjoin.com 很多企业纷纷看到了网络舆情监测的巨大需求以及潜在利益,大肆炒作.笔者从2000年在科学院开始涉足网络舆情的研究与实际监测系统的研发,前前后后接触到了众多的研 ...
最新文章
- JavaSE_坚持读源码_ClassLoader对象_Java1.7
- python正则表达式操作指南_第二篇详细Python正则表达式操作指南(re使用)
- 笔记:企业内部因素评价
- Python parser中的nargs
- Python3_tuple
- 利用wireshark分析Voip语音RTP协议
- 移动硬盘插入提示需要格式化RAW_使用驱动器X:中的光盘之前需要将其格式化
- python两个csv表数据合并_python 如何把两个表格数据,合并为一个呢?
- 使用Laravel和Vue.js2.5进行服务器端渲染
- fisher判别分析原理+python实现
- BT服务器的搭建(tracker-P2P服务器架设)(转)
- 《今日简史》--意义:人生不是虚构的故事
- 数模学习第三天--微分方程(药物分布与排除)
- [160CRACKME]Chafe.2
- 设计师必备的导航网站
- 2007年 西安站 东到西开 列车时刻表
- 单曲循环 翻译_“单曲循环” 用哪个词?
- Q_ENUM与Q_ENUMS的区别
- Argox-ME-2140打印机操作注意事项
- 男生想跟女生说的30句真心话!!!!