关于舆情系统的“准”

近日，和很多公司沟通交流的时候，都发现在舆情系统的准确度上被提了很多问题，也有很多撕逼的地方，于是我打算写下这篇文章，说说自己的感受，欢迎同行指正。

首先，我认为舆情系统的准确度是个不太好标准化的定义，需要根据具体的需求来区分判断。比如，准确度会分为客观指标以及主观感受两个维度，下面就细分说明一下我的认知。

一，如果是监测企业或组织口碑的监测任务，客观来说准确度指的是找出客户关注的“点”（通常是定制关键词）所发现的所有舆情文本中，情感为负面或符合客户命中要求的文本。这里会有几个关键点，客观标准来说，所有符合客户定制的关键词规则的文本需要检索出来，假设某系统这部分准确率90%。其次，情感分析指数会有一个阈值，不管是客户设置还是系统默认/自动设置的阈值，判断为负面的文本是否正确，假设这里准确率为80%。如果客户需求并不是情感负面，而是特定条件，比如关键词命中或者某个舆情类型命中，那么准确率主要考验检索功能，假设这里也是80%。那么综合准确率就是90%乘以80%=72%，可以看出，这个准确率就已经离大家心中认知的95%以上才认为是比较好的情况差很多了。而且这还只是客观准确率，也就是类似实验室方案的测试结果，并不代表真实使用的感受。

那么真实使用系统的“用户”，他们对准确率是怎么感受的呢？客户的感性认知中，对于舆情系统的准确率包含了多个维度。这里需要着重提出几个关键性问题，首先为了得到用户预期的准确的数据，会有一些关键限制点。第1点，数据采集覆盖维度是否够广，广度决定了召回率，也就是解决某个老生常谈的问题：

领导：“小王，你怎么没发现这个负面文章？我从百度上一搜就搜出来了”

小王：“冤枉啊，领导，你看着破系统，这条没找出来”

领导：“嗯，这系统不好用，一点也不准”

第2点，关键词规则设置是否合理有效，这点我在之前的文章中有提过，关键词规则设置是个学问，而且还要结合具体系统以及舆情事件情况来设置，也有点尝试和碰运气的成分。但是如果设置不好，自然感性准确率就会差很多。

第3点，筛选和排序机制是否合理，如果关键词规则设置已经合理，那么系统会返回大量符合的数据，这个时候就像大海捞针，需要逐步缩小范围。缩小范围的目的是为了最终找出来符合客户需求的数据，缩小的方法包括了使用情感分析引擎、更细致的关键词规则或其他分类模型的方法。综合这3点得出的最后准确率才是客户的感性准确率，而很多系统因为多种原因（例如客户服务不够导致关键词规则设置不合理、客户预期和理解没解释清楚导致数据覆盖范围没有覆盖到等），最终导致客户就是觉得系统不好用、不准确。所以，一个舆情系统的筛选功能、排序逻辑、预警条件等功能是否合理，也很大程度上决定了最终的感受。

也就是说，实际上准确率和召回率本身是一起衡量的，最终客观衡量指标一般会用F值。但是实际客户感受或者系统对比的时候，感性认知会远远超过这种单纯的比较方法。

二、如果是针对目标人物的监测任务，那么准确率的维度就包含了数据覆盖程度、人名识别准确率、人物描述识别能力（句法关系分析、词性标注等）。一篇文章中定位是否是关于某人的主要文章的方法很多，主要需要看NLP分析中的几个点，首先客户设置了人物人名，所以实体提取中人名识别引擎准确率必须要高。人名正确提取后，可能这篇文章并不是主要说这个人的，所以句法分析和词权重分析的过程体现了价值，首先分析出描述这个人的句法关系，找到描述词，通常是形容词。再有就是通过指代词判断是否后续的文本还在继续描述这个人，并且判断相关词在全文中的权重值是否够高。综合判断后才能得出，首先这篇文章是包含目标人物的，并且文章内容中很大一部分是描述此人的。之后才会根据客户具体需求来判断是否该文章是目标文章，比如是否情感为负面，尤其是要发现描述该人物的形容词情感值，以及描述语句的观点拆分后的情感值。

三、如果是针对某个舆情事件的监测任务，准确率的判断维度也比较复杂，包含了关键词设置、文章相似相关分析、数据覆盖度等维度。这里比较重要的是文章的相似相关分析，通常舆情事件发生后总会发现一篇以上的重点目标文章，如果关键词设置是大海捞针，那么捞出来的针就是某篇文章。也就是说，第一层客户需求是找出所有该舆情事件的文章。如果某篇文章被发现并人工标注出是100%命中的客户需求的话，客户的第二层需求就是，找出所有相似或者相关的文章，需要从标题和内容两重进行相似相关判断。这个时候客户感受仍然和PM设计的筛选功能以及排序逻辑有很大相关性，最终好的舆情系统一定是排序较高的文章就已经满足了客户的预期。

综合以上三种舆情监测任务，我们可以看出，系统设计时的客观准确率指标，并不能代表客户的实际感受。而舆情PM一直在这些细节上不停地打磨，虽然舆情系统几年来更新幅度不小，但是整体架构仍然没有改变和突破，所以很多客户并没有感觉到PM和RD在隐藏在界面之后的细节做出来的改进。最终这些改变会通过量变达到质变，下一代的舆情系统的革新很难是破坏性的，更大可能性是渐进微创新式的。

关于舆情系统的“准”相关推荐

互联网舆情系统的架构实践
"数据猿年度重磅活动预告:2020年度金猿策划活动(金猿榜单发布+金猿奖杯颁发)即将推出,尽情咨询期待! 大数据产业创新服务媒体 --聚焦数据 · 改变商业编者按现代社会是一个信息驱动的 ...
百分点大数据技术团队：互联网舆情系统的架构实践
现代社会是一个信息驱动的社会,每天都有大量的信息产生. 据统计,互联网上每天有数十亿条媒体文章产生,在线信息检索超过500亿次. 伴随着互联网技术的发展和新媒体创新应用,人们越来越倾向于通过微博.微信 ...
清博舆情系统_什么是舆情
文章目录 1. 引言 1.1 编写目的 1.2 背景 1.3 参考资料 1.4 术语定义及说明 2. 设计概述 2.1 任务和目标 2.1.1 需求概述 2.1.2 运行环境概述 2.1.3 条件与限 ...
网络舆情系统的四大要素-张华平博士
灵玖软件:www.lingjoin.com 随着互联网的蓬勃发展,网络媒体具有巨大的引导舆论.影响受众的影响力,网上形成的舆论热点不断,频繁地成为值得深思的社会现象.如:三鹿奶粉事件.南京市江宁区房产 ...
开源免费的舆情系统的架构
思通舆情的功能: 舆情监测:通过全文搜索.来源搜索.热搜监测等多重功能实现对全网文本.图片.视频舆情实时发现; 舆情预警:根据用户设置预警条件,判别舆情信息,并第一时间通过多渠道告知用户; 舆情分析 ...
StoneDT开源舆情系统大数据技术栈介绍
我们目前开源的舆情系统分为3个部分,整个系统使用了多种开源技术组件和开源框架,涵盖涉及技术领域广泛,例如:分布式计算.大数据.人工智能.数据中台.数据挖掘.深度学习.java和python的大量实 ...
Python爬虫之初识简介以及舆情系统简介【爬虫篇一】
目录爬虫简介爬虫基本操作爬虫的作用: 舆情系统: 简单示例: 爬虫简介爬虫技术的形成(搜索公司的出现) 第一阶段:大黄页(自己建立一个文档,记录域名和该域名作用) 第二阶段:搜索公司出现,收 ...
基于python的网络舆情系统通用框架
一.前言网络舆情是目前各类企业和机构研究的热点内容,舆情数据种类繁多衍生出各类舆情系统.舆情系统的数据来源可以通过数据网站进行购卖,更多的可以利用网络爬虫技术进行数据爬取.舆情系统整体上应具有数据采 ...
评价网络舆情系统的eCIA方法---灵玖网络舆情
灵玖软件:www.lingjoin.com 很多企业纷纷看到了网络舆情监测的巨大需求以及潜在利益,大肆炒作.笔者从2000年在科学院开始涉足网络舆情的研究与实际监测系统的研发,前前后后接触到了众多的研 ...

关于舆情系统的“准”

关于舆情系统的“准”相关推荐

最新文章

热门文章