近日,和很多公司沟通交流的时候,都发现在舆情系统的准确度上被提了很多问题,也有很多撕逼的地方,于是我打算写下这篇文章,说说自己的感受,欢迎同行指正。

首先,我认为舆情系统的准确度是个不太好标准化的定义,需要根据具体的需求来区分判断。比如,准确度会分为客观指标以及主观感受两个维度,下面就细分说明一下我的认知。

一,如果是监测企业或组织口碑的监测任务,客观来说准确度指的是找出客户关注的“点”(通常是定制关键词)所发现的所有舆情文本中,情感为负面或符合客户命中要求的文本。这里会有几个关键点,客观标准来说,所有符合客户定制的关键词规则的文本需要检索出来,假设某系统这部分准确率90%。其次,情感分析指数会有一个阈值,不管是客户设置还是系统默认/自动设置的阈值,判断为负面的文本是否正确,假设这里准确率为80%。如果客户需求并不是情感负面,而是特定条件,比如关键词命中或者某个舆情类型命中,那么准确率主要考验检索功能,假设这里也是80%。那么综合准确率就是90%乘以80%=72%,可以看出,这个准确率就已经离大家心中认知的95%以上才认为是比较好的情况差很多了。而且这还只是客观准确率,也就是类似实验室方案的测试结果,并不代表真实使用的感受。

那么真实使用系统的“用户”,他们对准确率是怎么感受的呢?客户的感性认知中,对于舆情系统的准确率包含了多个维度。这里需要着重提出几个关键性问题,首先为了得到用户预期的准确的数据,会有一些关键限制点。第1点,数据采集覆盖维度是否够广,广度决定了召回率,也就是解决某个老生常谈的问题:

领导:“小王,你怎么没发现这个负面文章?我从百度上一搜就搜出来了”

小王:“冤枉啊,领导,你看着破系统,这条没找出来”

领导:“嗯,这系统不好用,一点也不准”

第2点,关键词规则设置是否合理有效,这点我在之前的文章中有提过,关键词规则设置是个学问,而且还要结合具体系统以及舆情事件情况来设置,也有点尝试和碰运气的成分。但是如果设置不好,自然感性准确率就会差很多。

第3点,筛选和排序机制是否合理,如果关键词规则设置已经合理,那么系统会返回大量符合的数据,这个时候就像大海捞针,需要逐步缩小范围。缩小范围的目的是为了最终找出来符合客户需求的数据,缩小的方法包括了使用情感分析引擎、更细致的关键词规则或其他分类模型的方法。综合这3点得出的最后准确率才是客户的感性准确率,而很多系统因为多种原因(例如客户服务不够导致关键词规则设置不合理、客户预期和理解没解释清楚导致数据覆盖范围没有覆盖到等),最终导致客户就是觉得系统不好用、不准确。所以,一个舆情系统的筛选功能、排序逻辑、预警条件等功能是否合理,也很大程度上决定了最终的感受。

也就是说,实际上准确率和召回率本身是一起衡量的,最终客观衡量指标一般会用F值。但是实际客户感受或者系统对比的时候,感性认知会远远超过这种单纯的比较方法。

二、如果是针对目标人物的监测任务,那么准确率的维度就包含了数据覆盖程度、人名识别准确率、人物描述识别能力(句法关系分析、词性标注等)。一篇文章中定位是否是关于某人的主要文章的方法很多,主要需要看NLP分析中的几个点,首先客户设置了人物人名,所以实体提取中人名识别引擎准确率必须要高。人名正确提取后,可能这篇文章并不是主要说这个人的,所以句法分析和词权重分析的过程体现了价值,首先分析出描述这个人的句法关系,找到描述词,通常是形容词。再有就是通过指代词判断是否后续的文本还在继续描述这个人,并且判断相关词在全文中的权重值是否够高。综合判断后才能得出,首先这篇文章是包含目标人物的,并且文章内容中很大一部分是描述此人的。之后才会根据客户具体需求来判断是否该文章是目标文章,比如是否情感为负面,尤其是要发现描述该人物的形容词情感值,以及描述语句的观点拆分后的情感值。

三、如果是针对某个舆情事件的监测任务,准确率的判断维度也比较复杂,包含了关键词设置、文章相似相关分析、数据覆盖度等维度。这里比较重要的是文章的相似相关分析,通常舆情事件发生后总会发现一篇以上的重点目标文章,如果关键词设置是大海捞针,那么捞出来的针就是某篇文章。也就是说,第一层客户需求是找出所有该舆情事件的文章。如果某篇文章被发现并人工标注出是100%命中的客户需求的话,客户的第二层需求就是,找出所有相似或者相关的文章,需要从标题和内容两重进行相似相关判断。这个时候客户感受仍然和PM设计的筛选功能以及排序逻辑有很大相关性,最终好的舆情系统一定是排序较高的文章就已经满足了客户的预期。

综合以上三种舆情监测任务,我们可以看出,系统设计时的客观准确率指标,并不能代表客户的实际感受。而舆情PM一直在这些细节上不停地打磨,虽然舆情系统几年来更新幅度不小,但是整体架构仍然没有改变和突破,所以很多客户并没有感觉到PM和RD在隐藏在界面之后的细节做出来的改进。最终这些改变会通过量变达到质变,下一代的舆情系统的革新很难是破坏性的,更大可能性是渐进微创新式的。

关于舆情系统的“准”相关推荐

  1. 互联网舆情系统的架构实践

    "数据猿年度重磅活动预告:2020年度金猿策划活动(金猿榜单发布+金猿奖杯颁发)即将推出,尽情咨询期待! 大数据产业创新服务媒体 --聚焦数据 · 改变商业 编者按 现代社会是一个信息驱动的 ...

  2. 百分点大数据技术团队:互联网舆情系统的架构实践

    现代社会是一个信息驱动的社会,每天都有大量的信息产生. 据统计,互联网上每天有数十亿条媒体文章产生,在线信息检索超过500亿次. 伴随着互联网技术的发展和新媒体创新应用,人们越来越倾向于通过微博.微信 ...

  3. 清博舆情系统_什么是舆情

    文章目录 1. 引言 1.1 编写目的 1.2 背景 1.3 参考资料 1.4 术语定义及说明 2. 设计概述 2.1 任务和目标 2.1.1 需求概述 2.1.2 运行环境概述 2.1.3 条件与限 ...

  4. 网络舆情系统的四大要素-张华平博士

    灵玖软件:www.lingjoin.com 随着互联网的蓬勃发展,网络媒体具有巨大的引导舆论.影响受众的影响力,网上形成的舆论热点不断,频繁地成为值得深思的社会现象.如:三鹿奶粉事件.南京市江宁区房产 ...

  5. 开源免费的舆情系统的架构

    思通舆情 的功能: 舆情监测:通过全文搜索.来源搜索.热搜监测等多重功能实现对全网文本.图片.视频舆情实时发现; 舆情预警:根据用户设置预警条件,判别舆情信息,并第一时间通过多渠道告知用户; 舆情分析 ...

  6. StoneDT开源舆情系统大数据技术栈介绍

    我们目前开源的 舆情系统 分为3个部分,整个系统使用了多种开源技术组件和开源框架,涵盖涉及技术领域广泛,例如:分布式计算.大数据.人工智能.数据中台.数据挖掘.深度学习.java和python的大量实 ...

  7. Python爬虫之初识简介以及舆情系统简介【爬虫篇一】

    目录 爬虫简介 爬虫基本操作 爬虫的作用: 舆情系统: 简单示例: 爬虫简介 爬虫技术的形成(搜索公司的出现) 第一阶段:大黄页(自己建立一个文档,记录域名 和该域名作用) 第二阶段:搜索公司出现,收 ...

  8. 基于python的网络舆情系统通用框架

    一.前言 网络舆情是目前各类企业和机构研究的热点内容,舆情数据种类繁多衍生出各类舆情系统.舆情系统的数据来源可以通过数据网站进行购卖,更多的可以利用网络爬虫技术进行数据爬取.舆情系统整体上应具有数据采 ...

  9. 评价网络舆情系统的eCIA方法---灵玖网络舆情

    灵玖软件:www.lingjoin.com 很多企业纷纷看到了网络舆情监测的巨大需求以及潜在利益,大肆炒作.笔者从2000年在科学院开始涉足网络舆情的研究与实际监测系统的研发,前前后后接触到了众多的研 ...

最新文章

  1. JavaSE_坚持读源码_ClassLoader对象_Java1.7
  2. python正则表达式操作指南_第二篇详细Python正则表达式操作指南(re使用)
  3. 笔记:企业内部因素评价
  4. Python parser中的nargs
  5. Python3_tuple
  6. 利用wireshark分析Voip语音RTP协议
  7. 移动硬盘插入提示需要格式化RAW_使用驱动器X:中的光盘之前需要将其格式化
  8. python两个csv表数据合并_python 如何把两个表格数据,合并为一个呢?
  9. 使用Laravel和Vue.js2.5进行服务器端渲染
  10. fisher判别分析原理+python实现
  11. BT服务器的搭建(tracker-P2P服务器架设)(转)
  12. 《今日简史》--意义:人生不是虚构的故事
  13. 数模学习第三天--微分方程(药物分布与排除)
  14. [160CRACKME]Chafe.2
  15. 设计师必备的导航网站
  16. 2007年 西安站 东到西开 列车时刻表
  17. 单曲循环 翻译_“单曲循环” 用哪个词?
  18. Q_ENUM与Q_ENUMS的区别
  19. Argox-ME-2140打印机操作注意事项
  20. 男生想跟女生说的30句真心话!!!!

热门文章

  1. CAP 原理和分布式矩阵的应用
  2. 常用到的Eclipse快捷键
  3. 01. Java8-Lambada 表达式
  4. 计算机表格求和乘公式,在EXCEL中怎么设置公式求乘积、求和
  5. 恢复foxmail中丢失的地址簿
  6. Dobbo的继任者?试用微博RPC框架Motan
  7. 典型的进程级数据防泄密
  8. 2021-08-02网关http或tcp收发等极简物联网通用json协议设计
  9. JS数据类型检测的坑和通用数据类型检测方法
  10. Android应会的网络基本知识