新闻事件脉络挖掘思路
一、背景
目前自媒体时代信息量爆炸,想了解一个热点事件的来龙去脉非常繁琐,不仅需要搜集大量信息,最头疼的就是整理信息,区分信息的真实性和时间的先后顺去。一种能够自动挖掘事件脉络的技术显得尤为重要。
下图是百度的事件脉络挖掘例子
本文提出一种事件脉络挖掘技术思路
二、流程
1. 核心技术
我们可以很轻松的提取新闻数据特征,然后根据这些特征进行同类新闻的聚类和计算不同新闻间的相似程度
2. 爬取重点频道新闻
自媒体时代,信息爆炸,有真有假,但是重点频道比如:澎湃新闻、腾讯新闻、微博等等重点频道的重点账号发布的新闻可信度还是比较高的。这里需要持续爬取可信度高的新闻数据
3. 热点事件的发现
定期对近期爬取的新闻进行聚类,一旦发现多数新闻说的是同一件事,结合相关自定义逻辑即可判断发现热点事件
4. 计算聚类中心
可根据“1. 核心技术”提到的计算新闻相似度技术,寻找能够较好代表当前热点事件的一篇新闻(也就是聚类中心)
5. 事件脉络更新
上一步骤确定了热点事件 A 及聚类中心 a ,之后爬取到的新闻 b 直接和新闻 a 进行比较,一旦相似度小于阈值即可判断:新闻 b 属于 热点事件 A ,当热点事件 A 所增加的新闻数量达到阈值后,再次计算热点事件 A 的聚类中心 a2。重复此步骤会得到事件脉络:a > a2 > a3 ……,事件脉络的每个节点都是一篇实际的新闻,这些新闻不仅发布时间存在明显的前后顺序,同时也能清晰的显示热点事件的来龙去脉
三、最后
上述流程中需注意新闻数据的过滤、去重和预处理。由于新闻可能通过文字、图像、视频等方式进行呈现,提取新闻特征和对比相似度也要考量适合的方法
新闻事件脉络挖掘思路相关推荐
- 【论文翻译】学习新闻事件预测的因果关系
一.摘要 本文在这项工作中解决的问题是产生一个可能由给定事件引起的可能的未来事件. 论文提出了一种使用机器学习和数据挖掘技术建模和预测未来新闻事件的新方法.论文的Pundit算法概括了因果关系对的例子 ...
- xss挖掘思路分享_XSS学习(三)挖掘思路
HTML标签之间 [输出点] payload: HTML标签之内 payload: 1." onm ouseover=alert(1) (闭合属性) 2." > (闭合属性与 ...
- 从瓶盖挑战事件看企业如何做好新闻事件营销?
文 | 公关之家 作者:Leon360k 前些年的"冰桶挑战"不仅吸引到足够多的公众关注,还对全球公益事业的发展起到公关促进作用.事件起因是基于全球社交网络对"肌肉萎缩性 ...
- 某一新闻事件舆情舆论监测工作怎么做的系统解决办法
新闻事件产生后,大众的聚焦度和热议度高,所以新闻事件的舆情舆论很容易在短时间内升温.因此,对于新闻单位来说,为了积极的把进展讲清楚,把存在的问题讲透彻,占据舆论制高点,就需做好新闻事件的舆情舆论监测. ...
- python文本热点问题挖掘_Pyhon数据分析项目—动态新闻标题热点挖掘.pdf
<用Python 玩转数据>项目-动态新闻标题热点挖掘 一.背景 新闻标题是新闻的主旨,从新闻标题中可以进行多种内容的挖掘,例如可以爬取一定时 间段内的新闻进行分析获得热点词.新浪各地新闻 ...
- Google Maps API 进级: GoogleMaps常用事件及应用思路1
转自:http://hi.baidu.com/xfm_zhr/blog/item/8c1790517e87ea888d54302a.html 1. GoogleMaps常用事件及应用思路 ...
- xss挖掘思路分享_新手指南 | permeate靶场漏洞挖掘思路分享
简介 最近在逛码云时候发现permeat靶场系统,感觉界面和业务场景设计的还不错.所以过来分享一下. 同时也是分享一下我平时挖掘漏洞的一些思路吧,这篇文章里虽然只简单介绍其中三种漏洞类型,但也是想是一 ...
- xss挖掘思路分享_WEB安全(二) :XSS的漏洞挖掘(上)
ps:上一篇讲了基本的xss类型,反射型和存储型,以及xss可以做的一些事情.本文则比较上一篇做一个较为深入的研究.如何在网站上面进行漏洞的一些挖掘 挖掘思路 1,url 我们知道这类xss的输入点在 ...
- 2010年软件业十大新闻事件
每年软件业的竞争都很激烈,今年也不例外.软件业发展突飞猛进,今年软件业的新潮流是把Facebook,Twitter等社交网站与软件相结合. 以下是2010年软件业十大新闻事件: SAP与甲骨文PK 1 ...
最新文章
- JavaScript文件中调用AngularJS内部方法或改变$scope变量
- 手写简单的双向数据绑定
- Android 新手常见的10个误区(下)
- Pytorch转ONNX采坑记:Converting a tensor to a Python boolean might cause the trace to be incorrect. We...
- xgboost使用调参
- 浓缩摘要_浓缩咖啡的收益递减
- 流式处理和批处理的区别
- python小代码_Python爬虫入门有意思的小长代码
- bzoj3238 [Ahoi2013]差异 后缀自动机
- java data 图像 显示_Java(JMF)获取本地摄像头,实时显示图像
- 4键电子手表说明书_飞猪II控制台简体中文说明书
- python html做界面_[Python]简单的HTML页面合并脚本
- drbd+corosync+pacemaker实现mysql的高可用性“上”
- c# datagridview列形式为Combobox,每行下拉选项不一样
- 【大数据部落】R语言多元Copula GARCH 模型时间序列预测
- 工业相机在全息成像中的应用
- 王道训练营Day24——Linked
- js如何实现扫描身份证识别_基于javascript实现根据身份证号码识别性别和年龄
- DA转换器原理及应用(报告)
- 根据关键词采集文章php,如何通过文章采集获取一篇高质量的网站内容