论文阅读:Gibberish, Assistant, or Master? Using Tweets Linking to News for Extractive Single-Document Su
这是SIGIR 2015的论文,名字是Gibberish, Assistant, or Master? Using Tweets Linking to News for Extractive Single-Document Summarization,我这个周末就在看这篇文章,现在记录一下该文章的阅读经历与知识总结。
首先这篇论文的目的在于想要提取新闻的摘要,是一个文本摘要自动提取问题。做这件文本摘要问题与Tweet挂钩,找寻到了Tweet与转发的新闻链接间的关系,并通过这种关系设计基于Tweet的对于新闻的摘要提取。
1. 明确文章目的:单文本的自动摘要
存在的问题:如果用Tweet作为使用方法面临的问题主要是Tweet的内容表述不够正规、含有很多噪声,用户的具体表现也很难捕捉。推文又不可避免的受到时间、长短、数量等因素的影响。这些都有可能影响摘要的性能。
本文想要解决的主要问题:(1)链接Tweet做文本摘要是否有用?
(2)如果有用,是起一个辅助(assistant)作用还是主要(master)作用?
(3)诸如发布Tweet的时间等影响因素起了什么作用?是阻碍了摘要的准确还是考虑了摘要质量的合理权衡?
本文主要用的东西和采取的思路:采用无监督的方法进行构建,再进行比较判断效果以及数量和时间的影响因素。
2. 实际工作一 :分析Tweet的价值
采取的新闻语料来自于CNN/USA,包含121篇文档,455个要点,78419个链接Tweet。Tweet含有指向新闻内容的链接,然后通过统计图像说明Tweet对于文本摘要的作用
这张图说明了那些要点句子所在文章中的位置.。
这张图表示那些前4被Tweet命中的句子在新闻中的位置
要点位置与Tweet选出的前四的句子位置比较,二者具有高度重合
每篇文档的Highlight和Tweet的最大相似度比较
实际工作二:采用的模型构建方法,构建了2个模型,其中一个是Social Vote,也就是采用投票机制选出与Tweet最相关的top-4的句子作为摘要,简单粗暴。Heterogeneous Graph Random Walk模型,仿照LexRank算法(注:与pagerank的思想近似,图排序。Lexrank)。只不过我们的图是异质的,链接二者的分别是Tweet和Sentence。采用如下规则设置权重:
3. 效果比较:
可以看到采用Tweet后性能有了显著提升(其中CrossL2R采用双t检验)。
4. 结果分析:我们还需要考虑Tweet的Volume和Lantency对于摘要准确率的影响。(首先我们选取F测评而不是Recall,是因为句子长度无限制,为了防止不公)
(1)首先我们比较了β对于HGRW模型的影响,经过比较发现当β的取值越高,在HGRW模型下表现的效果越好。对比图形我们采用0.8。事实上当β>0.85的时候,HGRW-S的的分会下降,这是因为对Tweet考虑过多,噪声导致了Sentence的精度下降。
(2)分析延时和数量众多的Tweet的影响(The impact of tweets volume and latency):我们下载news并记录时间,转成TimeStamp,然后我们重新下载并记录Tweet的时间,就二者做比较。并可以比较Tweet的数目对于得分的影响。
这幅图体现了Tweet Volume和score的关系,当数目达到250时趋于平稳,Tweet数目越大更有利。Social Vote模型略微有些不稳定。
这个图表展现了时间之间的联系,随着时间的增长Tweet数量会增加,而整体随着时间的增长得分也会升高。
时间和Tweet数目的关系
5. 未来需要还要考虑的问题:寻找那些数目巨大但是与News之间无链接的Tweet。交叉语言进行摘要。
论文阅读:Gibberish, Assistant, or Master? Using Tweets Linking to News for Extractive Single-Document Su相关推荐
- 论文阅读(XiangBai——【AAAI2017】TextBoxes_A Fast Text Detector with a Single Deep Neural Network)...
XiangBai--[AAAI2017]TextBoxes:A Fast Text Detector with a Single Deep Neural Network 目录 作者和相关链接 方法概括 ...
- 论文阅读 2017 —— Sensor Fusion for Fiducial Tags: Highly Robust Pose Estimation from Single Frame RGBD
这是一篇发表在IROS的一篇论文,用RGBD相机提升码标(Aruco)的位姿精度.尽管在增强现实和计算机视觉中可以应用多种码标,但是在机器人应用中,从这些码标中获得准确的位姿目前仍然是个挑战.难点很清 ...
- [论文阅读] (06) 万字详解什么是生成对抗网络GAN?经典论文及案例普及
<娜璋带你读论文>系列主要是督促自己阅读优秀论文及听取学术讲座,并分享给大家,希望您喜欢.由于作者的英文水平和学术能力不高,需要不断提升,所以还请大家批评指正,非常欢迎大家给我留言评论,学 ...
- 【论文阅读】A Gentle Introduction to Graph Neural Networks [图神经网络入门](5)
[论文阅读]A Gentle Introduction to Graph Neural Networks [图神经网络入门](5) Graph Neural Networks 图神经网络 Now th ...
- 【论文阅读】A Gentle Introduction to Graph Neural Networks [图神经网络入门](1)
[论文阅读]A Gentle Introduction to Graph Neural Networks [图神经网络入门](1) 最近读了一篇Distill网站上的一篇文章,讲的是图神经网络的入门, ...
- [论文阅读] (12)英文论文引言introduction如何撰写及精句摘抄——以入侵检测系统(IDS)为例
<娜璋带你读论文>系列主要是督促自己阅读优秀论文及听取学术讲座,并分享给大家,希望您喜欢.由于作者的英文水平和学术能力不高,需要不断提升,所以还请大家批评指正,非常欢迎大家给我留言评论,学 ...
- 论文阅读: Channel Augmented Joint Learning for Visible-Infrared Recognition
论文阅读: Channel Augmented Joint Learning for Visible-Infrared Recognition code: https://gitee.com/mind ...
- The Chubby lock service for loosely-coupled distributed systems 论文阅读笔记
The Chubby lock service for loosely-coupled distributed systems 论文阅读笔记 特点:高可靠.高可用.粗粒度锁服务.小文件存储 主要用于高 ...
- 论文阅读笔记 - Chubby: The Chubby lock service for loosely-coupled distributed systems
作者:刘旭晖 Raymond 转载请注明出处 Email:colorant at 163.com BLOG:http://blog.csdn.net/colorant/ 更多论文阅读笔记 http:/ ...
最新文章
- Apache JMeter2.13 实战
- 信息系统项目管理师:论项目的质量管理
- asp.net Forums 之HttpHandler和HttpModule
- juqery代码优化
- 保留数据给硬盘增加分区
- linux slub分配器浅析
- leetcode-187-重复的DNA序列
- 2018年AI和ML(NLP、计算机视觉、强化学习)技术总结和2019年趋势(下)
- 文件的复制、移动、压缩等对SELinux属性关系详解
- 160906、Dubbo与Zookeeper、SpringMVC整合和使用(负载均衡、容错)
- halcon窗体的移动和缩放_Halcon hWindowControl 鼠标缩放平移区域模板匹配绘制
- iOS Charles(青花瓷)安装
- 基于51单片机的8位数码管时钟设计—按键修改时间
- 咖啡店管理系统设计与实现C语言,答粉丝问|GUI编程实例化之咖啡店点单系统
- 根据SNP的位置从基因组提取上下游序列
- 源站IP暴露了怎么自查?
- 解析mp3文件,获得mp3中的专辑图片
- 2018第一次校队集训题解
- publiccms部署步骤
- 【攻破css系列——第九天】常规流
热门文章
- 程序员如何防止脑疲劳:下午补充一些干果
- 软件如何进行压力测试,软件如何进行压力测试?
- Gradle慢需要6min 现在20s解决了。
- python读取excel多个sheet页并合并成一页
- 结构化设计向导与IP核生成工具——IP核生成时.xaw与.xco的区别
- linux apple开发环境,Linux上构筑iPhone OS3.1.2开发环境 实例操作
- Mockito开发指南
- 物理机安装esxi系统
- WIN10+VS2015部署PanddleOCR
- 阿里云4核8G服务器10M带宽支持在线人数并发量计算