这是SIGIR 2015的论文,名字是Gibberish, Assistant, or Master? Using Tweets Linking to News for Extractive Single-Document Summarization,我这个周末就在看这篇文章,现在记录一下该文章的阅读经历与知识总结。

首先这篇论文的目的在于想要提取新闻的摘要,是一个文本摘要自动提取问题。做这件文本摘要问题与Tweet挂钩,找寻到了Tweet与转发的新闻链接间的关系,并通过这种关系设计基于Tweet的对于新闻的摘要提取。

1. 明确文章目的:单文本的自动摘要

存在的问题:如果用Tweet作为使用方法面临的问题主要是Tweet的内容表述不够正规、含有很多噪声,用户的具体表现也很难捕捉。推文又不可避免的受到时间、长短、数量等因素的影响。这些都有可能影响摘要的性能。

本文想要解决的主要问题:(1)链接Tweet做文本摘要是否有用?

(2)如果有用,是起一个辅助(assistant)作用还是主要(master)作用?
                                                 (3)诸如发布Tweet的时间等影响因素起了什么作用?是阻碍了摘要的准确还是考虑了摘要质量的合理权衡?

本文主要用的东西和采取的思路:采用无监督的方法进行构建,再进行比较判断效果以及数量和时间的影响因素。

2. 实际工作一 :分析Tweet的价值

采取的新闻语料来自于CNN/USA,包含121篇文档,455个要点,78419个链接Tweet。Tweet含有指向新闻内容的链接,然后通过统计图像说明Tweet对于文本摘要的作用

这张图说明了那些要点句子所在文章中的位置.。

这张图表示那些前4被Tweet命中的句子在新闻中的位置

要点位置与Tweet选出的前四的句子位置比较,二者具有高度重合

每篇文档的Highlight和Tweet的最大相似度比较

实际工作二:采用的模型构建方法,构建了2个模型,其中一个是Social Vote,也就是采用投票机制选出与Tweet最相关的top-4的句子作为摘要,简单粗暴。Heterogeneous Graph Random Walk模型,仿照LexRank算法(注:与pagerank的思想近似,图排序。Lexrank)。只不过我们的图是异质的,链接二者的分别是Tweet和Sentence。采用如下规则设置权重:

3. 效果比较:

可以看到采用Tweet后性能有了显著提升(其中CrossL2R采用双t检验)。

4. 结果分析:我们还需要考虑Tweet的Volume和Lantency对于摘要准确率的影响。(首先我们选取F测评而不是Recall,是因为句子长度无限制,为了防止不公)

(1)首先我们比较了β对于HGRW模型的影响,经过比较发现当β的取值越高,在HGRW模型下表现的效果越好。对比图形我们采用0.8。事实上当β>0.85的时候,HGRW-S的的分会下降,这是因为对Tweet考虑过多,噪声导致了Sentence的精度下降。

(2)分析延时和数量众多的Tweet的影响(The impact of tweets volume and latency):我们下载news并记录时间,转成TimeStamp,然后我们重新下载并记录Tweet的时间,就二者做比较。并可以比较Tweet的数目对于得分的影响。

这幅图体现了Tweet Volume和score的关系,当数目达到250时趋于平稳,Tweet数目越大更有利。Social Vote模型略微有些不稳定。

这个图表展现了时间之间的联系,随着时间的增长Tweet数量会增加,而整体随着时间的增长得分也会升高。

时间和Tweet数目的关系

5.  未来需要还要考虑的问题:寻找那些数目巨大但是与News之间无链接的Tweet。交叉语言进行摘要。

论文阅读:Gibberish, Assistant, or Master? Using Tweets Linking to News for Extractive Single-Document Su相关推荐

  1. 论文阅读(XiangBai——【AAAI2017】TextBoxes_A Fast Text Detector with a Single Deep Neural Network)...

    XiangBai--[AAAI2017]TextBoxes:A Fast Text Detector with a Single Deep Neural Network 目录 作者和相关链接 方法概括 ...

  2. 论文阅读 2017 —— Sensor Fusion for Fiducial Tags: Highly Robust Pose Estimation from Single Frame RGBD

    这是一篇发表在IROS的一篇论文,用RGBD相机提升码标(Aruco)的位姿精度.尽管在增强现实和计算机视觉中可以应用多种码标,但是在机器人应用中,从这些码标中获得准确的位姿目前仍然是个挑战.难点很清 ...

  3. [论文阅读] (06) 万字详解什么是生成对抗网络GAN?经典论文及案例普及

    <娜璋带你读论文>系列主要是督促自己阅读优秀论文及听取学术讲座,并分享给大家,希望您喜欢.由于作者的英文水平和学术能力不高,需要不断提升,所以还请大家批评指正,非常欢迎大家给我留言评论,学 ...

  4. 【论文阅读】A Gentle Introduction to Graph Neural Networks [图神经网络入门](5)

    [论文阅读]A Gentle Introduction to Graph Neural Networks [图神经网络入门](5) Graph Neural Networks 图神经网络 Now th ...

  5. 【论文阅读】A Gentle Introduction to Graph Neural Networks [图神经网络入门](1)

    [论文阅读]A Gentle Introduction to Graph Neural Networks [图神经网络入门](1) 最近读了一篇Distill网站上的一篇文章,讲的是图神经网络的入门, ...

  6. [论文阅读] (12)英文论文引言introduction如何撰写及精句摘抄——以入侵检测系统(IDS)为例

    <娜璋带你读论文>系列主要是督促自己阅读优秀论文及听取学术讲座,并分享给大家,希望您喜欢.由于作者的英文水平和学术能力不高,需要不断提升,所以还请大家批评指正,非常欢迎大家给我留言评论,学 ...

  7. 论文阅读: Channel Augmented Joint Learning for Visible-Infrared Recognition

    论文阅读: Channel Augmented Joint Learning for Visible-Infrared Recognition code: https://gitee.com/mind ...

  8. The Chubby lock service for loosely-coupled distributed systems 论文阅读笔记

    The Chubby lock service for loosely-coupled distributed systems 论文阅读笔记 特点:高可靠.高可用.粗粒度锁服务.小文件存储 主要用于高 ...

  9. 论文阅读笔记 - Chubby: The Chubby lock service for loosely-coupled distributed systems

    作者:刘旭晖 Raymond 转载请注明出处 Email:colorant at 163.com BLOG:http://blog.csdn.net/colorant/ 更多论文阅读笔记 http:/ ...

最新文章

  1. Apache JMeter2.13 实战
  2. 信息系统项目管理师:论项目的质量管理
  3. asp.net Forums 之HttpHandler和HttpModule
  4. juqery代码优化
  5. 保留数据给硬盘增加分区
  6. linux slub分配器浅析
  7. leetcode-187-重复的DNA序列
  8. 2018年AI和ML(NLP、计算机视觉、强化学习)技术总结和2019年趋势(下)
  9. 文件的复制、移动、压缩等对SELinux属性关系详解
  10. 160906、Dubbo与Zookeeper、SpringMVC整合和使用(负载均衡、容错)
  11. halcon窗体的移动和缩放_Halcon hWindowControl 鼠标缩放平移区域模板匹配绘制
  12. iOS Charles(青花瓷)安装
  13. 基于51单片机的8位数码管时钟设计—按键修改时间
  14. 咖啡店管理系统设计与实现C语言,答粉丝问|GUI编程实例化之咖啡店点单系统
  15. 根据SNP的位置从基因组提取上下游序列
  16. 源站IP暴露了怎么自查?
  17. 解析mp3文件,获得mp3中的专辑图片
  18. 2018第一次校队集训题解
  19. publiccms部署步骤
  20. 【攻破css系列——第九天】常规流

热门文章

  1. 程序员如何防止脑疲劳:下午补充一些干果
  2. 软件如何进行压力测试,软件如何进行压力测试?
  3. Gradle慢需要6min 现在20s解决了。
  4. python读取excel多个sheet页并合并成一页
  5. 结构化设计向导与IP核生成工具——IP核生成时.xaw与.xco的区别
  6. linux apple开发环境,Linux上构筑iPhone OS3.1.2开发环境 实例操作
  7. Mockito开发指南
  8. 物理机安装esxi系统
  9. WIN10+VS2015部署PanddleOCR
  10. 阿里云4核8G服务器10M带宽支持在线人数并发量计算