分享的这篇论文讲的主要是从体育赛事的直播文本当中自动生成新闻,个人对这个方向很感兴趣,而且也觉得这个方向非常具有研究前景,在这里简单谈一下我对这篇论文的看法。

综述:

作为该方向上的一个初步研究,作者将此作为一个特殊的文档摘要任务,采取句子抽取的方式来处理。将足球比赛的直播文本作为输入,基于LTR(Learning to Rank)模型利用传统的句子特征以及为该任务特别设计的句子特征来给句子打分,根据句子的得分排名选择其中的一部分来构成新闻;为了解决局部冗余问题,采用基于DPP(Determinantal Point Process)的句子概率选择算法来生成最终的新闻摘要。实验结果表明该方法很适合这个任务并且在很多方面比baseline更加优越。

1、简介

论文的主要目的是实现依据足球比赛的解说直播文本内容自动生成赛事新闻,作为一个初步研究,将这个任务视为一个特殊的文档摘要任务:从比赛的直播文本中抽取句子生成新闻。

由于解说直播文本的一些特性,给系统的实现带来了挑战:1、几乎每一分钟都会有很多句子描述不同的事件;2、文本内容按照时间的顺序排序,很多重要的事件没有凸显;3、解说员更喜欢使用简单的,重复的词来描述同一种类的关键事件,并且以短句子居多,这将会使生成的新闻有很高的冗余度。

论文的主要贡献总结如下:

  • 构建了数据集
  • 基于LTR模型利用传统特征和Task-specific特征
  • 提出一个概率句子选择算法解决冗余问题
  • 实验结果表明任务的可行性,并且提出的方法比一些strong basiline要更好。
2、问题描述
2.1、任务描述
足球比赛G的直播文本中候选句子的集合S={s1,s2,s3,...sn},生成新闻的长度不应超过B
2.2、数据收集
从新浪体育收集150场足球比赛的直播文本,并依据对应的比赛,从新浪体育和163足球中各收集一篇相应的新闻文本,作为任务的gold-standard news,并使用中文分词工具将句子切分成词序列。
3、通过抽取句子构建体育新闻
3.1、训练数据格式
每个候选句子Si的输入格式(Xi,Yi),Xi表示特征向量,Yi在这里表示得分,个人觉得这里应该是一个初始值,因为最终的排序是要根据Yi来排序的。
3.2、特征
其中将传统特征(position、length、number of stopword、sum of word weights 、similarity to the neighboring sentence)与任务特有的特征(标志词、比分、时间、运动员的收获欢迎程度)相结合
3.3、句子选择
对于采用以上步骤生成的体育新闻用Determinantal Point Processes(DPPs)来解决本地冗余问题
4、实验设置
4.1、数据准备
将实验数据分为三组,进行交叉验证
4.2、LTR
LTR模型:LTR是一个监督学习过程。对与每个给定的查询-文档对(query document pair),抽取相应的特征(既包括查询和文档之间的各种相关度,也包括文档本身的特征以及重要性等),另外通过人工标注或者从日志中挖掘的方法来得到给定查询下文档集合的真实序列。然后我们使用LTR的各种算法来学到一个排序模型,使其输出的文档序列和真实序列尽可能相似。
文档对方法
Pairwise方法是目前比较流行的方法,效果也非常不错。它的主要思想是将Ranking问题形式化为二元分类问题。
举例:pairwise将顺序d3,d2,d1看成{d3 , d2,+1},{d2 , d1,+1},{d3 , d1,+1},{d2,d3,-1},{d1,d2,-1},{d3,d2,-1}。之后进行优化。于是,按照这种方式,我们就得到了二元分类器训练所需的样本了。预测时,只需要对所有pair进行分类,便可以得到文档集的一个偏序关系,从而实现排序。
缺点:1.它对不同级别之间的区分度是一致对待的。2.相关文档集大小带来的模型偏置。
使用随机森林预测得分排名。机器学习当前比较流行的算法,在这里根据特征计算得分(应该是选取某个概率最高的分数)。
4.3、余Baseline比较
与HeadTail、Centriod、LexRank、ILP以及Highlight进行比较。效果比这些strong basiline都好。

4.4、评价方法和指标

Automatic Evaluation和Pyramid Evaluation
5、结果与分析
5.1、与Baseline方法对比,结果比那些Strong Baseline要好。
5.2、特征验证。传统特征与task-specific特征对最终结果都有影响。
5.3、改进空间。
①直播文本中出现大量的短句子,而论文采取的方法很容易忽略这些短句子,而包含关键事件的部分短句子应当被抽取出来。个人认为这部分可以考虑套用seq2seq的方法,将含有关键事件的相邻的时间点的短句子融合起来,采用abstractive的方法,效果会比较好。
②作者认为文章所提到的句子选择算法只能解决局部冗余问题,而不能解决全局冗余问题。但我个人认为新闻最后的总结与比赛进程描述内容有所重复是可以接受的,结合体育新闻的特点,很多gold-standard都将总结部分放置新闻开头部分。
③在可读性方面还有较大提升空间

Towards Constructing Sports News from Live Text Commentary读书笔记相关推荐

  1. 《Data-Intensive Text Processing with mapReduce》读书笔记之一:前言

    暑假闲得蛋痒,混混沌沌,开始看<Data-Intensive Text Processing with mapReduce>,尽管有诸多单词不懂,还好六级考多了,虽然至今未过:再加上自己当 ...

  2. 《Deep Learning With Python second edition》英文版读书笔记:第十一章DL for text: NLP、Transformer、Seq2Seq

    文章目录 第十一章:Deep learning for text 11.1 Natural language processing: The bird's eye view 11.2 Preparin ...

  3. SSP: Semantic Space Projection for Knowledge Graph Embedding with Text Descriptions 论文读书笔记

    SSP: Semantic Space Projection for Knowledge Graph Embedding with Text Descriptions 论文读书笔记 1. Motiva ...

  4. Pyramid Mask Text Detector阅读笔记

    2020.9.9 Pyramid Mask Text Detector   作者分析了先前以Mask-RCNN为基础的方法存在的问题,并在此基础上提出了改进办法并设计了PMTD. 问题分析 1.多数文 ...

  5. LET: Linguistic Knowledge Enhanced Graph Transformer for Chinese Short Text Matching学习笔记

    文章目录 1. 背景与相关技术 1.1 解决的问题与方法 1.2 HowNet 1.3 Word lattice graph 1.4 Graph attention networks 2. LET 2 ...

  6. Constructing Category-Specific Models for Monocular Object-SLAM(阅读笔记)

    Constructing Category-Specific Models for Monocular Object-SLAM 1 摘要 摘要 - 我们提出了一种用单目相机进行实时面向对象SLAM的新 ...

  7. Sublime Text 之使用笔记(一)

    上学期开始就经常看到一款黑色背景.语法高亮的文本编辑器,却一直不知道它叫啥.最近又吃饱了撑着没事儿找事儿,Google 着 Google 着,就瞄到了这个号称是咱 Programmer 必备神器的 S ...

  8. TextDragon: An End-to-End Framework for Arbitrary Shaped Text Spotting阅读笔记

    摘要 本文提出一种用来制造文本检测与识别关系的可微运算RoISlide,使模型成为端到端模型.本文在两个弯曲文本数据集CTW1500和Total-Text上的表现达到最佳,在常规文本数据集ICDAR2 ...

  9. 阿士比亚:搜索团队智能内容生成实践

    一.项目背景 1.1 什么是智能内容生成?         更准确的定义应该是智能文本内容生成,指的是训练机器模型,智能生成单品推荐理由.多商品清单文章一类的文本型内容,显然,与智能内容生成相对的概念 ...

最新文章

  1. Python - 移除List中重复项的五种常用方法
  2. 修改域名dns服务器,新网互联域名如何修改DNS设置方法
  3. Matlab 绘制三维立体图(以地质异常体为例)
  4. 如果文件夹不存在,请创建它
  5. 华为鸿蒙分布式系统2020,鸿蒙2.0来了!华为开发者大会HDC 2020宣布
  6. 华科计算机课程设计,华中科大操作系统课程设计报告(附源码).doc
  7. 计算机单词修改是否正确,计算机组装必懂的53个单词及装机步骤51条.doc
  8. 大工18秋计算机文化基础在线测试2,大工18秋《计算机文化基础》在线测试2【答案】...
  9. Asp.net MVC 3实例学习之ExtShop(一)————创建应用并设置开发环境
  10. python 遍历文件夹
  11. 思达报表工具Style Report基础教程—通过镜像,子表和联合将逗号分隔的字段内容处理成多行数据...
  12. 王元元主编书籍计算机数学基础,计算机的数学基础有哪些
  13. exp 导数oracle,指数函数 exp(x) 导数的直接求法
  14. 趋势(被亚信并购)杀毒软件强制卸载
  15. ALLEGRO 中导入PADS的asc文件时显示pads_in.log does not exit
  16. JavaScript学习笔记(BOM编程案例)
  17. Temporal Anti-Aliasing(时域抗锯齿TAA)
  18. python疫苗预约系统毕业设计开题报告
  19. [电脑问题1]Microsoft Visual Basic运行时错误‘-2147221164’:没有注册类
  20. PCB板ICT/FCT夹具应力如何测试?

热门文章

  1. kibana discover查询语法
  2. 国内有哪些VPS值得推荐?
  3. 使用OpenCV透视变换技术实现坐标变换实践
  4. 一定会在计算机领域取得成功英文,西子的英文考卷
  5. Prometheus Operator概述
  6. 利用python进行体重指数计算
  7. 经济高效 无盘组网设备选购方案(转)
  8. 易语言Linux编写网页访问,用易语言做一个网页post采集和登录
  9. 学习笔记-会话技术CookieSession
  10. 人机协作,小i机器人搭档杨澜主持上海科技节闭幕式