Towards Constructing Sports News from Live Text Commentary读书笔记
分享的这篇论文讲的主要是从体育赛事的直播文本当中自动生成新闻,个人对这个方向很感兴趣,而且也觉得这个方向非常具有研究前景,在这里简单谈一下我对这篇论文的看法。
综述:
作为该方向上的一个初步研究,作者将此作为一个特殊的文档摘要任务,采取句子抽取的方式来处理。将足球比赛的直播文本作为输入,基于LTR(Learning to Rank)模型利用传统的句子特征以及为该任务特别设计的句子特征来给句子打分,根据句子的得分排名选择其中的一部分来构成新闻;为了解决局部冗余问题,采用基于DPP(Determinantal Point Process)的句子概率选择算法来生成最终的新闻摘要。实验结果表明该方法很适合这个任务并且在很多方面比baseline更加优越。
1、简介
论文的主要目的是实现依据足球比赛的解说直播文本内容自动生成赛事新闻,作为一个初步研究,将这个任务视为一个特殊的文档摘要任务:从比赛的直播文本中抽取句子生成新闻。
由于解说直播文本的一些特性,给系统的实现带来了挑战:1、几乎每一分钟都会有很多句子描述不同的事件;2、文本内容按照时间的顺序排序,很多重要的事件没有凸显;3、解说员更喜欢使用简单的,重复的词来描述同一种类的关键事件,并且以短句子居多,这将会使生成的新闻有很高的冗余度。
论文的主要贡献总结如下:
- 构建了数据集
- 基于LTR模型利用传统特征和Task-specific特征
- 提出一个概率句子选择算法解决冗余问题
- 实验结果表明任务的可行性,并且提出的方法比一些strong basiline要更好。
Pairwise方法是目前比较流行的方法,效果也非常不错。它的主要思想是将Ranking问题形式化为二元分类问题。
举例:pairwise将顺序d3,d2,d1看成{d3 , d2,+1},{d2 , d1,+1},{d3 , d1,+1},{d2,d3,-1},{d1,d2,-1},{d3,d2,-1}。之后进行优化。于是,按照这种方式,我们就得到了二元分类器训练所需的样本了。预测时,只需要对所有pair进行分类,便可以得到文档集的一个偏序关系,从而实现排序。
缺点:1.它对不同级别之间的区分度是一致对待的。2.相关文档集大小带来的模型偏置。
4.4、评价方法和指标
②作者认为文章所提到的句子选择算法只能解决局部冗余问题,而不能解决全局冗余问题。但我个人认为新闻最后的总结与比赛进程描述内容有所重复是可以接受的,结合体育新闻的特点,很多gold-standard都将总结部分放置新闻开头部分。
Towards Constructing Sports News from Live Text Commentary读书笔记相关推荐
- 《Data-Intensive Text Processing with mapReduce》读书笔记之一:前言
暑假闲得蛋痒,混混沌沌,开始看<Data-Intensive Text Processing with mapReduce>,尽管有诸多单词不懂,还好六级考多了,虽然至今未过:再加上自己当 ...
- 《Deep Learning With Python second edition》英文版读书笔记:第十一章DL for text: NLP、Transformer、Seq2Seq
文章目录 第十一章:Deep learning for text 11.1 Natural language processing: The bird's eye view 11.2 Preparin ...
- SSP: Semantic Space Projection for Knowledge Graph Embedding with Text Descriptions 论文读书笔记
SSP: Semantic Space Projection for Knowledge Graph Embedding with Text Descriptions 论文读书笔记 1. Motiva ...
- Pyramid Mask Text Detector阅读笔记
2020.9.9 Pyramid Mask Text Detector 作者分析了先前以Mask-RCNN为基础的方法存在的问题,并在此基础上提出了改进办法并设计了PMTD. 问题分析 1.多数文 ...
- LET: Linguistic Knowledge Enhanced Graph Transformer for Chinese Short Text Matching学习笔记
文章目录 1. 背景与相关技术 1.1 解决的问题与方法 1.2 HowNet 1.3 Word lattice graph 1.4 Graph attention networks 2. LET 2 ...
- Constructing Category-Specific Models for Monocular Object-SLAM(阅读笔记)
Constructing Category-Specific Models for Monocular Object-SLAM 1 摘要 摘要 - 我们提出了一种用单目相机进行实时面向对象SLAM的新 ...
- Sublime Text 之使用笔记(一)
上学期开始就经常看到一款黑色背景.语法高亮的文本编辑器,却一直不知道它叫啥.最近又吃饱了撑着没事儿找事儿,Google 着 Google 着,就瞄到了这个号称是咱 Programmer 必备神器的 S ...
- TextDragon: An End-to-End Framework for Arbitrary Shaped Text Spotting阅读笔记
摘要 本文提出一种用来制造文本检测与识别关系的可微运算RoISlide,使模型成为端到端模型.本文在两个弯曲文本数据集CTW1500和Total-Text上的表现达到最佳,在常规文本数据集ICDAR2 ...
- 阿士比亚:搜索团队智能内容生成实践
一.项目背景 1.1 什么是智能内容生成? 更准确的定义应该是智能文本内容生成,指的是训练机器模型,智能生成单品推荐理由.多商品清单文章一类的文本型内容,显然,与智能内容生成相对的概念 ...
最新文章
- Python - 移除List中重复项的五种常用方法
- 修改域名dns服务器,新网互联域名如何修改DNS设置方法
- Matlab 绘制三维立体图(以地质异常体为例)
- 如果文件夹不存在,请创建它
- 华为鸿蒙分布式系统2020,鸿蒙2.0来了!华为开发者大会HDC 2020宣布
- 华科计算机课程设计,华中科大操作系统课程设计报告(附源码).doc
- 计算机单词修改是否正确,计算机组装必懂的53个单词及装机步骤51条.doc
- 大工18秋计算机文化基础在线测试2,大工18秋《计算机文化基础》在线测试2【答案】...
- Asp.net MVC 3实例学习之ExtShop(一)————创建应用并设置开发环境
- python 遍历文件夹
- 思达报表工具Style Report基础教程—通过镜像,子表和联合将逗号分隔的字段内容处理成多行数据...
- 王元元主编书籍计算机数学基础,计算机的数学基础有哪些
- exp 导数oracle,指数函数 exp(x) 导数的直接求法
- 趋势(被亚信并购)杀毒软件强制卸载
- ALLEGRO 中导入PADS的asc文件时显示pads_in.log does not exit
- JavaScript学习笔记(BOM编程案例)
- Temporal Anti-Aliasing(时域抗锯齿TAA)
- python疫苗预约系统毕业设计开题报告
- [电脑问题1]Microsoft Visual Basic运行时错误‘-2147221164’:没有注册类
- PCB板ICT/FCT夹具应力如何测试?