关于GCSTA by zrx
这篇文章也是关于aspect的,他基于aspect在连贯性上做了突破。
1、他认为现在大部分的文摘系统对于获取关键信息都是采用的统计的方法,但是当我们要获取某些特定信息时这种方法并不奏效,比如让我要知道一场灾难的原因,很多描述原因的句子中并不一定会出现cause这个词,这时统计便可能会漏掉这些重要信息。因此就出现aspect了撒~~
2、aspect分为verb aspect 和products aspect。
3、此论文生成的文摘的特点:a、侧重于用户需求。b、文摘连贯(这里的连贯指的是内容上的连贯,不是表法方式上的连贯)。
4、对于基于aspect的文摘,他觉得用以往的监督或者无监督的学习算法,聚类啥的,并不能得到较好的结果,往往只属于一个特定的aspect。他觉得这里要是用信息抽取可能得到的结果会出乎意料。
5、在aspect的识别方面,我基本没看懂。他定义了一个新的特征类型,meta-phrase。这个东东更是一个二元组(m1,m2)这里面,mi是一个词或者短语,这是一个语法标签,或者说是hi米命名实体。这个语法标签可以是本地成分也可以是语法角色。这样就形成了一个语法语义结合的模式。假如“linked fen-phen” 可以表示为:(/PRED/,/dobj/)(/PRED/,'fen-phen')('linked',/dobj/)('linked','fen-phen')不懂!!这个标签干什么用,是通过这个标签进行短语抽取么,抽取有干什么用。。。
6、这样,一个句子有多个aspect的标签因此句子的标注是一个多标签分类问题,转化为单标签分类问题处理:Label combination(LC)。这种方法有一个而潜在问题:多余每个定义的但标签类没有足够的训练集,二进制分解(BD)假定标签相互独立,效果更好。。(boutell et al.,2004;Tsoumakas and Katakis,2007)不懂。。。
7、由于在数据的不充足,通过限制级的数据集得到的分类模型很不准确,因此这里它采用办监督学习的方法,有效解决这个问题。通过transductive SVM寻找一个超平面,使得正面负面最大边缘化。
8、在连贯性方面,他用了HMM建立主题模型,以往都是基于word的topic模型,他用aspect,在topic和sentence间添加了一个aspect层。在上一步中,我们已经对每个句子进行了多aspect的标注。在HMM中用veiterbi算法考虑句子的顺序信息。得到所有句子排序的极大似然(句子流畅性的诀窍)。
9、对于句子抽取,依旧是打分,在原始只考虑frequency的基础上添加aspect打分,两者结合。最后再衡量整体文摘长度啊,想去句子的相似度的细节问题。。
疑问总结:
a、没有对于他建立的那个特征不是很明白。通过这个标签抽取的短语有什么用,她和后面的aspect什么关系。
b、他是说将HMM中之前以词为单位的研究,变成了句子,并且添加了aspect层??然后后期的veiterbi算法也变成了针对句子的??这个句子是什么句子,所有的句子么。。那这个产生的又不是摘要和摘要的连贯性有什么关系。。。。不是应该先打分后排序吗,这一块怎么理解。。。
关于我的想法:
a、这篇文章提到的信息抽取虽然没看懂,但是这个内容用到自动文摘里面应该满给力,比如灾难发生时间,可能我的统计方法根本不会把这个时间得到,但是信息抽取可以直接得到,快速有效。
b、关于对于句子打分,是不是之前看的那篇文章的LU算法会比这个好呢,在LU的基础上再融合aspect打分~~
c、句子排序方面,我并么有看到他怎么利用aspect信息了,师兄不是说我们可以根据aspect得到一个非扁平的结构,指导句子排序吗,我觉得可行。这里面的veiterbi算法是不是还是扁平的~~
d、对于抽取句子的排序,我觉得这篇文章的方法不好撒,局部最优撒,借鉴之前的文章,使用整数规划模型来吧。我们是不是可以搞成多目标规划呢。。。
转载于:https://www.cnblogs.com/Vanior/archive/2012/07/03/2571130.html
关于GCSTA by zrx相关推荐
- ZRX的网络流题目总结
PARTI 最大流 例1:bzoj 3931 Description 路由是指通过计算机网络把信息从源地址传输到目的地址的活动,也是计算机网络设计中的重点和难点.网络中实现路由发的硬件设备称为路由器. ...
- 自动加载zrx文件的四种方法
1.使用注册表 假设你的arx文件名字是aaa.arx绝对路径是c:\aaa.arx (1)Autocad:拿cad13做例子 在注册表路径下HKEY_CURRENT_USER\Software\Au ...
- 中望cad vs2019 helloworld代码 手工配置object zrx应用程序开发环境
1.新建项目 选择c++,空项目 2.创建文件: 模块定义文件helloworld.def, 文件 stdafx.h 文件targetver.h 文件HelloWorld.cpp 代码 下载:http ...
- ZRX的省选算法总结
ZRX本周日就要省选了,前段时间做题时边做边总结,整理了一部分省选算法及我认为的比较经典的例题,分享给大家,希望能和现在以及以后看到的各位OIER共勉.
- 2017 在zrx踩过的坑
1.修改分配规则页 !!忽然有一天 左侧的单选按钮不能点了!! 左侧代码的外层结构: <RadioGroup value={this.state.value} defaultValue={thi ...
- 复数类四则运算及插入/提取操作zrx
在C++中,标准库本身已经对左移运算符<<和右移运算符>>分别进行了重载,使其能够用于不同数据的输入输出,但是输入输出的对象只能是 C++ 内置的数据类型(例如 bool.in ...
- 虚拟货币市值回调到4100亿整数关口,EOS逆势站上100关口
虚拟货币 虚拟货币市值 在过去24小时中,虚拟货币整体回调,市值为4100亿美元.只有EOS逆势上扬,已经站上了100元(17.5美元)上方. 虚拟货币市场 距离12月份最高点几乎只有一步之遥. EO ...
- 小程序多个echars_微信小程序中使用echarts以及踩坑总结
人在家中坐,锅从天上来. 半个月前本来在家写着一个项目,还没来得及提测,领导突然一个电话,需要立刻去支援另一个项目,一打听,一个烂尾半年的项目,纵使内心不愿意,还是要去啊.因为鲁迅说过,生活就像强*, ...
- 独家 | 数据科学家指南:梯度下降与反向传播算法
作者:Richmond Alake 翻译:陈之炎 校对:zrx本文约3300字,建议阅读5分钟 本文旨在为数据科学家提供一些基础知识,以理解在训练神经网络时所需调用的底层函数和方法. 标签:神经网络, ...
最新文章
- leetcode第二题java_LeetCode第二题,Java实现
- python formatters 与字符串 小结 (python 2)
- linux 分区u盘 fdisk 简介
- MQTT与函数计算做热力图实践
- 《3D Math Primer for Graphics and Game Development》读书笔记1
- 170905-MyBatis中的关系映射
- 因虚假广告,顺丰被罚!
- 设计模式(八) : 结构型模式--装饰模式
- 编程语言“鄙视链” +1?亚马逊力捧 Rust,Go 技术负责人连发 14 条推特抵制“拉踩”...
- python 遍历_Python中遍历列表的方法总结
- 用C++ TR1 生成随机数
- 假Chrome扩展程序“Internet下载管理器”已安装20万次
- ubuntu nvidia 驱动卸载
- 3DMAX制作载具模型导入UE4导致轮子无碰撞解决方案
- 项目启动大会和项目开工会议的区别
- android谷歌服务框架(GoogleServicesFramework)
- 关键路径法举例和分析
- 最美的十大经典爱情句子{转}
- 16进制颜色值透明度百分比对照
- c语音异或运算符_一文看懂C语言异或运算