相关背景:

面对互联网信息量的不断扩张,用户迫切地需要自动化的信息获取工具来帮助在海量的信息源中迅速找到和获得真正所需的信息。主要相关方面的研究有自动摘要、关键词提取以及人物言论的自动提取,这些都可以帮助用户快速准确的获取其所需的真正信息,节省用户时间,提高用户体验。其中新闻人物言论自动提取就可以帮助用户在新闻阅读、观点总结中能够发挥较大的辅助作用。

什么是新闻人物言论:

新闻人物言论即是在报道的新闻中,某个人物、团体或机构在某个时间、某个地点表达某种观点、意见或态度。

提取出来的言论的后续应用:

1、话题检测与跟踪

2、建立人物观点图谱

3、对人物言论进行情感分类

4、舆情监督,可以感控相关人员情绪,便于领导更好的决策等

目前的方法:

1、基于规则(模式匹配)

主要包括模式获取模块、信息抽取模块。其中包括词法分析、NER、句法分析等。

2、基于统计(机器学习)

主要包括触发词、类别识别、事件元素识别等。

一、确定言论事件

触发词表建立:

1)首先人工建立触发词集作为种子;

2)通过种子到哈工大同义词林和知网的同义词林中去遍历查找;

3)如果某义项包含所有词中有K个以上都是在已建立的触发词词表中,则全部添加到同义词表中,其中K为同义扩展的阈值,一般K取3或者4;

4)触发词词表一般控制在100以内,太多在自动提取时会造成干扰,可以再手动整理缩小范围。

中心人物识别:

NER命名实体识别具体分为三大类(实体类、时间类和数字类)、七小类(人名、机构名、地名、时间、日期、货币和百分比),这里主要涉及包括人名,组织名,机构名即可。可以用pylyp工具包,stanfordnlp工具包以及深度学习基于BI-LSTM+crf算法进行提取。如果是垂直领域的小语料,可以采用人工辅助的方法建立中心人物词表。

言论事件:

一个包含能回退找到中心人物词的言论触发词的句子或句子的一部分,称为以此触发词为中心的言论事件。

言论事件二元判别:

包括候选事件中的事件触发词、触发词的词性信息、触发词和中心人物之间的距离等。

二、言论事件抽取

步骤流程:

三、确定言论结束

可以是以一句话作为停止。但是有的言论是有多句的,这里可以用tfidf将两个句子向量化,判断两句句话是不是类似的、说得同一个主题,这个问题变成这两个句子的距离是不是小于某个阈值。

依存句法分析:

依存句法分析定位需要提取的句子

初步实践效果:

原文如下:

string1 = """
台湾工业总会是岛内最具影响力的工商团体之一,2008年以来,该团体连续12年发表对台当局政策的建言白皮书,集中反映岛内产业界的呼声。台湾工业总会指出,2015年的白皮书就特别提到台湾面临“五缺”(缺水、缺电、缺工、缺地、缺人才)困境,使台湾整体投资环境走向崩坏。然而四年过去,“五缺”未见改善,反而劳动法规日益僵化、两岸关系陷入紧张、对外关系更加孤立。该团体质疑,台当局面对每年的建言,“到底听进去多少,又真正改善了几多”?围绕当局两岸政策,工总认为,由数据来看,当前大陆不仅是台湾第一大出口市场,亦是第一大进口来源及首位对外投资地,建议台湾当局摒弃两岸对抗思维,在“求同存异”的现实基础上,以“合作”取代“对立”,为台湾多数民众谋福创利。工总现任理事长、同时也是台塑企业总裁的王文渊指出,过去几年,两岸关系紧张,不仅影响岛内观光、零售、饭店业及农渔蔬果产品的出口,也使得岛内外企业对投资台湾却步,2020年新任台湾领导人出炉后,应审慎思考两岸问题以及中国大陆市场。"""

实践结果:


{'0': ['总会', '指出', ',2015年的白皮书就特别提到台湾面临“五缺”(缺水、缺电、缺工、缺地、缺人才)困境,使台湾整体投资环境走向崩坏。'],
'1': ['白皮书', '提到', '台湾面临“五缺”(缺水、缺电、缺工、缺地、缺人才)困境,使台湾整体投资环境走向崩坏。'],'2': ['工总', '认为', ',由数据来看,当前大陆不仅是台湾第一大出口市场,亦是第一大进口来源及首位对外投资地,建议台湾当局摒弃两岸对抗思维,在“求同存异”的现实基础上,以“合作”取代“对立”,为台湾多数民众谋福创利。'],
'3': ['王文渊', '指出', ',过去几年,两岸关系紧张,不仅影响岛内观光、零售、饭店业及农渔蔬果产品的出口,也使得岛内外企业对投资台湾却步,2020年新任台湾领导人出炉后,应审慎思考两岸问题以及中国大陆市场。']}

相关参考:人物言论抽取与跟踪技术研究

新闻人物言论自动提取相关推荐

  1. “三色鸽杯”南阳市第四届十大新闻人物揭晓

    "三色鸽杯"南阳市第四届十大新闻人物揭晓 http://www.nydaily.com.cn/  南阳日报头版 2006年1月13日 本报讯(记者贾东民)鲜花映红笑脸,奖杯展示风采 ...

  2. 基于Python的政府新闻人物网络挖掘(网络、群体与市场)

    用户手册 概述 程序支持使用结巴分词获取人物.地点.机构三类实体名,以 network x \text{network}x networkx 和 Neo4j \text{Neo4j} Neo4j 两种 ...

  3. 学多少返多少 | 人工智能核心课零门槛就业涨薪培养计划

    招生简章 2020年8月26日,数字化人才在线教育平台--开课吧获5.5亿元独立融资,创新职业在线教育历史上最大单笔融资.高额融资是投资人对开课吧7年来不断为社会输出高质量互联网人才的肯定.为了进一步 ...

  4. 人物-物理学家:爱因斯坦

    ylbtech-人物-物理学家:爱因斯坦 同义词 爱因斯坦(爱因斯坦)一般指阿尔伯特·爱因斯坦 阿尔伯特·爱因斯坦(Albert.Einstein,1879年3月14日-1955年4月18日),出生于 ...

  5. 【论文翻译】学习新闻事件预测的因果关系

    一.摘要 本文在这项工作中解决的问题是产生一个可能由给定事件引起的可能的未来事件. 论文提出了一种使用机器学习和数据挖掘技术建模和预测未来新闻事件的新方法.论文的Pundit算法概括了因果关系对的例子 ...

  6. 【免费毕设】基于jsp的新闻发布系统(论文)

    文章目录 目录 一.系统设计 二.系统实现 源文件 目录 一.系统设计 3.1系统分析 3.1.1需求分析 1.通过相关调查,要求网站具有以下功能: 2.通过网络,展示各行业新闻及相关信息. 3.提供 ...

  7. 论文笔记--基于 FCM 聚类的跨模态人物图像标注方法-2015

    期刊论文-基于 FCM 聚类的跨模态人物图像标注方法-2015-微型电脑应用-赵昀,张翌翀 文末附人脸标注相关论文下载地址 文章目录 摘要 技术 人脸检测与特征表示(与2012年吴伟硕士论文<跨 ...

  8. 如何策划新闻营销的主题?

    如何根据策划好的主题来设计企业的营销活动,使活动本身具有了新闻性,而提炼新闻,为了扩大新闻营销的影响,提高知名度. (1)关键人物 每个企业中应该有关键人物,英明的领导,杰出的科技人才,或者平凡的普通 ...

  9. 听懂新闻英语的十大方法(zt)

    (一)尽量先以自己熟悉的语言了解新闻内容 刚到ICRT 国内新闻中心上班的外籍记者,虽然多半中文程度并不差,但是有时候"新闻中文"并不强,在翻译或阅读一些中文的新闻稿时,虽然可以查 ...

  10. 教你如何听懂英语新闻

    (一)尽量先以自己熟悉的语言了解新闻内容 刚到 ICRT 国内新闻中心上班的外籍记者,虽然多半中文程度并不差,但是有时候「新闻中文」并不强,在翻译或阅读一些中文的新闻稿时,虽然可以查单字,但要完全了解 ...

最新文章

  1. 猜数游戏python_Hello,Python!小鲸教你学Python(九)之文件操作
  2. 16S预测细菌表型-bugbase:革兰氏阴阳、生物膜、致病力、移动元件、氧气消耗等...
  3. LeetCode Path Sum II(dfs或者bfs)
  4. 【错误记录】jar 执行错误 ( java.lang.UnsupportedClassVersionError: Unsupported major.minor version 52.0 )
  5. Git 操作简单总结:廖雪峰教程
  6. VTK:图片之ImageVariance3D
  7. 安徽理工大学计算机学院蒋群,计算机学院2001级校友十周年聚会
  8. STM32 解析futaba S-bus协议
  9. bs架构的系统能连接mysql吗_HTTP、BS架构
  10. php面向对象编程代码怎么写,php面向对象编程(一)
  11. JS设计模式——12.装饰者模式
  12. 企业级应用的前端思考。
  13. Day01 爬虫基本原理及requests请求库
  14. 人工智能+眼科疾病辅助诊断(相关信息搜集)
  15. Python搭建投票分类器模型来进行机器学习实验
  16. style样式:json对象和字符串相互转化
  17. 【Unity3D插件】Unity开发利器——插件(各类插件及教程推荐)| 寻找C站宝藏
  18. 16QAM调制解调和误码率
  19. 硬件实用技巧:OrCad自带原理图olb/OLB库枚举介绍
  20. 如何使用报表工具制作统计报表

热门文章

  1. 利用C语言实现wol网络远程唤醒
  2. 战斗在 VUCA 时代
  3. 基于python的opencv图像处理对交通路口的红绿灯进行颜色检测(最简单的方法)
  4. Android studio突然报错Entry name ‘META-INF/androidx.vectordrawable_vectordrawable.version‘ collided的解决办法
  5. CVPR2019| 中科院VIPL实验室11篇CVPR解读:弱监督学习、视频分割、目标检测
  6. 微信公众号发送模板通知
  7. Centos6、Centos7、Centos8关闭防火墙
  8. UITableView 部分方法详解
  9. python微信机器人之小i
  10. 推荐一个不错的国外html5模板网站