背景
拓展知识图谱-人物关系模块,激发用户兴趣点击,提升流量。
要解决的问题
1、识别人名:ner 命名实体识别。
2、识别两个人是有关系的;
人名共现来说明两个人之间有关系;
词向量计算词与词之间的相似度来说明两个人之间关系。
3、人物关系挖掘。
两个人名满足某种依存模式,则将两个人名和关系抽取出来。
用到的相关nlp算子:分词、词性标注、命名实体识别(NER)、依存语法分析、语义角色标注
依存句法中我们所用到的主要关系有:主谓关系(SBV)、动宾关系(VOB)、定中关系(ATT)、并列关系(COO)、介宾关系(POB);
技术方案、基于依存句法的人物关系抽取
核心工程
模式_实例1
两人名实体同时位于主语,并列关系
例如:1914年,孔祥熙与宋霭龄于日本结婚。
利用哈工大语言云进行句法分析得到结果如下:
模式_实例2
两人名实体同时位于主语,修饰关系。特征词分别采用角色词或者人物词进行不同策略的挖掘。
例如:邓超的妻子孙俪也是著名演员。
使用句法分析得到结果如下:
模式_实例3
两人名实体位于宾语,修饰关系
例如:他的妻子以往被认为是洪秀全的妹妹洪宣娇。
模式_实例4
两人名实体分别为主语和宾语,这种情况时,选取谓语动词作为特征词。
例如“子路师从孔子”
模式_实例5
关系名为主语、人名2为宾语,这种情况时,选取谓语动词“是”作为特征词。
例如“禹智皓的哥哥是韩国男歌手禹泰云”

训练数据

部分训练样本

金城武在经济公司的安排下师从歌手陈升
子路师从孔子
禹智皓的哥哥是韩国男歌手禹泰云
贾巴里·帕克的父亲桑尼·帕克是前NBA球员   APP
邓超的妻子孙俪也是著名演员  APP两人名实体同时位于主语,修饰关系
1914年,孔祥熙与宋霭龄于日本结婚    两人名实体同时位于主语,并列关系
他的妻子以往被认为是洪秀全的妹妹洪宣娇  两人名实体位于宾语,修饰关系
韩雪在年代武侠剧《叶问》中饰演叶问的妻子张永成
刘涛共同出演古装爱情剧《大理公主》饰演贫苦寡妇杨玉姣的女儿杨阿细

  

优化方案
指代消解。针对那些语句中有代词情况,考虑采用指代消解方案进行优化!
提高精准度特殊处理方式:
1、特定关系,必须满足姓氏相同。如:妹妹、弟弟、哥哥、父亲、女儿、儿子、爷爷
2、语义提取,太依赖于nlp服务本身,在项目中发现,句法分析中出现部分中文词无法提取出来(这种nlp的句法分析服务暂没提供自定义词库功能);
3、ner的识别问题,通过增加分词,并增加一些自定义的分类方式,提高ner的识别度!
数据评估——衡量方法的优劣
1、大多采用准确率和召回率和F1值来衡量方法的优劣。
2、F1值为准确率和召回率的加权几何平均值,具体定义如下。
β是准确率和召回率的相对权重,β= 1,认为两个指标重要性是相同的;β>1,召回率权更重要一些;β<1时,准确率更重要一些。
数据评估方式
数据标注:
1) 先跑出一版数据,然后再数据上做正确的标注;
评估方式:
1) 关系挖掘数据评估;
2) 内链数据评估;
新闻数据评估:
1) 近似认为与原语料相同,进行数据类挖掘;
规则提取特征:
1) 换行提取
丘和

2) 单行

丘行恭

参考资料
人物关系抽取
人物关系抽取_文库
百度百科合作API介绍

推荐

人物关系挖掘方案设计相关推荐

  1. 人物关系 人脸识别_一种基于人脸识别系统的人物关系挖掘系统及方法与流程...

    本发明涉及人脸识别技术领域,具体涉及一种基于人脸识别技术进行人物关系挖掘的系统及其方法. 背景技术: 人脸识别作为生物身份识别的典型技术,由于不需要被检测个体的主动配合,近年来在人机交互,安防,身份认 ...

  2. NLP分析小说人物关系,找找主人公的真爱。

    思路 基于共现来挖掘人物之间的关系. 准备好三个存储器 names 存放的是人物出现次数,用来后面刻画节点的大小.names类似'叶三姐': 8, '马鞍': 6, relationships 存放人 ...

  3. 图解《狂飙》人物关系

    <狂飙>作为今年的开年大戏,一经播出就受到了大家的广泛关注,成为了全民热议的现象级剧集.作为一部扫黑剧,剧中的黑白两派的人物关系可谓错综复杂,不少小伙伴初看时经常搞不清楚出场人物的关系,看 ...

  4. 用Python中的py2neo库操作neo4j,搭建简单关联图谱—基于家有儿女中的人物关系

         我第一次建立关联图谱用的是R语言,通过写代码帮公安挖掘团伙犯罪,并用图形展示团伙之间的关联关系.如有需要请关注 "阿黎逸阳的代码" 公众号的后续文章,会手把手教大家用R搭 ...

  5. 基于pyecharts的《红楼梦》人物关系可视化

    <红楼梦>人物关系可视化 <红楼梦>是我国四大名著之一,也是高中生必读书目之一.同学们在阅读红楼梦的时候,是否有以下困惑?人物太多?人物关系太复杂? 我们今天尝试着用信息技术中 ...

  6. 类似抖音平台是如何存储粉丝与网红之间人物关系的?

    作者:狄国良 [研究课题] 1.类似抖音平台是如何存储粉丝与网红之间人物关系的? 2.如何快速(最优)查询找到某网红与粉丝关系数据? 基于此课题思考相关性问题如下: 存储模型与场景 1.海量数据存储  ...

  7. 基于Python的政府新闻人物网络挖掘(网络、群体与市场)

    用户手册 概述 程序支持使用结巴分词获取人物.地点.机构三类实体名,以 network x \text{network}x networkx 和 Neo4j \text{Neo4j} Neo4j 两种 ...

  8. 网页开发 与数据联动的图_零基础学习数据可视化pyecharts人物关系图开发

    Pyecharts人物关系图开发 1. Pyecharts版本说明 Pyecharts的版本最新版本为1.7.0版本,此版本跟0.5版本的使用方法不一样了.很多参数方法配置不一样了.Import的内容 ...

  9. python 求连线相似度_Python分析《都挺好》中的人物关系,苏大强与蔡根花是真爱?...

    如今大火的电视剧<都挺好>源于阿耐的同名小说,今天我们来对这部小说使用python分析一下人物关系.本文主要使用google推出的word2vec进行分析.使用的库主要有jieba.gen ...

最新文章

  1. Android onPause()和onStop()区别
  2. MySQL数据库备份及二进制文件恢复
  3. 让你的名字在百度排名前列
  4. php xdebug安装配置与调试php技巧
  5. 用PHP的GD库绘制弧形图像
  6. 大道至简第二篇阅读笔记
  7. Oracle数字从两头排序,oracle字符串型数字排序问题
  8. java 通配符泛型_java泛型常用通配符实例解析
  9. java统计文本中英文单词个数split_Java实现单词统计
  10. 白群晖图文版阿里云域名解析IPV6远程访问方法
  11. 如何用微pe+msdn进行纯净重装Windows系统
  12. 电力线宽带载波对比窄带载波的优点
  13. 自定义流程比较全的表结构
  14. catia利用宏批量改名的方法_catia怎么批量改名-catia利用宏批量改名的方法 - 河东软件园...
  15. 第七章 绘制3D图表和统计地图
  16. MIT JOS LAB12学习笔记
  17. “万年老大难” - 沟通与协调
  18. 多任务学习(MTL)--学习笔记
  19. 汇编语言 ORG伪指令
  20. 视频融合平台EasyCVR各项数据正常,却无法用海康NVR接入是什么原因?

热门文章

  1. win10计算机恢复,win10 重置电脑 选择哪个?要恢復到新电脑的那样
  2. 基于淘宝评价的采集与产品爆款挖掘分析
  3. php 图片生成封面,在线图片生成或制作或编辑的网站
  4. Python 实现丘德诺夫斯基(Chudnovsky)法計算高精度圓周率
  5. Trans论文的发表流程(George E.Ponchak)
  6. css创建鼠标悬停下拉菜单样式
  7. 你业余时间在做什么?
  8. 《CLR via C#》读书笔记---06 类型和成员基础
  9. python excel按月累计_基金定投只有高手才能玩?不,你用Excel就可以品职Python小白入门课堂...
  10. 辅助类GenericOptionsParser,Tool和ToolRunner