CausalKnowledgeBase

CausalKnowledgeBase, causal knowledge base including causal pairs extracted from web text using the methods like PMI, Collocation。基于网络文本的因果知识库项目,采用PMI,搭配抽取等方法,形成因果对频繁集。
项目地址:https://github.com/liuhuanyong/CausalCollocation

项目介绍

因果关系是语言逻辑关系中重要的组成部分,通过挖掘因果关系,可以在多个方向上产生作用,如对词作embedding,基于因果关系的预测等。目前,学术界中关于因果关系的抽取主要分成实体因果关系抽取和事件因果关系抽取,两者分别以实体和事件作为因果单元,实体大多为名词,事件大多为单个动词,这方面的工作可以参考semeval以及causalbank的相关工作。
因果单元的确定是因果关系抽取中的根本问题,不同的因果单元所能应用的场景会有着较大的差异。名词性的实体单元事件性太差,单一动词性单元语义过于抽象,在实际应用中会带来很多的噪声。
在这方面,我主要完成了以下工作:
1)CausalityEventExtraction项目, https://github.com/liuhuanyong/CausalityEventExtraction ,该项目从语言学的角度,给出了因果关系模式集,基于该模式集,可以初步抽取出因果描述单元,可以作为因果事件抽取的前期工作。
2)EventPredictBasedOnEG项目, https://github.com/liuhuanyong/EventPredictBasedOnEG ,该项目从建成因果事理图谱的基础上,给出了一个因果查询api,用于未来事件预测的工作,可作为一个应用环节。
然而,以上两个项目都是从宽泛意义上的事件上来做的,在粒度上介于词语句子之间,泛化能力较差,而且在事件的概率转移上,一直无法得到很好的解决。我在想,是否能够讲搭配抽取的方法引入到因果知识库的构建当中,因为在之前,看到一个在英文因果对抽取的工作(http://www.cs.sjtu.edu.cn/~kzhu/papers/kzhu-copa.pdf), 该工作从Bing网页快照中提取的可能的因果关系对,形成7千万的因果关系对,每一行有三个元素,分别为原因,结果和频率。从下载数据来看,数据很乱,暂时想不出来有什么工业用处。因此,我想到因果频繁项集的概念,能否根据因果对的共现信息,通过计算因果对之间的搭配,从而形成以事件性词语(名词、动词、形容词)的因果搭配知识库。

项目的技术路线

1、通过文本采集的方法,采集大规模文本数据集
2、通过执行CausalityEventExtraction项目项目,得到大规模的因果描述句
3、基于CausalityEventExtraction的结果,分别对原因描述部分和结果描述部分进行分词,词性标注,命名实体识别等预处理操作
4、对原因描述部分和结果描述部分进行词性过滤处理,仅保留分词结果中的名词、动词、形容词,形成原因词列表和结果词列表
5、以原因词列表为中心,统计该词语结果词列表中的词的pmi值,pmi值的计算公式:log(p(x,y)/(p(x)*p(y)))
6、按照pmi值高低,对每个原因词的因果搭配信息写入文件,设置topn=200,只保留每个词的前200个频繁结果词。

项目脚本

结果文件为:data/causal_collocation.json

项目运行结果

1、搭配文件:pmi_word有3项内容构成,分别为结果词,结果词性以及结果词语原因词之间的pmi值,用于衡量两者之间关联强度。

{ "_id" : ObjectId("5cbd878b831b975b8da3d6cc"),
"word" : "自杀",
"word_tag" : "v",
"pmi_words" : [
[ "留医", "v", 21.868029795027585 ],
[ "苦闷", "a", 19.546101700140223 ],
[ "干什么", "v", 19.28306729430643 ],
[ "杨进", "v", 19.28306729430643 ],
[ "掀开", "v", 19.259220552352062 ],
[ "抒发", "v", 18.546101700140223 ],
[ "口诛笔伐", "i", 18.365529454498404 ],
[ "同情", "v", 18.28306729430643 ],
[ "抢救", "v", 18.115467345810362 ],
[ "思索", "v", 17.898403444071104 ],
[ "减肥", "v", 17.67163258222408 ],
[ "想起", "v", 17.452992295748743 ],
[ "赞扬", "v", 17.28306729430643 ]  }

2、因果搭配举例:

原因词 结果词
熬夜_v 昏倒_v;交感_v;干涩_a;脱发_v;提神_v;上火_v;超负荷_b;泌尿_v;发烧_v;有心_v;猝死_v;发作_v;睡眠_v;慢性_b;不适_a;脱落_v;诱发_v;急性_b;点燃_v;困扰_v;比赛_v;突发_v;不好_a;感染_v;预防_v;调试_v;造成_v;消耗_v;到位_v;赚钱_v;容易_a;推广_v;健康_a;及时_a;准备_v;处于_v;成为_v;严重_a;工作_v;可以_v;达到_v;出现_v;减少_v;影响_v;存在_v
出轨_v 失恋_v;召唤_v;停播_v;原谅_v;出轨_v;笼络_v;非常_b;起火_v;不知_v;叫停_v;厉害_a;紧急_a;攻击_v;爆炸_v;受伤_v;比如_v;知道_v;造成_v;制定_v;影视_b;担心_v;生活_v;死亡_v;有利于_v;设计_v;一般_a;合作_v;选择_v;没有_v;维持_v;下降_v;反弹_v;面临_v;可以_v
恋爱_v 叹老_v;谈婚_v;论嫁_v;求婚_v;恋爱_v;浪漫_a;打断_v;聊天_v;结婚_v;诱导_v;谈话_v;掌控_v;认真_a;拍摄_v;为由_v;感染_v;吸收_v;下去_v;上网_v;可谓_v;出来_v;担心_v;涌入_v;庞大_a;就是_v;下来_v;放松_v;赚钱_v;鼓励_v;采取_v;私募_v;影视_b;创业_v;失败_v;应该_v;所有_b;发生_v;开始_v;需要_v;获得_v;投资_v
挫败_v 怒斥_v;迷惘_a;渺茫_a;无情_a;出击_v;煎熬_v;简易_a;源于_v;渴望_v;择机_v;自杀_v;阻碍_v;旅行_v;做好_v;付费_v;中小_b;兴起_v;感到_v;爆炸_v;紧急_a;巩固_v;挂牌_v;打破_v;获取_v;主动_a;垄断_v;并购_v;采取_v;成功_a;民营_b;面临_v;准备_v;开始_v;迅速_a;下行_v;亏损_v;调整_v;达到_v;提高_v
沉迷_v 挂科_v;有的视_v;自闭_v;会考_v;斥骂_v;威逼_v;冷漠_a;劝退_v;利诱_v;惨败_v;找上门_v;及格_v;牵动_v;消解_v;沉迷_v;赌博_v;象征_v;疲劳_a;网游_v;批评_v;耽误_v;炒股_v;思考_v;虚拟_v;危险_a;学习_v;遭到_v;娱乐_v;联系_v;真实_a;面对_v;分享_v;大额_b;防止_v;教育_v;担忧_v;全面_a;缺乏_v;丧失_v;安全_a;炒作_v;贸易_v;转移_v;陷入_v;健康_a;巨大_a;连续_a;造成_v;保证_v;可能_v;损失_v;保持_v;带来_v;调整_v;亏损_v;出现_v;存在_v;持续_v;经营_v;下降_v
肥胖_a 顺手作_v;返流_v;发胖_v;肥胖_a;补脑_v;摄取_v;疼痛_a;减肥_v;常见_a;沦为_v;慢性_b;临床_v;治疗_v;危害_v;发达国家_i;集聚_v;诊断_v;运动_v;迫切_a;蔓延_v;培养_v;现有_v;限制_v;改善_v;增多_v;一定_b;体现_v;研究_v;配套_v;容易_a;有利于_v;一般_a;健康_a;迅速_a;高于_v;带来_v;导致_v;达到_v;需要_v;管理_v;发生_v;减少_v;出现_v
赌博_v 妻离子散_i;涉恶_v;反赌_v;金立_v;参赌_v;赌博_v;清查_v;失范_v;涉黑_v;沉迷_v;贱卖_v;自杀_v;贪污_v;抹黑_v;受贿_v;不能自拔_i;洗钱_v;快乐_a;散发_v;乃是_v;屹立_v;逃税_v;斩断_v;离婚_v;并入_v;好像_v;拖欠_v;不知不觉_i;外出_v;整治_v;企图_v;滋生_v;对赌_v;暴富_v;犯罪_v;侦查_v;不明_v;破灭_v;稀释_v;最高_a;发动_v;禁止_v;合伙_v;在于_v;流向_v;意味着_v;带有_v;削弱_v;混乱_a;失去_v;扶贫_v;破产_v;主动_a;证券化_v;必要_a;崛起_v;走向_v;遭到_v;涉及_v;断裂_v;遵循_v;来临_v;立案_v;缓解_v;疯狂_a;从事_v;连续_a;失败_v;开放_v;规避_v;损害_v;监测_v;充满_v;倾向_v;约定_v;想象_v;出来_v;合法_a;可能_v;加大_v;困难_a;享受_v;民事_b;明确_a;保障_v;萎缩_v;监管_v;下跌_v;陷入_v;签订_v;极大_a;期待_v;达到_v;严重_a;稳定_a;出现_v;可以_v;形成_v;获得_v;吸引_v
打架_v 挑事_v;调皮_a;抢客_v;指向_v;同一个_b;罢工_v;头疼_a;误解_v;实属_v;热闹_a;扰乱_v;同样_b;批评_v;罕见_a;超预期_b;把握_v;合并_v;围绕_v;冲突_v;绝对_a;基本_a;矛盾_a;面对_v;争夺_v;剧烈_a;制定_v;国产_b;监管_v;担心_v;强烈_a;属于_v;控制_v;约定_v;损失_v;无法_v;存在_v;持续_v;出现_v
抢劫_v 春假_v;闲逛_v;身故_v;抢劫_v;逮捕_v;作案_v;谋利_v;取现_v;诈骗_v;非正常_b;追究_v;死亡_v;还是_v;出去_v;知道_v;频繁_a;遭遇_v;缺乏_v;严重_a;不同_a;带来_v;造成_v;损失_v
枪击_v 发誓_v;不幸_a;丧生_v;遇难_v;返回_v;恐慌_a;受伤_v;死亡_v;消退_v;伤亡_v;前往_v;损坏_v;犯罪_v;爆炸_v;参加_v;冲突_v;延误_v;修改_v;倾向_v;执行_v;凸显_v;彻底_a;担心_v;帮助_v;能否_v;受损_v;上升_v;取消_v;受到_v;重大_a;回落_v;进入_v;完成_v;明显_a
强奸_v 刑拘_v;抢劫_v;命名_v;身亡_v;对待_v;撤销_v;尴尬_a;真正_b;频繁_a;遭遇_v;处罚_v;研发_v;受到_v
贪污_v 违纪_v;毁谤_v;撤职_v;非同寻常_i;走后门_i;无助_a;调离_v;虾夷_v;降职_v;揭发_v;检控_v;公诉_v;亏空_v;无辜_a;违法_v;空穴来风_i;渎职_v;岌岌可危_i;受贿_v;露出_v;指控_v;舞弊_v;掏空_v;造成_v;犯罪_v;民办_b;反腐_v;举报_v;严厉_a;困难重重_i;抵抗_v;查询_v;腐败_a;巨额_b;挪用_v;代表_v;涉案_v;报道_v;撤销_v;叫停_v;筹措_v;倾斜_v;实践_v;垄断_v;低下_a;临时_b;混改_v;关键_a;思考_v;教育_v;普通_a;查封_v;愿意_v;库存_v;公共_b;自主_v;调查_v;中小_b;变更_v;解决_v;输送_v;流失_v;遭到_v;国有_v;并非_v;上市_v;要求_v;对外_v;购买_v;不及_v;获利_v;严重_a;处罚_v;积极_a;重视_v;亏损_v;负面_b;全面_a;建设_v;监管_v;改革_v;研发_v;构成_v;加大_v;工作_v;竞争_v;成为_v;减少_v;重大_a;影响_v;出现_v;一定_b;存在_v;下降_v
增持_v 汇金_i;反跌_v;增次_v;定投式_b;寿持_v;续增_v;举牌股_v;持工_v;阿合计_v;五牛亥尊_i;停手_v;知晓其_v;如愿以偿_i;领薪_v;尽心_a;走好_v;安邦系_v;牵强_i;狂风暴雨_i;富立_v;监发_v;拔葱_v;张开_v;吃官司_v;凸匹_v;挤出_v;遭疑_v;居首_v;追货_v;高歌猛进_v;围剿_v;炒新_v;悬疑_v;免予_v;让位_v;形不成_v;初始投资_v;雄起_v;保发_v;黯然失色_i;谋取_v;保增_v;消停_v;染指_v;增持_v;征询_v;邀约_v;久违_v;在任_v;详式_b;迷信_v;匪夷所思_i;分布_v;狙击_v;吐槽_v;可想而知_i;更胜一筹_i;添砖加瓦_i;欧债_v;紧逼_v;跌动_v;跃居_v;易主_v;潜水_v;留任_v;改正_v;斥资_v;普涨_v;力保_v;纾解_v;抽资_v;嘲讽_v;稳定_v;捍卫_v;限定_v;议论_v;开山_v;等值_v;出于_v;坐实_v;更替_v;平息_v;托底_a;力挺_v;浮盈_v;好奇_a;自救_v;强平_v;首创_v;拟以_v;井喷_v;掩护_v;趋同_v;责令_v;顺延_v;实施_v;稳住_v;典型_a;热捧_v;濒临_v

总结

1、本项目从名词、动词、形容词作为事件单元出发,使用pmi和高频共现的方式,完成了因果频繁集的提取工作,形成频繁因果搭配知识库。
2、频繁因果搭配知识库能够用于关键词扩展,词向量表征wordembedding等应用。
3、频繁因果搭配知识库中原因词和结果词之间的pmi值是否可以充当因果关系的状态转移概率,这个问题值得我们考虑以及实验。
4、频繁因果搭配知识库还可以有多种提取和构建方式,后续有更多想法可以再进行实验。

如有自然语言处理、知识图谱、事理图谱、社会计算、语言资源建设等问题或合作,请联系我:
邮箱:lhy_in_blcu@126.com
csdn:https://blog.csdn.net/lhy2014
我的自然语言处理项目: https://liuhuanyong.github.io
刘焕勇,中国科学院软件研究所

因果关系固定搭配知识库项目CausalCollocation相关推荐

  1. 【项目】前端实习——知识库项目总结

    机器人知识库项目总结 开发流程及协同开发 开发全流程 Git协同开发 前后端分离 页面搭建 对话框触发 保持高亮 功能实现 增删改功能 搜索功能 函数式编程 组件传值 网络请求 表单 两栏式布局整体框 ...

  2. do还是doing imagine加to_中学必背英语短语集合:54个doing动名词的固定搭配

    中学必背英语短语集合:54个doing动名词的固定搭配​mp.weixin.qq.com doing动名词是中小学英语教学中的重要内容.在小学的时候老师大概会把doing解释为一般进行时,但层级越往上 ...

  3. 高中必背88个数学公式_俞敏洪:高中干货“必背”1920个固定搭配,英语稳上145分...

    书山有路勤为径,学海无涯苦做舟! 大家好,我是你们的阿美师姐,我来自清华大学!很多童鞋上课听不懂.下课学不会,根本原因在于没有掌握有效的学习方法!师姐每日都会分享学习技巧.高分经验.逆袭故事等!希望能 ...

  4. 考研英语大纲单词P~Z与固定搭配

    词语 意思 词语 意思 词语 意思 词语 意思 词语 意思 pace 步伐 pact 协定 paddle 划水.桨 palm 掌.棕榈树 panorama 全景 paperback 平装本 parad ...

  5. as常用固定搭配_MongoDB 常用查询操作

    MongoDB 查询操作可实现大部分关系型数据库的常用查询操作,本文对 MongoDB 常用查询进行讲解. 在阅读本文前,推荐先阅读<MongoDB 安装及文档的基本操作> 在进行操作讲解 ...

  6. as常用固定搭配_人民日报整理:英语常用介词固定搭配,太实用了!

    单词背了不少,但怎样运用才能让你的英语高级起来呢?这些就是平时经常遇到,但偶尔忘记或记错意思的搭配! ---分割线--- 如果你想加入有外国人.大学生的社群(英语角),关注公众号"竖起耳朵听 ...

  7. with as 用法_这九类介词用法辨析,2021高考英语必考(附固定搭配)

    介词在高考英语中是必考知识点,同时也是同学们掌握最弱.最易出错的点.今天,老师跟大家分享高考英语必考的九类介词用法辨析,仔细看一看,相信这些总结会让你再做介词题目时茅塞顿开! 01 表示方位的介词:i ...

  8. 英语教授一针见血:背熟这500个固定搭配,英语成绩随便上100

    http://blog.itpub.net/29829936/viewspace-2645246/

  9. 【 English 】社会类高频词汇、固定搭配

    1.urbanization 城市化 2.urban construction 城市建设 3.centralization 集中化 4.in the long run 从长远角度而言 5.infras ...

最新文章

  1. 单例模式 - 深究剖析
  2. 翻译:MariaDB DATABASE()
  3. Matlab-重构和重新排列数组
  4. shell-grep命令详解(转)
  5. 让电流检测更精确的AMR技术
  6. 前端学习(1431):ajax封装六
  7. linux打包java jar_在linux环境下修改可运行jar包配置并重新打包
  8. html5 drawimage 不显示,javascript – 来自视频的HTML5 Canvas drawImage在第一次绘制时不显示...
  9. python2.x和python3.x共存在windows
  10. Ubuntu卸载图形界面
  11. 选择JSF不选Struts的十大理由
  12. 数据挖掘-目录-impurity
  13. php框架laravel下载,Laravel框架下载,安装及路由操作图文详解
  14. 九章云极DataCanvas公司荣获机器之心三大奖项,助力产业数智化升级
  15. Nessus安装教程
  16. Windows的截图快捷方式
  17. 数学建模之方差分析基础--单因素,双因素方差分析与matlab实现
  18. 龙讯3号 龙芯电脑即将店面销售
  19. kubernetes 开发必须要知道的知识点—— API Group
  20. 一球从h米高度自由下落,每次落地后返回原高度的一半,再落下。它在第N次落地时共经过多少米?反弹多高?

热门文章

  1. 粉丝回馈,8000元大礼包免费相送
  2. 工厂好的html页面,jquery中被誉为工厂函数的是什么?
  3. dfs hdfs 修改文件名称_CDH6.3.2生产更换HDFS 数据目录
  4. python modbus控制plc_python Modbus基础
  5. 三十、PHP框架Laravel学习笔记——模型的预加载
  6. 论文阅读:Spatial Transformer Networks
  7. python的普通方法、类方法和静态方法
  8. LeetCode 1779. 找到最近的有相同 X 或 Y 坐标的点
  9. LeetCode 第 30 场双周赛(477/2545,前18.7%,第2次全部通过)
  10. 程序员面试金典 - 面试题 10.10. 数字流的秩(map/树状数组)