诸神缄默不语-个人CSDN博文目录

论文名称:Everything Has a Cause: Leveraging Causal Inference in Legal Text Analysis
论文ArXiv下载地址:https://arxiv.org/abs/2104.09420
论文NAACL官方下载地址:https://aclanthology.org/2021.naacl-main.155/(该网站有官方讲解视频)
官方GitHub项目:xxxiaol/GCI: Code for Everything Has a Cause: Leveraging Causal Inference in Legal Text Analysis.

本文是2021年NAACL论文,作者来自北大。
本文在法律文本数据上应用了因果推理的方法,构建了因果图,以帮助制定决策。本文在相似罪名辨析的任务上做了实验,证明了这一范式有效,将因果知识注入神经网络中可以提高模型效果,且可以提供可解释性,尤其在few-shot条件下。
把因果关系也用进了分类任务。
任务相似罪名辨析similar charge disambiguation:multi-class分类,但标签集是similar charge set(输入是事实描述文本)

本文解决了2个任务难点:①无监督抽取与预测结果相关的factor,会有噪音。②结合传统因果推理模型和现代神经网络架构。

文章目录

  • 1. Background
    • 1.1 因果推理
    • 1.2 因果图
    • 1.3 PAG
  • 2. 模型
  • 3. 实验
    • 3.1 数据集
    • 3.2 实验结果
    • 3.3 因果图质量分析
    • 3.4 人工评估:看attention
    • 3.5 讨论
    • 3.6 由于数据不平衡而产生的性别公平问题

1. Background

1.1 因果推理

自变量treatment,因变量outcome,自变量上的改变量intervention,计算自变量被扰动是否会引起因变量变化以及如何变化,就是因果推理
Confounder:变量,同时影响自变量和因变量
treated group是自变量为1的,反之是untreated group

1.2 因果图


factor(本文中所有factor都是二元变量)和charge是节点,因果关系是边
传统的结合文本的因果推理方法比较简单,就直接将文本视作一个节点,而没有考虑不同的aspect如事件等。

1.3 PAG

2. 模型

从事实描述文本中自动构建因果图,用因果推理来辅助法律决策的制定,本文中similar charge disambiguation任务上测试了该框架的效果。
①用关键词抽取(用YAKE+IDF计算单词对罪名的重要性),来识别出事实描述中的key factors。②将相似的key factors聚类到组中,每个组视为一个独立节点。(图的节点的每个组和罪名)③用对未识别变量鲁棒(无监督抽取可能导致关键词不完全,因果发现时有未识别confounder)的causal discovery algorithm(Greedy Fast Causal Inference (GFCI))来构造因果图。(输出是Partial Ancestral Graph (PAG))(在附录中可以看到,这种算法能够识别出隐factor)(限制:1. 禁止罪名节点出边。2. 以案例(事件描述文本)的时间顺序来限制因果关系)(抽样因果图)④估算每条边的causal strength来减少不可靠边的影响。(保持Confounder不变)(方法:Average Treatment Effect (ATE))(估算ATE的方法:Propensity Score Matching (PSM) 在treated/untreated group之间构建相似样本对)
将因果知识结合到NN中:①在NN attention weights上加入causal strength限制(加损失函数)。②在因果图上抽取出的因果链上使用RNN。

3. 实验

3.1 数据集

本文使用的是CAIL数据集。

3.2 实验结果

证明的结果:(1) 构建的因果图是合理的。(2) 可以捕捉到文本中的细微差别,尤其在训练数据很少时。

证明因果的优势的baseline:GCI-co(correlation-based graph,factor之前如皮尔森相关系数>0.5则从出现更早的频率更高的factor连一条边到另一个)
解释了一下为什么没用多任务等范式、没用预训练模型,以前的结合因果推理的工作无法捕捉文本内部的因果关系所以也不作为baseline。
比较了不同训练集比例下模型的表现效果。
每个实验在3个随机种子上跑,以平均ACC和macro-F1作为指标。

3.3 因果图质量分析

因果发现过程的鲁棒性,因果图的敏感度分析

  1. Random Confounder
  2. Placebo Treatment
  3. Subset of Data

3.4 人工评估:看attention

3.5 讨论

聚类导致的粒度变粗、否定语义、pronoun resolution、intent

3.6 由于数据不平衡而产生的性别公平问题

False Positive Equality Difference (FPED) and False Negative Equality Difference (FNED)

Re18:读论文 GCI Everything Has a Cause: Leveraging Causal Inference in Legal Text Analysis相关推荐

  1. 我的读论文经验总结!

    ↑↑↑关注后"星标"Datawhale 每日干货 & 每月组队学习,不错过 Datawhale干货 作者:胡来,Datawhale成员 从入门到精通一个领域,绕不开文献阅读 ...

  2. 记录理解程度、一篇至少读3遍,吴恩达建议这样读论文!

    ↑↑↑关注后"星标"Datawhale 每日干货 & 每月组队学习,不错过 Datawhale推荐 作者:Richmond Alake,来源:机器之心 在科研领域中,读论文 ...

  3. 沈向洋:读论文的三个层次

    Datawhale干货 来源:AI科技评论,沈向洋博士 作者 | 蒋宝尚 编辑  | 丛  末 5月14日,沈向洋博士在全球创新学院(GIX)课程上曾做了一场线上公开课<You are how ...

  4. 如何高效读论文?剑桥CS教授亲授“三遍论”:论文最多读三遍,有的放矢,步步深入...

    鱼羊 编译整理 量子位 报道 | 公众号 QbitAI 嗑盐之始,在于读论文. 一方面,把握最前沿的研究动态,激发自身研究灵感.另一方面,不做好文献调研,自己的绝妙想法变成了重复造轮子,这种体验可不太 ...

  5. 读论文七步走!CV老司机万字长文:一篇论文需要读4遍

      视学算法报道   编辑:LRS [新智元导读]读论文对于AI新手和工程师来说可能是一件比较难的事.最近一位从业超5年的CV老司机发布了一篇万字长文,讲述了读论文七步法,从找论文到总结,每篇论文由浅 ...

  6. 覆盖近2亿篇论文还免费!沈向洋旗下团队「读论文神器」登B站热搜

      视学算法报道   编辑:小咸鱼 好困 [新智元导读]无意中发现B站上有个叫ReadPaper的在线论文阅读笔记神器冲上了热榜!ReadPaper由沈向洋博士创办的IDEA旗下团队研发,其收录了近2 ...

  7. 记录理解程度、一篇至少读3遍,吴恩达建议这样读论文

    选自Medium 作者:Richmond Alake 机器之心编译 参与:杜伟.小舟.魔王 在科研领域中,读论文大概是大家的日常基本操作了.但如何读论文,才能实现效率最大化呢?斯坦福大学教授吴恩达在斯 ...

  8. 吴恩达教你如何读论文:绘制进度表格,论文至少看三遍,还要问自己问题

    来源:量子位 本文约1478字,建议阅读4分钟. 本文介绍如何研究一篇论文. 吴恩达教你如何读论文,高效了解新领域. 就算是博士,也很难对所有的关键技术都参透了解.那么如何有效了解一个新领域,是研究者 ...

  9. 吴恩达教你读论文:持续而缓慢的学习,才是正道

    来源:AI科技评论 本文约1800字,建议阅读5分钟. 本文将教你如何有效阅读论文,包括系统阅读论文集的方法,以及阅读单篇论文的方法. 在人工智能和机器学习领域中,了解前沿学者的最新研究的能力是每位严 ...

最新文章

  1. Google Adsense实用防踢技巧总结
  2. 网络宣传推广浅谈关键词排名好却没有流量的原因解决方法!
  3. 经典类与新式类的继承顺序
  4. 决策树原理详解及python代码实现
  5. PHP动态多文件上传的具体代码
  6. angular 关闭当前页_angular刷新当前页 angularjs页面不刷新的解决办法 - 电脑常识 - 服务器之家...
  7. list某字段去重再合并统计_java mapreduce实现数据去重
  8. tcpip路由技术卷一_计算机网络题库考(2020.9.10晚18.320.30 北京卷)
  9. 使用BabeLua在VS中创建Lua项目
  10. ns3--入门基础概念
  11. DGND PGND GND AGND 精密电阻与普通电阻
  12. java web,添加删除文本框
  13. 彻底搞懂MySQL的索引
  14. Web应用程序,简单的日志系统解决方案
  15. 视频监控安防平台-国标28181平台(支持国标28181转RTSP/RTMP/HLS/WEBRTC直播)
  16. tomcat9.0安装及配置教程_Apache Tomcat 安装与配置教程
  17. mysql按天,小时,半小时,N分钟,分钟进行数据分组统计
  18. 生成带logo的二维码
  19. 被骗进一个很隐蔽的外包公司,入职一个月才发现,已经有了社保记录,简历污了,以后面试有影响吗?...
  20. LeetCode-1789. 员工的直属部门

热门文章

  1. java定义一个盒子类box_定义一个Box(盒子)类,在该类定义中包括数据成员: length(长),width(宽)和height(...
  2. 招银网络笔试java_招银网络科技提前批 6.22笔试
  3. 自媒体的现状是非常火爆,自媒体的未来是怎样呢?
  4. 西安航空学院计算机专业排名,西安航空学院排名2021排行第580名
  5. 公众号广告如何砸出10W+曝光?
  6. 五种方法 前端代码实现九宫格布局
  7. Java怎么实现录屏工具
  8. python try 报错继续循环_python-try-except:pass的用法
  9. 如何用 CSS 和 D3 创作火焰动画
  10. 使用 Ping 命令测试 TCP/IP 配置