CompHub 实时聚合多平台的数据类(Kaggle、天池…)和OJ类(Leetcode、牛客…)比赛。本账号会推送最新的比赛消息,欢迎关注!

更多比赛信息见 CompHub主页 或 点击文末阅读原文


以下内容摘录自比赛主页

Part1赛题介绍

1题目

CAIL 2022 八赛道:

  • 司法考试赛道

  • 事件检测赛道

  • 文书校对赛道

  • 类案检索赛道

  • 涉法舆情摘要赛道

  • 论辩理解赛道

  • 信息抽取赛道

  • 可解释类案匹配赛道

2标签

NLP文本匹配信息抽取

3主办方

详见比赛主页

4背景

近年来,随着以裁判文书为代表的司法大数据不断公开,以及自然语言处理技术的不断突破,如何将人工智能技术应用在司法领域,辅助司法工作者提升案件处理的效率和公正性,逐渐成为法律智能研究的热点。中国法律智能技术评测CAIL(Challenge of AI in Law)旨在为研究者提供交叉学科的学术交流平台,推动自然语言处理、智能信息检索等人工智能技术在法律领域的应用,共同促进中国法律智能技术的创新发展,为科技赋能社会治理作出贡献。

为了促进智能技术赋能司法,实现更高水平的数字正义,在最高人民法院和中国中文信息学会的指导下,从2018年起,CAIL已连续举办了四届中国法律智能技术评测,先后吸引了来自海内外高校、企业和组织的近5000支队伍参赛,成为中国法律智能技术评测的重要平台。CAIL 2018设置了罪名预测、法条推荐、刑期预测三个任务,并提供了包含268万刑事法律文书的数据集;CAIL 2019设置了阅读理解、要素识别、相似案例匹配三个任务;CAIL 2020设置了阅读理解、司法摘要、司法考试、论辩挖掘四个任务;CAIL 2021设置了阅读理解、类案检索、司法考试、司法摘要、论辩理解、案情标签预测、信息抽取七个任务。随着智能技术与法律需求交叉融合的不断深入,CAIL的任务设置更加符合司法需求,任务难度也逐年升级。

Part2时间安排

Part3奖励机制

Part4赛题描述

司法考试赛道

该赛道由清华大学自然语言处理与社会人文计算实验室与北京幂律智能科技有限责任公司承办。

司法考试指法律职业资格考试,律师、法官、检查官等法律从业人员必须通过该考试,才能够获得从业资格。司法考试测试内容包括理论法学、应用法学、现行法律规定、法律实务、法律职业道德等内容。本任务是针对司法考试的问答提出的任务,该任务聚焦在司法考试客观题,要求给定问题及选项后模型能够输出正确答案。

事件检测赛道

该赛道由清华大学智能法治研究院与清华大学自然语言处理与社会人文计算实验室承办。事件信息是法律案情的核心,法律事件检测旨在识别出法律案件中的事件触发词及其对应的事件类型,从而完成案件事实的快速重构,帮助机器和人类更好地理解法律案件。

文书校对赛道

该赛道由哈工大讯飞联合实验室承办。法律文书作为司法机关及公民行使法律权利同时享受法律效益的载体,对文字内容的准确性要求极其严格。本任务旨在通过机器智能文本校对技术辅助司法人员自动检出并纠正法律文书中存在的错误。本任务涵盖了法律文书中存在的别字、冗余、缺失、乱序四种类型的错误。

类案检索赛道

该赛道由清华大学互联网司法研究院与北京华宇元典信息服务有限公司类案检索作为人工智能支持司法审判的重要内容,对于提升法院整体裁判水平、实现类案适法统一、促进司法公正有极其重要的积极意义。本赛道面向刑事类案搜索,具体任务为:给定若干查询案例,每一个查询案例均对应一个大小为100的候选案例池,要求从候选案例池中筛选出与查询案例相关的类案。每个查询案例最终的提交形式为100个候选案例的排序,类案相似程度划分为四级,越相似的案例应当排名越靠前。

涉法舆情摘要赛道

该赛道由南京擎盾信息科技有限公司与中国科学院自动化研究所模式识别国家重点实验室承办。涉法舆情摘要是司法舆情监测及应急处置的重要一环,旨在从冗长复杂的涉法舆情文本准确、精炼和完整地生成摘要信息,辅助提高司法舆情处置工作的效率。具体任务为:根据给定涉法舆情文本及数据源信息,要求算法模型自动生成长度不超过400字的摘要。本任务允许选手使用外部知识辅助模型训练,但在预测过程中不能进行联网操作。

论辩理解赛道

该赛道由复旦大学数据智能与社会计算实验室、北京大学王选计算机研究所与北京华宇信息技术有限公司承办。庭审笔录是在法庭审理过程中记录的,同步反映全部审判活动的真实情况的文字记载,是法院裁判案件不可缺少的书面材料。通过分析庭审笔录中记载的诉辩双方观点,有助于法庭准确定位案件争议焦点,作出公正裁判。当前争议焦点的提取往往依靠法官人工阅读、整理、分析和归纳,耗费大量审判资源。

本任务旨在自动识别庭审笔录中诉辩双方的争议观点对,并提取案件争议焦点。具体任务为:给定一个诉方观点和五个辩方候选观点,模型需要自动识别出可以与诉方观点形成争议观点对的一个候选观点。

信息抽取赛道

该赛道由大连理工大学信息检索研究室与清华大学互联网司法研究院承办。信息抽取是自然语言处理的基础任务之一,涉及命名实体识别、关系抽取、事件抽取等多类子任务。本次任务聚焦法律文本的实体和关系抽取,其中实体类型包含涉案人、涉案物品等案件关键信息;关系类型包括涉案人之间的关系、涉案人和涉案物品之间的关系等。我们将提供包含案件情节描述的陈述文本,评测队伍需要识别出文本中的实体关系三元组,并照规定格式返回结果。信息抽取对于辅助司法办案人员高效阅卷、快速厘清案件信息,同时也可以为知识图谱构建、相似案例推荐、自动量刑建议等法律智能技术提供研究基础。

可解释类案匹配赛道

该赛道由中国人民大学高瓴人工智能学院和航天国政信息技术(北京)有限公司共同承办。司法类案自动匹配可以为待决案件的裁判提供参考和依据,同时对匹配结果案例的可解释性有着较高的要求。可解释类案匹配的具体任务为:基于可解释类案匹配数据集,实现待决案件与候选案件的自动匹配,并提供文书中的相关特征句作为算法匹配的可解释依据。


【数据科学赛】CAIL 2022 #八赛道 #NLP #文本匹配 #信息抽取相关推荐

  1. 机器学习、数据科学与金融行业 系列八:金融科技(FinTech)下 --- 趋势分析

    机器学习.数据科学与金融行业 系列八:金融科技(FinTech)下 - 趋势分析 续-     在上篇中,我们主要介绍了金融科技的关键技术和应用,以及两个重要地领域RegTech和SupTech.在本 ...

  2. 使用NeMo快速完成NLP中的信息抽取任务,英伟达专家实战讲解,内附代码

    信息抽取(IE)是从非结构化.半结构化的可读文档或其他电子表示来源中自动提取结构化信息的任务.信息抽取技术为文本挖掘.智能检索.智能对话.知识图谱.推荐系统等应用提供了基本的技术支持. 近日,英伟达x ...

  3. 使用NeMo快速完成NLP中的信息抽取任务 | 英伟达NLP公开课

    信息抽取(IE)是从非结构化.半结构化的可读文档或其他电子表示来源中自动提取结构化信息的任务.信息抽取技术为文本挖掘.智能检索.智能对话.知识图谱.推荐系统等应用提供了基本的技术支持. NeMo是英伟 ...

  4. 【R语言数据科学】(十八):系统聚类和K-Means聚类

    [R语言数据科学]

  5. 【数据科学赛】THE SOUND DEMIXING CHALLENGE #音乐声源分离 #$42,000

    CompHub 实时聚合多平台的数据类(Kaggle.天池-)和OJ类(Leetcode.牛客-)比赛.本账号会推送最新的比赛消息,欢迎关注! 更多比赛信息见 CompHub主页 以下内容摘自比赛主页 ...

  6. 【数据科学赛】大规模细粒度建筑分类 #图像分类 #建筑分割和高度预估 #$1,6000

    CompHub 实时聚合多平台的数据类(Kaggle.天池-)和OJ类(Leetcode.牛客-)比赛.本账号会推送最新的比赛消息,欢迎关注! 更多比赛信息见 CompHub主页 以下内容摘自比赛主页 ...

  7. 华师大数据科学考研_2020年30所微电子院校考研信息详细汇总

    我们调查了30所高校微电子考研信息,有些学校复试名单.拟录取名单还没有公布,所以不是很全,但是大部分院校是很全的.我们查了这些信息耗时很久,有时可能会眼花,有时,可能会查信息有误,希望大家能够留言积极 ...

  8. 数据科学和人工智能技术笔记 五、文本预处理

    五.文本预处理 作者:Chris Albon 译者:飞龙 协议:CC BY-NC-SA 4.0 词袋 # 加载库 import numpy as np from sklearn.feature_ext ...

  9. 数据科学竞赛-自然语言处理赛流程

    自然语言处理赛流程 在NLP赛中,如今很多思路和CV赛是类似的,甚至Pipeline思路也是一致的. 简介 随着CV(计算机视觉)大量研究人员的涌入,相对而言,计算机视觉的发展进入了一个饱和时期,而自 ...

  10. 人工智能/数据科学比赛汇总 2019.8

    内容来自 DataSciComp,人工智能/数据科学比赛整理平台. Github:iphysresearch/DataSciComp 本项目由 ApacheCN 强力支持. 微博 | 知乎 | CSD ...

最新文章

  1. MATLAB_图形学_形态学课程II
  2. 大数据之---Yarn伪分布式部署和MapReduce案例
  3. 【Python】直接赋值、浅拷贝和深度拷贝解析
  4. Fiori Launchpad server side config json
  5. 2016.3.22(关系型数据库简介,管理数据库和表)
  6. pytorch中的参数初始化方法
  7. 作者:郭雷风,中国农业科学院农业信息研究所助理研究员。
  8. 详解李兰娟团队重大抗疫药物成果:2款处方药,体外试验有奇效,已在浙江临床使用...
  9. 老齐python-基础7(文件操作、迭代)
  10. DedeCMS 批量删除垃圾注册用户和垃圾文档
  11. 最好用的JQuery插件集合以及组合拳
  12. multisim常用d触发器_怎么在multisim找D触发器
  13. 开发人员都需要知道的几款优秀数据库管理工具
  14. html 打印页面不全,浏览器网页打印内容显示不全的解决方法教程[多图]
  15. 重复测量方差分析步骤汇总
  16. js中怎样把ASCII码中的字符与十进制的数相互转换-学习笔记
  17. 新版CSDN怎么改博客背景
  18. 异步爬虫(高效爬虫)
  19. WORD中的多级列表详解
  20. 说几个微信实用重磅功能!

热门文章

  1. Vot-Toolkit环境配置指南
  2. html小游戏打砖块,打砖块.html
  3. MATLAB(3)MATLA 求极限 求积分 求微分 求级数的和
  4. vue 会将连续空格自动合并成一个空格(避免空格合并)
  5. 【渝粤教育】广东开放大学 领导学基础 形成性考核 (38)
  6. 机器学习-基础知识 - Precision, Recall, Sensitivity, Specificity, Accuracy, FNR, FPR, TPR, TNR, F1 Score
  7. 2008服务器安全修复,Windows 2008操作系统漏洞临时修复方法
  8. Tomcat 漏洞修复建议
  9. 《横向领导力》-简述
  10. linux平台基于python语言的MYO手环手势识别开发(二)