LawCrimeMining

Law Crime Mining Based on Corpus build and content analysis by NLP methods. 基于领域语料库构建与NLP方法的裁判文书与犯罪案例文本挖掘项目
项目地址:https://github.com/liuhuanyong/LawCrimeMining

项目介绍

正邪不两立,法律与犯罪水火不容,随着我国法制建设不断健全,法规日趋完善,人们的法律意识也越来越强.当前,随着越来越多的法律文本公开,为犯罪案件审理这个方面的挖掘积累了大量的文本内容.因此,通过收集法律与犯罪领域文本,构建起司法领域语料库,并使用自然语言处理技术进行挖掘,具有重要意义,我们将其称为法律智能,引用smp2018司法论坛的发言来说,法律智能包括以下几个应用点:

  1. 面向案例文书的判决预测:根据案件的案情描述,预测最终的判决结果。
  2. 拓扑结构预测的判决预测:通过法官的判案逻辑找到子任务之间的依赖关系。
  3. 引入区分性属性的罪名预测,包括低频罪名、混淆罪名的相应预测:通过引入显式的属性,能对低频罪名进行基于属性的判断,对混淆罪名进行区分;此外还能采用多任务学习及注意力机制训练基于属性的罪名预测模型。
  4. 基于层次结构的案由预测:通过刑事案由(罪名)和民事案由的层次结构,结合案由本身的文本信息,采用序列预测及基于案由名称的注意力机制,训练相应模型。
  5. 基于法律阅读理解的判决预测:由于在民事案件中判决结果需要结合原告的具体诉求,可以建立基于阅读理解机制,模仿「人带着问题找答案」的阅读理解行为进行案件判决的预测。

项目结构

本项目由两个部分组成:
1)司法领域语料库的构建,这个部分细分为两个子库,一个是法律裁判文书,另一个是犯罪案例
2)基于司法领域语料库的挖掘, 尝试进行以下实验:
a) 刑事与民事案件分类
b) 案件语义区域识别
c) 犯罪事实与量刑结果二元抽取
d) 基于犯罪案例的判决预测

脚本结构

1)script_spider:
anliwang_spider.py:案例馆语料采集,案例馆中主要有各种案例,用于构建犯罪案例语料库
sifafwang_spider.py:司法考试网语料采集,该网站中有各类案例,用于构建犯罪案例语料库
courtlaw_spider.py:最高人民法院裁判文书采集,用于构建裁判文书语料库
lawlib_spider.py: 法律图书馆网站裁判文书采集,用于构建裁判文书语料库
2) corpus_lawsuit:
裁判文书语料库的1000个文本样例,执行采集脚本后,可得到108545,量级为十万的裁判文书
3) corpus_crime:
犯罪案例语料库的1000个文本样例,指定采集脚本后,可得到63451, 量级为6万的犯罪案例

基于刑法的因果字典抽取

根据中国人民刑法,对其进行因果处理,形成crime_nanme, cause, crime三个字段的抽取,形成量刑的基础,示例如下:

{
'crime_name': ['故意伤害罪', '组织出卖人体器官罪'],
'cause': ['故意伤害他人身体的'],
'crime': '三年以下有期徒刑、拘役或者管制'
}
{
'crime_name': ['故意伤害罪', '组织出卖人体器官罪'],
'cause': ['致人死亡或者以特别残忍手段致人重伤造成严重残疾的'],
'crime': '十年以上有期徒刑、无期徒刑或者死刑'
}
{
'crime_name': ['过失致人重伤罪'],
'cause': ['过失伤害他人致人重伤的'],
'crime': '三年以下有期徒刑或者拘役'
}
{
'crime_name': ['强奸罪'],
'cause': ['以暴力、胁迫或者其他手段强奸妇女的'],
'crime': '三年以上十年以下有期徒刑'
}
{
'crime_name': ['强制猥亵、侮辱罪、猥亵儿童罪'],
'cause': ['以暴力、胁迫或者其他方法强制猥亵他人或者侮辱妇女的'],
'crime': '五年以下有期徒刑或者拘役'
}
{
'crime_name': ['非法拘禁罪'],
'cause': ['非法拘禁他人或者以其他方法非法剥夺他人人身自由的'],
'crime': '三年以下有期徒刑、拘役、管制或者剥夺政治权利'
}
{
'crime_name': ['非法拘禁罪'],
'cause': ['致人死亡的'],
'crime': '十年以上有期徒刑'
}

to be continued…

项目地址:https://github.com/liuhuanyong/LawCrimeMining
If any question about the project or me ,see https://liuhuanyong.github.io/

基于裁判文书与犯罪案例文本挖掘项目相关推荐

  1. Hadoop大数据零基础高端实战培训系列配文本挖掘项目

    <Hadoop大数据零基础高端实战培训系列配文本挖掘项目(七大亮点.十大目标)> 课程讲师:迪伦 课程分类:大数据 适合人群:初级 课时数量:230课时 用到技术:部署Hadoop集群 涉 ...

  2. 基于SpringBoot开发一套完整的项目(一)准备工作

    基于SpringBoot开发一套完整的项目(一)准备工作 1.1 SpringBoot简介 ① 为所有Spring 开发提供一个更快更广泛的人门体验. ② 零配置.无冗余代码生成和XML 强制配置,遵 ...

  3. 爬取裁判文书网(一)

    1.裁判文书网地址 http://wenshu.court.gov.cn/ 2.网站分析 (1)网站类型是动态网站. (2)网页源代码中并没有我们想要的页面内容,且引用许多js代码. (3)查看列表页 ...

  4. C# 终本案件、综合执行人、裁判文书爬虫

    终本案件:http://zxgk.court.gov.cn/zhongben/new_index.html 综合执行人:http://zxgk.court.gov.cn/zhixing/new_ind ...

  5. Spring Boot学习案例开源项目

    为了更好的学习并使用springboot进行开发,维护了一个springboot学习案例开源项目,涉及springboot从基础开发到企业实战,涵盖不同场景的开发案例.公司内部所有的服务都基于spri ...

  6. A股上市公司裁判文书数据

    一.数据简介   裁判文书上网是司法公开的重要一环,2013年11月13日最高人民法院审判委员会第1595次会议通过,自2014年1月1日起施行的最高人民法院<关于人民法院在互联网公布裁判文书的 ...

  7. Python操作MySQL将文件信息制作成表(以裁判文书为例)

    Python操作MySQL将文件信息制作成表 MySQL基本操作 Python连接MySQL 附:MySQL命令行的一些操作 在项目过程中需要用到Python操作数据库,感觉以后也会经常用到,于是在这 ...

  8. python人工智能项目开发实例-人工智能学习路线图,整理近200个实战案例与项目...

    Created by 唐宇迪 人工智能实战就业(面试)学习路线图 这个项目是干什么的? 整理这个项目的初衷是方便同学们快速开启人工智能自学计划,在学习过程中少走弯路用最快的效率入门Ai并开始实战项目, ...

  9. 裁判文书上诉理由分类统计

    裁判文书上诉理由分类统计 一.统计结果 二.实现方法 (一)裁判文书上诉理由提取 1.分类标准 2.裁判文书内容提取方式 3.实现代码 4.标签贴好后 三.文本分类 (一)文本分类源码来源 (二)数据 ...

最新文章

  1. 通过sqlserver日志恢复误删除的数据
  2. android下载后的app自动安装,Android 7.0 下载APK后自动安装
  3. 4python 解析库的使用
  4. BZOJ1688|二进制枚举子集| 状态压缩DP
  5. sublimeformaya
  6. 对信号集操作函数的使用方法和顺序
  7. linux释放系统内存,系统运维
  8. ios开发笔记之 视频播放收藏
  9. 研究生生存指南之论文
  10. 偏微分方程数值解—ADI格式求解二维抛物型方程
  11. findfont: Font family [‘sans-serif‘] not found解决方法
  12. python实现日历功能_python 日历(calendar)模块
  13. java定义两个动物抽象类 程序_java抽象类和接口详解
  14. Mac的3个个性化设置,你值得拥有!
  15. 李宏毅2022《机器学习/深度学习》——学习笔记(1)
  16. 用python画篮球场_如何使用 Python 创建一个 NBA 得分图?
  17. c 语言 组合数,C++中求组合数的各种方法总结详解
  18. 【特写】中国卡通形象设计师——初心不改,画作一方天地
  19. 小程序 | 认识CMS、创建云开发环境、创建并进入CMS内容管理系统
  20. 自编码器,变分自编码器和生成对抗网络异同

热门文章

  1. 什么是MCU里应尽量遵循的寄存器谨慎赋值法?
  2. Linux 中的各种栈:进程栈 线程栈 内核栈 中断栈
  3. 华为宣布:免费培养8000名开发者! 学习免费!实验免费!考证免费!
  4. 用GPIO口模拟串口通信,它真的来了
  5. Sourcetail 一款代码编辑神器,让看源码如丝般顺滑
  6. 腾讯回应QQ读取用户浏览器历史记录
  7. 奥鹏C语言专科在线作业答案,电子科大12春《C语言(专科)》在线作业三
  8. 图像分类_03分类器及损失:线性分类+ SVM损失+Softmax 分类+交叉熵损失
  9. RIP协议及距离向量算法(详解)
  10. TensorFlow 2.0 - tf.data.Dataset 数据预处理 猫狗分类