• 英文标题:JEC-QA: A Legal-Domain Question Answering Dataset

  • 中文标题:法律领域问答数据集

  • 论文下载:arxiv@1911.12011

  • 项目地址:GitHub@CAIL2021

  • 比赛链接:CAIL2021@司法考试

序言

本论文是关于中国法律智能技术评测202120212021比赛中司法考试任务数据集的构成与一些测试模型的评估。在上面的项目地址GitHub@CAIL2021中已有测试模型,但是它完全没有应用到数据集中给到的参考书目文档,笔者在阅读本论文前认为参考书目文档可能可以用于数据增强,或用于构建知识图谱以预训练得到更好的题干及选项的语义表示。诸多尝试后,笔者决定还是先参考原作者已完成的工作,事实上原作者是将司法考试任务视为阅读理解任务来评估的,其中使用到ElasticSearch\text{ElasticSearch}ElasticSearch检索以及多级推理等技术,这意味着该任务的解决思路将会十分开阔,但是该任务本身的困难程度是非常高的,因为目前机器做题的成绩远远差于普通人类的水平。

笔者建议对该任务感兴趣的朋友可以先阅读本文以熟悉前人的解决思路,然后再加以改进并测试。项目地址GitHub@CAIL2021中的基线模型的正确率大约为26%26\%26%,这已经足以通过该评测任务第一阶段的测试了。

其实这个任务目前也没有多少队伍在做,笔者只是对这个话题非常感兴趣,所以花了一些功夫。个人觉得对参考书目文档的预处理是非常重要的,其中有许多冗余的信息,然后数据集中的subject字段是存在缺失的,而这个字段其实对信息检索是非常有帮助的,所以需要额外训练模型对该字段进行预测,这个笔者之前也想到了,在本论文中原作者也强调了这一点的必要性。


文章目录

  • 序言
  • 摘要 Abstract\text{Abstract}Abstract
  • 111 引入 Introduction\text{Introduction}Introduction
  • 222 相关工作 Related Work\text{Related Work}Related Work
    • 2.12.12.1 阅读理解 Reading Comprehension\text{Reading Comprehension}Reading Comprehension
    • 2.2\text{2.2}2.2 开放领域问答 Open-domain Question Answering\text{Open-domain Question Answering}Open-domain Question Answering
    • 2.32.32.3 法律智能 Legal Intelligence\text{Legal Intelligence}Legal Intelligence
  • 333 数据集构成与分析 Dataset Construction and Analysis\text{Dataset Construction and Analysis}Dataset Construction and Analysis
    • 3.13.13.1 数据集构成 Dataset Construction\text{Dataset Construction}Dataset Construction
    • 3.23.23.2 推理类型 Reasoning Types\text{Reasoning Types}Reasoning Types
  • 444 实验 Experiments\text{Experiments}Experiments
    • 4.14.14.1 检索策略 Retrieve Strategy\text{Retrieve Strategy}Retrieve Strategy
    • 4.24.24.2 实验配置 Experiment Settings\text{Experiment Settings}Experiment Settings
    • 4.34.34.3 基线 Baselines\text{Baselines}Baselines
    • 4.44.44.4 实验结果 Experimental Results\text{Experimental Results}Experimental Results
    • 4.54.54.5 比较分析 Comparative Analysis\text{Comparative Analysis}Comparative Analysis
    • 4.64.64.6 案例分析 Case Study\text{Case Study}Case Study
  • 555 结论 Conclusion\text{Conclusion}Conclusion
  • 666 致谢 Acknowledgements\text{Acknowledgements}Acknowledgements
  • 附录A\text{A}A:参考文献
  • 后记

摘要 Abstract\text{Abstract}Abstract