跟我读论文丨ACL2021 NER 模块化交互网络用于命名实体识别
摘要:本文是对ACL2021 NER 模块化交互网络用于命名实体识别这一论文工作进行初步解读。
本文分享自华为云社区《ACL2021 NER | 模块化交互网络用于命名实体识别》,作者: JuTzungKuei 。
论文: Li Fei, Wang Zheng, Hui Siu Cheung, Liao Lejian, Song Dandan, Xu Jing, He Guoxiu, Jia Meihuizi. Modularized Interaction Network for Named Entity Recognition [A]. Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing (Volume 1: Long Papers) [C]. Online: Association for Computational Linguistics, 2021, 200–209.
链接:https://aclanthology.org/2021.acl-long.17.pdf
代码:无
0、摘要
- 现有NER模型缺点
- 基于序列标注的NER模型:长实体识别不佳,只关注词级信息
- 基于分段的NER模型:处理分段,而非单个词,不能捕获分段中的词级依赖关系
- 边界检测和类型预测可以相互配合,两个子任务可共享信息,相互加强
- 提出模块化交互网络模型MIN(Modularized Interaction Network)
- 同时利用段级信息和词级依赖关系
- 结合一种交互机制,支持边界检测和类型预测之间的信息共享
- 三份基准数据集上达到SOTA
1、介绍
- NER:查找和分类命名实体,person (PER), location
(LOC) or organization (ORG),下游任务:关系抽取、实体链接、问题生成、共引解析 - 两类方法
- 序列标注 sequence labeling:可捕获词级依赖关系
- 分段 segment(a span of words):可处理长实体
- NER:检测实体边界和命名实体的类型,
- 分成两个子任务:边界检测、类型预测
- 两个任务之间是相关的,可以共享信息
- 举栗:xx来自纽约大学
- 如果知道大学是实体边界,更可能会预测类型是ORG
- 如果知道实体有个ORG类型,更可能会预测到“大学”边界
- 上述两个常用方法没有在子任务之间共享信息
- 序列标注:只把边界和类型当做标签
- 分段:先检测片段,再划分类型
- 本文提出MIN模型:NER模块、边界模块、类型模块、交互机制
- 指针网络作为边界模块的解码器,捕捉每个词的段级信息
- 段级信息和词级信息结合输入到序列标注模型
- 将NER划分成两个任务:边界检测、类型预测,并使用不同的编码器
- 提出一个相互加强的交互机制,所有信息融合到NER模块
- 三个模块共享单词表示,采用多任务训练
- 主要贡献:
- 新模型:MIN,同时利用段级信息和词级依赖
- 边界检测和类型预测分成两个子任务,结合交互机制,使两个子任务信息共享
- 三份基准数据集达到SOTA
2、方法
- NER模块:RNN-BiLSTM-CRF,引用Neural architectures for named entity recognition
- 词表示:word(BERT) + char(BiLSTM)
- BiLSTM编码:双向LSTM,交互机制代替直接级联,门控函数动态控制
最终NER输出:H^{NER}=W^T[H;H^B;H^T;H^S] + bHNER=WT[H;HB;HT;HS]+b
H^{Bdy}HBdy表示边界模块输出,H^{Type}HType表示类型模块输出,H^{Seg}HSeg表示分段信息
- CRF解码:转移概率 + 发射概率
- 边界模块:双向LSTM编码H^{Bdy}HBdy,单向LSTM解码
- 解码:
s_j=h_{j-1}^{Bdy}+h_{j}^{Bdy}+h_{j+1}^{Bdy}sj=hj−1Bdy+hjBdy+hj+1Bdy
d_j=LSTM(s_j, d_{j-1})dj=LSTM(sj,dj−1) - Biaffine Attention机制:
- 解码:
- 类型模块:BiLSTM + CRF
- 交互机制:
- self attention 得到标签增强的边界H^{B-E}HB−E,类型H^{T-E}HT−E
- Biaffine Attention 计算得分 \alpha^{B-E}αB−E
- 交互后的边界:r_i^{B-E}=\sum_{j=1}^{n}\alpha_{i,j}^{B-E}h_j^{T-E}riB−E=∑j=1nαi,jB−EhjT−E
- 更新后的边界:\overline{h}_i^{Bdy}=[h_i^{B-E},r_i^{B-E}]hiBdy=[hiB−E,riB−E]
- 更新后的类型:\overline{h}_i^{Type}=[h_i^{T-E},r_i^{T-E}]hiType=[hiT−E,riT−E]
- 联合训练:多任务
- 每个任务的损失函数
- 最终损失函数:\mathcal{L}=\mathcal{L}^{NER}+\mathcal{L}^{Type}+\mathcal{L}^{Bdy}L=LNER+LType+LBdy
3、结果
- Baseline (sequence labeling-based)
- CNN-BiLSTM-CRF
- RNN-BiLSTM-CRF
- ELMo-BiLSTM-CRF
- Flair (char-BiLSTM-CRF)
- BERT-BiLSTM-CRF
- HCRA (CNN-BiLSTM-CRF)
- Baseline (segment-based)
- BiLSTM-Pointer
- HSCRF
- MRC+BERT
- Biaffine+BERT
号外号外:想了解更多的AI技术干货,欢迎上华为云的AI专区,目前有AI编程Python等六大实战营供大家免费学习。
点击关注,第一时间了解华为云新鲜技术~
跟我读论文丨ACL2021 NER 模块化交互网络用于命名实体识别相关推荐
- 论文解读:ACL2021 NER | 基于模板的BART命名实体识别
摘要:本文是对ACL2021 NER 基于模板的BART命名实体识别这一论文工作进行初步解读. 本文分享自华为云社区<ACL2021 NER | 基于模板的BART命名实体识别>,作者: ...
- 跟我读论文丨ACL2021 NER BERT化隐马尔可夫模型用于多源弱监督命名实体识别
摘要:本文是对ACL2021 NER BERT化隐马尔可夫模型用于多源弱监督命名实体识别这一论文工作进行初步解读. 本文分享自华为云社区<ACL2021 NER | BERT化隐马尔可夫模型用于 ...
- 【项目调研+论文阅读】Lattice LSTM神经网络医学文本命名实体识别 | day7
<Lattice LSTM神经网络法中文医学文本命名实体识别模型研究>2019 文章目录 一.模型步骤 1.Lattiice-LSTM分词+表征词汇 2.LSTM-CRF 经证实,英文N ...
- 论文浅尝 | 利用Lattice LSTM的最优中文命名实体识别方法
本文转载自公众号:机器之心. 选自arXiv 作者:Yue Zhang.Jie Yang 机器之心编译 参与:路.王淑婷 近日,来自新加坡科技设计大学的研究者在 arXiv 上发布了一篇论文,介绍了一 ...
- Stanford Named Entity Recognizer (NER) 斯坦福命名实体识别(NER)
以下翻译内容来自:https://nlp.stanford.edu/software/CRF-NER.html About 关于 Stanford NER is a Java implementati ...
- 【NER综述】近五年中文电子病历命名实体识别研究进展
来自:python遇见NLP 阅读综述性论文是一种能够快速了解某一领域的方法,接下来通过今年的一篇综述性论文来了解一下近五年来中文电子病历的命名实体识别研究进展. 基本的,我们应该先来了解一下两个概念 ...
- 【AdaSeq基础】30+NER数据汇总,涉及多行业、多模态命名实体识别数据集收集
简介 命名实体识别NER是NLP基础任务,一直以来受到学术界和业界的广泛关注,本文汇总了常见的中英文.多语言.多模态NER数据集介绍. 相关数据详情可以访问链接: https://github.com ...
- 命名实体识别(NER)综述
本文是中文信息处理课程的期末考核大作业,对于自然语言处理主流任务的调研报告 ---------------- 版权声明:本文为CSDN博主「<Running Snail>」的原创文章,遵循 ...
- 命名实体识别(NER)知识汇总
介绍 命名实体识别(Named Entity Recognition,NER)是NLP领域中一项基础的信息抽取任务,NER 是关系抽取.知识图谱.问答系统等其他诸多NLP任务的基础.NER从给定的非结 ...
最新文章
- [转]自定义hadoop map/reduce输入文件切割InputFormat
- Flex 主窗体给弹出窗体传值
- c语言中tgx是什么函数,《高等数学》课后练习题
- 程序员面试金典 - 面试题 08.03. 魔术索引(二分递归)
- 协程asyncio_Asyncio深入浅出
- linux管理员清理主目录,在Linux上如何清理垃圾系统管理员
- 高性能JavaScript DOM编程
- oracle 中EXP、IMP 命令详解
- 搜狗linux 如何启动程序,完美解决搜狗输入法"请启用fcitx-qimpanel面板程序"的方法...
- 2019考研英语熟词生义
- 风变编程python24_如何看待风变编程的 Python 网课?
- bada开发——简单介绍
- android测试基站,Android iPhone 手机查看基站信息
- Proxifier实现指定进程代理IP 雷电模拟器为例
- 致Play Framework开发者们的一封信
- HTC IMEI码或SN码查询地址
- 扩展欧几里得算法 求解 丢番图方程
- Android如何隐藏应用程序的图标
- Latex中IOP模板下amsmath包报错
- python canopen_CAN与CANOPEN在电机控制中的应用
热门文章
- HTML 表格的样式属性
- 用java统计任一书名次数_Java入门第三季 借书系统源代码 加入了限制重输次数 欢迎指教交流...
- java node子节点_使用Java的XPath循环遍历节点并提取特定的子节点值
- 无线打印服务器 惠普打印机,连接您的HP无线打印机 | 无线打印中心 | 惠普中国...
- 多php共用一个mysqli连接,在pHP中使用MySQLi连接到多个数据库
- GCC-windows的预编译版本——nuwen MinGW
- docker daemon 配置文件
- delete操作字符串会报错吗?
- [转]JDK动态代理
- Oracle PLSQL 客户端 连接Oracle12.2 出现权限问题的解决办法以及绿色版Oracle客户端的使用....