Named Entity Recognition for Chinese Social Media with Jointly Trained Embedding 笔记
摘要
中文NER主要针对正式文本,对于社交媒体的NER主要在英语上,本文标注了一个新的微博数据集,标注有名称和一些名词性提及
1.介绍
一个中文NER 传统是利用lexical embedding来提高NER性能,然而不像其他语言,我们不能使用 没有自动分词来为中文单词赋值一个Embedding,这是不可信的,所以中文NER model都tag characters。
本文
joint train embeddings for both ner and laguage modeling
2.NER for Chinese Social Media
社交媒体的不正式性很明显对NLP系统造成了重大的困难,例如拼写错误,新颖的词以及非语法构造。中文也提出了更多的挑战,不是用字母而是用简写,缺乏很多线索,例如大写和标点符号,更缺乏显式的单词边界。另外,corpora要么使用传统的字符,要么使用简化后的字符,而社交媒体混合了他们。
baseline 是 Mao at al提出的,在SIGHAN 2008上实现了最好的结果,特征包含很多传统的英文特征,例如 character unigram and bigram
3 Embeddings for Chinese Text
Lexical Embedding
可以捕捉语义和语法特征,在小规模数据集时,embedding很有用,因为是在大规模语料上跑过的。
共使用了三种 Embedding
- word embedding:在weibo raw corpus使用分词进行训练
- character embedding:在 training corpus上训练,失去了单词的context
- Character and Position Embeddings: 首先分词,在不同的位置被视为不同的characeter 分离训练
4.joint trained objective
fine-tune也有它的缺点,比如可以武断地剥离在大规模语料训练得到的embedding
Jointly training the embeddings with the multi-part objectives allows the fine-tuned embeddings to further influence other embeddings
尽管是没有出现在训练的label data中的,可以有效地提高OOV问题。
本文在 ner和语言模型的双重目标下联合学习Embedding
有两个目标。
4.参数估计
使用word2vec预训练词向量,除非特别说明,否则采用word2vec默认设置。使用交替进行进行联合训练,使用早停应对过拟合,使用带有L2正则化的SGD,所有的超参数都在dev上进行微调。使用现成的Word2vec来做语言模型的目标
5. 数据集
有实体和名词性提及,有俩标准:
- DEFT ERE (Linguistics Data Consortium, 2014)
- Amazon Mechanical Turk ,具备gold-example确保高质量标注
共有四种实体:four major semantic types: person, organization, location and geo-political entity
构建了一个没有标注的数据集用于训练embedding
6.实验
有两种设置,只训练名词性提及,训练实体和名词性提及,不知道原来的模型究竟是咋样的呢。就简单的提高了,虽然还是很低哈哈哈哈。
Named Entity Recognition for Chinese Social Media with Jointly Trained Embedding 笔记相关推荐
- Named Entity Recognition for Chinese Social Media with Jointly Trained Embeddings
Named Entity Recognition for Chinese Social Media with Jointly Trained Embeddings 一.研究对象:中文社交媒体信息的命名 ...
- A Unified Model for Cross-Domain and Semi-Supervised Named Entity Recognition in Chinese Social Medi
摘要 中文社交媒体中的命名实体识别(NER)因其非正规性和强噪声性而显得重要而困难.以往的方法只关注领域内的有监督学习,这因为标注数据很少而受到限制.然而,在形式域中有足够的语料库和大量的域内未标注文 ...
- PapeDeading:Deep into Regularity: A Simple but Effective Method for Chinese Named Entity Recognition
Deep into Regularity: A Simple but Effective Method for Chinese Named Entity Recognition 文章目录 摘要 结论 ...
- 论文阅读笔记-FGN: Fusion Glyph Network for Chinese Named Entity Recognition
论文地址:paper:https://arxiv.org/ftp/arxiv/papers/2001/2001.05272.pdf github地址:github:https://github.com ...
- TENER: Adapting Transformer Encoder for Named Entity Recognition 笔记
TENER: Adapting Transformer Encoder for Named Entity Recognition Abstract(摘要) 1 Introduction(介绍) 2 R ...
- NER项目--github--A Unified MRC Framework for Named Entity Recognition
A Unified MRC Framework for Named Entity Recognition项目代码 简述 项目结构 models model_config.py classifier.p ...
- 【论文笔记-NER综述】A Survey on Deep Learning for Named Entity Recognition
本笔记理出来综述中的点,并将大体的论文都列出,方便日后调研使用查找,详细可以看论文. 神经网络的解释: The forward pass com- putes a weighted sum of th ...
- [论文阅读笔记05]Deep Active Learning for Named Entity Recognition
一,题目 Deep Active Learning for Named Entity Recognition[NER任务的深度主动学习] 来源:ICLR 2018 原文:DEEP ACTIVE LEA ...
- Nested Named Entity Recognition from Medical Texts: An Adaptive Shared Network Architecture with Att
论文名称:Nested Named Entity Recognition from Medical Texts: An Adaptive Shared Network Architecture wit ...
- MRC Framework for Named Entity Recognition【代码解读】
一.预备知识 介绍文章 A Unified MRC Framework for Named Entity Recognition[文章学习]:https://blog.csdn.net/qq_1694 ...
最新文章
- Jquery 常用方法经典总结
- 中国大气污染影响韩国?生态环境部这样反驳
- AngularJs 常用指令标签
- 阿里巴巴在宁成立江苏总部
- 山东外贸职业学院王彩霞老师网上考试系统及c语言考试题库》,2019年山东外贸职业学院单独招生考试测试内容及安排...
- Filecoin网络目前总质押量约为4172万枚FIL
- 10 个迅速提升你 Git 水平的提示
- Spring源码全解析,帮你彻底学习Spring源码
- Excel批量生成minitab图表(自动化)
- 论文记录-2017-A review of affective computing: From unimodal analysis to multimodal fusion
- 软件测试 | 测试方案怎么写
- 调用微信二维码识别开源库
- 适用于顺序磁盘访问的1分钟法则
- C语言学习笔记——调用函数时提示警告
- 中国蚁剑安装使用教程
- 关于redis缓存穿透浅析
- 哈理工计算机组成原理,哈尔滨理工大学计算机组成原理课程设计.pdf
- 最大子段和问题 蛮力法、分治法和动态规划效率比较(C++实现)
- office 2016 PPT导出视频失败?
- 强推4款数据恢复神器,数据误删不烦恼
热门文章
- kali linux安全牛教程,Kali Linux渗透测试(安全牛)最新完整版教程160G
- 鼠标双击成了查看属性是怎么回事?怎样解决?
- PS CS6中文如何切换成英文版界面?
- 老旧笔记本的WIN10系统安装Win7还是Win8版本声卡驱动?
- 三位数除以两位数竖式计算没有余数_三位数除以两位数有余数竖式运算300题
- 《墨菲定律》——决策中的学问
- ES文件浏览器访问电脑共享文件夹,输入正确的密码、账号,始终在登录界面
- js实现中英文合并排序
- 第九篇:ROS的gazebo三维物理仿真环境联合使用
- thread-specific stroage模式 一个线程一个储物柜