摘要

中文NER主要针对正式文本,对于社交媒体的NER主要在英语上,本文标注了一个新的微博数据集,标注有名称和一些名词性提及

1.介绍

一个中文NER 传统是利用lexical embedding来提高NER性能,然而不像其他语言,我们不能使用 没有自动分词来为中文单词赋值一个Embedding,这是不可信的,所以中文NER model都tag characters。
本文

joint train embeddings for both ner and laguage modeling

2.NER for Chinese Social Media

社交媒体的不正式性很明显对NLP系统造成了重大的困难,例如拼写错误,新颖的词以及非语法构造。中文也提出了更多的挑战,不是用字母而是用简写,缺乏很多线索,例如大写和标点符号,更缺乏显式的单词边界。另外,corpora要么使用传统的字符,要么使用简化后的字符,而社交媒体混合了他们。
baseline 是 Mao at al提出的,在SIGHAN 2008上实现了最好的结果,特征包含很多传统的英文特征,例如 character unigram and bigram

3 Embeddings for Chinese Text

Lexical Embedding可以捕捉语义和语法特征,在小规模数据集时,embedding很有用,因为是在大规模语料上跑过的。
共使用了三种 Embedding

  • word embedding:在weibo raw corpus使用分词进行训练
  • character embedding:在 training corpus上训练,失去了单词的context
  • Character and Position Embeddings: 首先分词,在不同的位置被视为不同的characeter 分离训练

4.joint trained objective

fine-tune也有它的缺点,比如可以武断地剥离在大规模语料训练得到的embedding

Jointly training the embeddings with the multi-part objectives allows the fine-tuned embeddings to further influence other embeddings
尽管是没有出现在训练的label data中的,可以有效地提高OOV问题。

本文在 ner和语言模型的双重目标下联合学习Embedding
有两个目标。

4.参数估计

使用word2vec预训练词向量,除非特别说明,否则采用word2vec默认设置。使用交替进行进行联合训练,使用早停应对过拟合,使用带有L2正则化的SGD,所有的超参数都在dev上进行微调。使用现成的Word2vec来做语言模型的目标

5. 数据集

有实体和名词性提及,有俩标准:

  • DEFT ERE (Linguistics Data Consortium, 2014)
  • Amazon Mechanical Turk ,具备gold-example确保高质量标注

共有四种实体:four major semantic types: person, organization, location and geo-political entity
构建了一个没有标注的数据集用于训练embedding

6.实验

有两种设置,只训练名词性提及,训练实体和名词性提及,不知道原来的模型究竟是咋样的呢。就简单的提高了,虽然还是很低哈哈哈哈。

Named Entity Recognition for Chinese Social Media with Jointly Trained Embedding 笔记相关推荐

  1. Named Entity Recognition for Chinese Social Media with Jointly Trained Embeddings

    Named Entity Recognition for Chinese Social Media with Jointly Trained Embeddings 一.研究对象:中文社交媒体信息的命名 ...

  2. A Unified Model for Cross-Domain and Semi-Supervised Named Entity Recognition in Chinese Social Medi

    摘要 中文社交媒体中的命名实体识别(NER)因其非正规性和强噪声性而显得重要而困难.以往的方法只关注领域内的有监督学习,这因为标注数据很少而受到限制.然而,在形式域中有足够的语料库和大量的域内未标注文 ...

  3. PapeDeading:Deep into Regularity: A Simple but Effective Method for Chinese Named Entity Recognition

    Deep into Regularity: A Simple but Effective Method for Chinese Named Entity Recognition 文章目录 摘要 结论 ...

  4. 论文阅读笔记-FGN: Fusion Glyph Network for Chinese Named Entity Recognition

    论文地址:paper:https://arxiv.org/ftp/arxiv/papers/2001/2001.05272.pdf github地址:github:https://github.com ...

  5. TENER: Adapting Transformer Encoder for Named Entity Recognition 笔记

    TENER: Adapting Transformer Encoder for Named Entity Recognition Abstract(摘要) 1 Introduction(介绍) 2 R ...

  6. NER项目--github--A Unified MRC Framework for Named Entity Recognition

    A Unified MRC Framework for Named Entity Recognition项目代码 简述 项目结构 models model_config.py classifier.p ...

  7. 【论文笔记-NER综述】A Survey on Deep Learning for Named Entity Recognition

    本笔记理出来综述中的点,并将大体的论文都列出,方便日后调研使用查找,详细可以看论文. 神经网络的解释: The forward pass com- putes a weighted sum of th ...

  8. [论文阅读笔记05]Deep Active Learning for Named Entity Recognition

    一,题目 Deep Active Learning for Named Entity Recognition[NER任务的深度主动学习] 来源:ICLR 2018 原文:DEEP ACTIVE LEA ...

  9. Nested Named Entity Recognition from Medical Texts: An Adaptive Shared Network Architecture with Att

    论文名称:Nested Named Entity Recognition from Medical Texts: An Adaptive Shared Network Architecture wit ...

  10. MRC Framework for Named Entity Recognition【代码解读】

    一.预备知识 介绍文章 A Unified MRC Framework for Named Entity Recognition[文章学习]:https://blog.csdn.net/qq_1694 ...

最新文章

  1. Jquery 常用方法经典总结
  2. 中国大气污染影响韩国?生态环境部这样反驳
  3. AngularJs 常用指令标签
  4. 阿里巴巴在宁成立江苏总部
  5. 山东外贸职业学院王彩霞老师网上考试系统及c语言考试题库》,2019年山东外贸职业学院单独招生考试测试内容及安排...
  6. Filecoin网络目前总质押量约为4172万枚FIL
  7. 10 个迅速提升你 Git 水平的提示
  8. Spring源码全解析,帮你彻底学习Spring源码
  9. Excel批量生成minitab图表(自动化)
  10. 论文记录-2017-A review of affective computing: From unimodal analysis to multimodal fusion
  11. 软件测试 | 测试方案怎么写
  12. 调用微信二维码识别开源库
  13. 适用于顺序磁盘访问的1分钟法则
  14. C语言学习笔记——调用函数时提示警告
  15. 中国蚁剑安装使用教程
  16. 关于redis缓存穿透浅析
  17. 哈理工计算机组成原理,哈尔滨理工大学计算机组成原理课程设计.pdf
  18. 最大子段和问题 蛮力法、分治法和动态规划效率比较(C++实现)
  19. office 2016 PPT导出视频失败?
  20. 强推4款数据恢复神器,数据误删不烦恼

热门文章

  1. kali linux安全牛教程,Kali Linux渗透测试(安全牛)最新完整版教程160G
  2. 鼠标双击成了查看属性是怎么回事?怎样解决?
  3. PS CS6中文如何切换成英文版界面?
  4. 老旧笔记本的WIN10系统安装Win7还是Win8版本声卡驱动?
  5. 三位数除以两位数竖式计算没有余数_三位数除以两位数有余数竖式运算300题
  6. 《墨菲定律》——决策中的学问
  7. ES文件浏览器访问电脑共享文件夹,输入正确的密码、账号,始终在登录界面
  8. js实现中英文合并排序
  9. 第九篇:ROS的gazebo三维物理仿真环境联合使用
  10. thread-specific stroage模式 一个线程一个储物柜