中文分词任务是一个预测序列的经典问题,已知的方法有基于HMM[1]的分词方法、基于CRF[2]的方法和基于LSTM的分词方法。

本文介绍Xinchi Chen等人[3]提出的基于LSTM的分词方法。根据Atlas ML团队的工作[4],基于ICWS2005MSRA数据集上的最佳模型,由上述LSTM模型的分词方法取得,F1值为97.40%,其模型结构为预处理层+多字(Bigram)+LSTM层+CRF层。

本文根据Xinchi Chen等人的论文,在ICWS2005PKU数据集上,利用Keras构建网络进行了重复实验,损失函数用了文中提到的squared_hinge方法,optimizer用了nadam方法。模型分为四层,第一层输入层的最大长度为1019,由于在PKU训练集和测试集上最长语句为1019个字;第二层为嵌入层,其中根据PKU训练集生成的字表为4698个字,并增加一个未登录词字符,共4699个元素,嵌入空间100维,标识0为特殊字符在空间隐去(对于未登陆此,输入层传参时索引赋值为0);第三层为双向LSTM层,含150个lstm cell单元,经过Xinchi Chen实验证明窗口为(0,2)时,即对于每个字符c,(c+0,c+2)的滑动窗口时LSTM效果最佳,直接采用它的结论进行实验;最后加入全连接层,kernelregularizer使用了0.0001的L2正则。训练的batch_size为1024,训练100轮,在PKU测试集上达到了0.9566的精度。

原始论文的F1值为95.7%,仅利用C0窗口的BiLSTM模型在PKU测试集上的准确率,见图1:

图1 Bi-LSTM在ICWS2005-PKU训练集下的评价

各损失函数与优化函数在模型下,训练1轮达到的精度如图2:

实现的程序见[5]。

[1]隐马尔可夫模型;部分可见马尔可夫模型. https://zhuanlan.zhihu.com/p/106054580.

[2]Conditional Random Field中文分词. https://zhuanlan.zhihu.com/p/107593308.

[3]Xinchi Chen etc al. Long short-term memory neural networks for Chinese word segmentation. //Conference Proceedings - EMNLP 2015: Conference on Empirical Methods in Natural Language Processing.

[4]Atlas ML. Chinese Segment State of the art. https://paperswithcode.com/task/chinese-word-segmentation

[5]LSTM中文分词. https://github.com/ShenDezhou/LSTM.

bilstm+crf中文分词_基于LSTM的中文分词模型相关推荐

  1. 基于LSTM的中文多分类情感分析

    趁着国庆假期,玩了一下深度学习(主要是LSTM这个网络),顺便做了一个中文多分类的情感分析.中文情感分析相对英文来说,难度太大,所以最后分析的结果,准确度也不是太高,但基本还是没啥问题的. 对应的ap ...

  2. 基于LSTM的中文文本多分类实战

    在我之前的博客中我们介绍了文本的多分类的方法,我们还尝试了各种分类模型,比如朴素贝叶斯.逻辑回归.支持向量机和随机森林等并且都取得了非常不错的效果.今天我们使用深度学习中的LSTM(Long Shor ...

  3. python 英语分词_基于Python NLTK库进行英文文本预处理

    文本预处理是要文本处理成计算机能识别的格式,是文本分类.文本可视化.文本分析等研究的重要步骤.具体流程包括文本分词.去除停用词.词干抽取(词形还原).文本向量表征.特征选择等步骤,以消除脏数据对挖掘分 ...

  4. lstm模型_基于LSTM模型的学生反馈文本学业情绪识别方法

    | 全文共8155字,建议阅读时长8分钟 | 本文由<开放教育研究>授权发布 作者:冯翔 邱龙辉 郭晓然 摘要 分析学生学习过程产生的反馈文本,是发现其学业情绪的重要方式.传统的学业情绪 ...

  5. python中文文本分析_基于CNN的中文文本分类算法(可应用于垃圾邮件过滤、情感分析等场景)...

    基于cnn的中文文本分类算法 简介 参考IMPLEMENTING A CNN FOR TEXT CLASSIFICATION IN TENSORFLOW实现的一个简单的卷积神经网络,用于中文文本分类任 ...

  6. java lstm pb_在Tensorflow Serving上部署基于LSTM的文本分类模型

    一些重要的概念 Servables Servables 是客户端请求执行计算的基础对象,大小和粒度是灵活的. Servables 不会管理自己的运行周期. 典型的Servables包括: a Tens ...

  7. 网络安全模型_基于TCM的网络安全访问模型

    摘要:分析Google公司的BeyondCorp安全访问模型,基于TCM标准的可信计算平台,借鉴 BeyondCorp企业安全方法,结合TNC可信网络接入.用户PKC证书验证和基于属,性证书的访问 控 ...

  8. python爬小红书_基于文本分析和SEM模型的小红书用户粘性研究

    基于文本分析和 SEM 模型的小红书用户粘性研究 文/曹增栋 罗迪维 杨炳新 王心贝 [摘 要] 摘要:本文利用 Python 软件爬取小红书用户评论的 27900 条数据, 通过 jieba 分词提 ...

  9. 寺冈labelnet使用说明_基于imagenet数据集的ResNet50模型训练示例

    基于imagenet数据集的ResNet50模型训练示例 训练前准备 数据集获取 本训练示例以imagenet数据集为例,从imagenet官方网站http://www.image-net.org/获 ...

最新文章

  1. 基于SSM实现保健院管理系统
  2. three.js glb 多个_25万的预算,奔驰GLB、宝马X1、奥迪Q3该怎么选
  3. JavaScript正则替换去除字符串中特殊字符
  4. Redis(5种数据类型)
  5. 看不清的融资迷局 二线玩家字节跳动在打什么主意?
  6. 手机做服务器性能咋样,服务器性能不足 怎样才能逼出最强状态
  7. 笑死了,打错一个字,竟然...
  8. nginx https透明代理_Nginx反向代理https,配置lets-encrypt证书教程
  9. linux hadoop 伪分布,linux配置Hadoop伪分布安装模式
  10. ASP.NET 常用的33种代码(转,收藏一下,以备后查)
  11. SharePoint 2013 本地创建解决方案
  12. ios 中文输入法 完成事件_让聊天更方便 百度输入法开启AI助聊功能
  13. Atitit 数据查询法 目录 1. 数据查询语言QL (推荐) 1 1.1. Sql 1 1.2. 对象查询语言(OQL) 1 1.3. Atitit QL查询语言总结Jpql Ongl
  14. 李永乐线性代数辅导讲义第四章学霸小结
  15. CentOS8 安装 telnet 命令
  16. 如何把大写金额变为小写数字_如何将小写金额转换为大写金额?这几个公式你至少要学会一个……...
  17. 关于“程序员996”,互联网大神发话了,能顶用吗?
  18. 3D模型欣赏:银发美女 ,性感女骑士
  19. 加速进化,浪潮存储正在梦想成真
  20. 第4章 Vue全家桶(vue-router+vuex) - 4.23 如何添加商品到购物车中6步骤

热门文章

  1. mysql索引篇之覆盖索引、联合索引、索引下推
  2. 基于用户行为的兴趣标签模型
  3. 如何自动判断域名是否被微信拦截 被微信屏蔽的域名网址如何正常打开使用
  4. ACM-ICPC 2018 沈阳赛区网络预赛 D Made In Heaven(第k短路,A*算法)
  5. RecyclerView Item 布局宽高无效问题探究
  6. [大数据之Yarn]——资源调度浅学
  7. IEEE公布2.5G和5G以太网IEEE 802.3bz标准
  8. ES6 WeakSet数据结构 与Set十分相似
  9. android图片加载库Glide
  10. client intended to send too large body