spaCy是最流行的开源NLP开发包之一,它有极快的处理速度,并且预置了词性标注、句法依存分析、命名实体识别等多个自然语言处理的必备模型,因此受到社区的热烈欢迎。中文版预训练模型包括词性标注、依存分析和命名实体识别,由汇智网提供,下载地址:spaCy2.1中文模型包 。

1、模型下载安装与使用

下载后解压到一个目录即可,例如假设解压到目录 /models/zh_spacy,目录结构如下:

/spacy/zh_model    | - meta.json                 # 模型描述信息| - tokenizer                  | - vocab                     # 词库目录| - tagger                    # 词性标注模型| - parser                    # 依存分析模型| - ner                       # 命名实体识别模型

使用spaCy载入该模型目录即可。例如:

import spacynlp = spacy.load('/spacy/zh_model')
doc = nlp('西门子将努力参与中国的三峡工程建设。')
for token in doc:print(token.text)

spaCy2.1中文预训练模型下载地址:http://sc.hubwiz.com/codebag/zh-spacy-model/

2、使用词向量

spaCy中文模型采用了中文维基语料预训练的300维词向量,共352217个词条。

例如,查看词向量表大小及维度:

import spacy
nlp = spacy.load('/spacy/zh_model')
print(nlp.vocab.vectors.shape)
print(nlp.vocab['北京'].vector)

结果如下:

(352217, 300)
[-0.136166 -0.339835  0.528109  0.417842 -0.093321 -0.42306  -0.475931-0.125459  0.137432 -0.567229  0.242339  0.245993 -0.377495 -0.274273...0.238025  0.309567 -0.692431 -0.078103 -0.26816   0.051805  0.075192-0.052902  0.376131 -0.221235  0.23855  -0.11685   0.40507 ]

3、使用词性标注

spaCy中文词性标注模型采用Universal Dependency的中文语料库进行训练。

import spacy
nlp = spacy.load('/spacy/zh_model')
doc = nlp('西门子将努力参与中国的三峡工程建设。')
for token in doc:print(token.text,token.pos_,token.tag_)

将得到如下的词性标注结果:

西门子     NNP
将         BB
努力       RB
参与       VV
中国       NNP
的         DEC
三峡工程   NN
建设       NN

4、使用依存分析

spaCy中文依存分析模型采用Universal Dependency的中文语料库进行训练。

例如,下面的代码输出各词条的文本、依赖关系以及其依赖的词条:

import spacy
nlp = spacy.load('/spacy/zh_model')
doc = nlp('西门子将努力参与中国的三峡工程建设。')
for token in doc:print(token.text,token.dep_,token.head)

输出结果如下:

西门子     nsubj       参与
将         advmod      参与
努力       advmod      参与
参与       ROOT        参与
中国       det         建设
的         case:dec    中国
三峡工程   nmod        建设
建设       obj         参与
。         punct       参与

也可以使用spaCy内置的可视化工具:

from spacy import displacy
displacy.render(doc,type='dep')

结果如下:

5、使用命名实体识别

spaCy中文NER模型采用ontonotes 5.0数据集训练。

例如:

import spacy
nlp = spacy.load('/spacy/zh_model')
doc = nlp('西门子将努力参与中国的三峡工程建设。')
for ent in doc.ents:print(ent.text,ent.label_)

输出结果如下:

西门子    ORG
中国      GPE
三峡工程  FAC

也可以使用spaCy内置的可视化工具:

from spacy import displacy
displacy.render(doc,type='ent')

运行结果如下:

原文链接:spaCy2.1中文模型包 — 汇智网

spaCy 2.1 中文NLP模型相关推荐

  1. ChineseGLUE:为中文NLP模型定制的自然语言理解基准

    机器之心整理 参与:张倩.郑丽慧 GLUE 是一个用于评估通用 NLP 模型的基准,其排行榜可以在一定程度上反映 NLP 模型性能的高低.然而,现有的 GLUE 基准针对的是英文任务,无法评价 NLP ...

  2. 这群工程师,业余时间将中文 NLP 推进了一大步

    内容一览:什么?中文 NLP 和英文 NLP 研究的是两个方向?源远流长的汉语让 NLP 的探索,变得步履维艰?我们将在本文的内容里,一起回顾最近以来,那些给中文 NLP领域带来突破的几个项目. 关键 ...

  3. spacy库的安装与使用_为 SpaCy 提供的中文数据模型

    SpaCy 中文模型 为 SpaCy 提供的中文数据模型. 模型目前还处于 beta 公开测试的状态 . 在线演示 基于 Jupyter notebook 的在线演示在 . 特性 部分 王小明在北京的 ...

  4. 这群工程师,业余将中文 NLP 推进了一大步

    By 超神经 内容一览:什么?中文 NLP 和英文 NLP 研究的是两个方向?源远流长的汉语让 NLP 的探索,变得步履维艰?我们将在本文的内容里,一起回顾最近以来,那些给中文 NLP领域带来突破的几 ...

  5. 最强NLP模型BERT喜迎PyTorch版!谷歌官方推荐,也会支持中文

    郭一璞 夏乙 发自 凹非寺  量子位 报道 | 公众号 QbitAI 谷歌的最强NLP模型BERT发布以来,一直非常受关注,上周开源的官方TensorFlow实现在GitHub上已经收获了近6000星 ...

  6. 阿里云机器学习PAI开源中文NLP算法框架EasyNLP,助力NLP大模型落地

    作者:临在.岑鸣.熊兮 一 导读 随着 BERT.Megatron.GPT-3 等预训练模型在NLP领域取得瞩目的成果,越来越多团队投身到超大规模训练中,这使得训练模型的规模从亿级别发展到了千亿甚至万 ...

  7. 一举刷新 54 个中文 NLP 任务基准,大模型加持下的EasyDL有多强?

    Datawhale分享 EasyDL:一键安装,本地高效建模 随着AI技术的发展,NLP技术已经陆续"上岗"至各类产业应用场景中,自动处理繁杂而重复性的工作,如新闻内容自动分类.智 ...

  8. NLP:训练一个中文问答模型Ⅰ

    训练一个中文问答模型I-Step by Step   本文基于经典的NMT架构(Seq2Seq+Attention),训练了一个中文问答模型,把问题到答案之间的映射看作是问题到答案的翻译.基于Tens ...

  9. NLP:训练一个中文问答模型Ⅱ

    训练一个中文问答模型Ⅱ-Step by Step   接上一篇 中文问答模型Ⅰ基于这次仍是基于NMT架构训练,但是把Seq2Seq替换为Transformer架构,还有一点不同是,本次没有采用分词训练 ...

最新文章

  1. iOS开发火了九年,这些错误你还在犯嘛?
  2. 深耕大数据“试验田” 发掘新经济“钻石矿”
  3. 虚拟dom_虚拟DOM发展的前世与今身
  4. redis使用watch完成秒杀抢购功能
  5. Centos安装后的一些必要处理工作
  6. Java与C底层数据类型转换
  7. python如何查询数据库_python如何实现查询sql数据库并生成html文件?
  8. About Site Definition Files
  9. String Statistics(2008年珠海市ACM程序设计竞赛)
  10. 数据算法之折半插入排序(binInsertSort)的Java实现
  11. 最小生成树MST详解
  12. MFC控件与变量的关联和值传递的方法
  13. 论文阅读 | FoveaBox: Beyond Anchor-based Object Detector
  14. 东航手机值机选座推荐
  15. mysql 备份库的shell_shell脚本之 备份mysql数据库
  16. Balsamiq Wireframes 免费安装
  17. 我的高中时代──纪念1995年进入高中20周年
  18. Shell脚本之免交互
  19. TexturePacker的用法
  20. 使用MATLAB实现对信号的EMD分解

热门文章

  1. debian8文件服务器,debian 8 下部署开发环境
  2. 网络层HTPPS和HTTP的概念与区别
  3. 人工智能创造了世界上最好的大象追踪设备
  4. 苹果支付在哪里设置_你会用苹果手机吗?这些快捷指令快速设置一下,好用度提升10倍...
  5. 怎样用html制作歌词字幕,爱剪辑可以制作歌词字幕吗 教你用爱剪辑加歌词字幕的方法--系统之家...
  6. TableauBDP,哪个才是最适合中国用户的数据可视化分析工具?
  7. html+input+js双击,JS双击变input框批量修改内容
  8. 火狐浏览器屏蔽百度热榜的方法
  9. python中round函数参数有负数_Python中round函数使用注意事项
  10. 设置网站 titile keyword 以及 descript