spaCy 2.1 中文NLP模型
spaCy是最流行的开源NLP开发包之一,它有极快的处理速度,并且预置了词性标注、句法依存分析、命名实体识别等多个自然语言处理的必备模型,因此受到社区的热烈欢迎。中文版预训练模型包括词性标注、依存分析和命名实体识别,由汇智网提供,下载地址:spaCy2.1中文模型包 。
1、模型下载安装与使用
下载后解压到一个目录即可,例如假设解压到目录 /models/zh_spacy
,目录结构如下:
/spacy/zh_model | - meta.json # 模型描述信息| - tokenizer | - vocab # 词库目录| - tagger # 词性标注模型| - parser # 依存分析模型| - ner # 命名实体识别模型
使用spaCy载入该模型目录即可。例如:
import spacynlp = spacy.load('/spacy/zh_model')
doc = nlp('西门子将努力参与中国的三峡工程建设。')
for token in doc:print(token.text)
spaCy2.1中文预训练模型下载地址:http://sc.hubwiz.com/codebag/zh-spacy-model/
2、使用词向量
spaCy中文模型采用了中文维基语料预训练的300维词向量,共352217个词条。
例如,查看词向量表大小及维度:
import spacy
nlp = spacy.load('/spacy/zh_model')
print(nlp.vocab.vectors.shape)
print(nlp.vocab['北京'].vector)
结果如下:
(352217, 300)
[-0.136166 -0.339835 0.528109 0.417842 -0.093321 -0.42306 -0.475931-0.125459 0.137432 -0.567229 0.242339 0.245993 -0.377495 -0.274273...0.238025 0.309567 -0.692431 -0.078103 -0.26816 0.051805 0.075192-0.052902 0.376131 -0.221235 0.23855 -0.11685 0.40507 ]
3、使用词性标注
spaCy中文词性标注模型采用Universal Dependency的中文语料库进行训练。
import spacy
nlp = spacy.load('/spacy/zh_model')
doc = nlp('西门子将努力参与中国的三峡工程建设。')
for token in doc:print(token.text,token.pos_,token.tag_)
将得到如下的词性标注结果:
西门子 NNP
将 BB
努力 RB
参与 VV
中国 NNP
的 DEC
三峡工程 NN
建设 NN
4、使用依存分析
spaCy中文依存分析模型采用Universal Dependency的中文语料库进行训练。
例如,下面的代码输出各词条的文本、依赖关系以及其依赖的词条:
import spacy
nlp = spacy.load('/spacy/zh_model')
doc = nlp('西门子将努力参与中国的三峡工程建设。')
for token in doc:print(token.text,token.dep_,token.head)
输出结果如下:
西门子 nsubj 参与
将 advmod 参与
努力 advmod 参与
参与 ROOT 参与
中国 det 建设
的 case:dec 中国
三峡工程 nmod 建设
建设 obj 参与
。 punct 参与
也可以使用spaCy内置的可视化工具:
from spacy import displacy
displacy.render(doc,type='dep')
结果如下:
5、使用命名实体识别
spaCy中文NER模型采用ontonotes 5.0数据集训练。
例如:
import spacy
nlp = spacy.load('/spacy/zh_model')
doc = nlp('西门子将努力参与中国的三峡工程建设。')
for ent in doc.ents:print(ent.text,ent.label_)
输出结果如下:
西门子 ORG
中国 GPE
三峡工程 FAC
也可以使用spaCy内置的可视化工具:
from spacy import displacy
displacy.render(doc,type='ent')
运行结果如下:
原文链接:spaCy2.1中文模型包 — 汇智网
spaCy 2.1 中文NLP模型相关推荐
- ChineseGLUE:为中文NLP模型定制的自然语言理解基准
机器之心整理 参与:张倩.郑丽慧 GLUE 是一个用于评估通用 NLP 模型的基准,其排行榜可以在一定程度上反映 NLP 模型性能的高低.然而,现有的 GLUE 基准针对的是英文任务,无法评价 NLP ...
- 这群工程师,业余时间将中文 NLP 推进了一大步
内容一览:什么?中文 NLP 和英文 NLP 研究的是两个方向?源远流长的汉语让 NLP 的探索,变得步履维艰?我们将在本文的内容里,一起回顾最近以来,那些给中文 NLP领域带来突破的几个项目. 关键 ...
- spacy库的安装与使用_为 SpaCy 提供的中文数据模型
SpaCy 中文模型 为 SpaCy 提供的中文数据模型. 模型目前还处于 beta 公开测试的状态 . 在线演示 基于 Jupyter notebook 的在线演示在 . 特性 部分 王小明在北京的 ...
- 这群工程师,业余将中文 NLP 推进了一大步
By 超神经 内容一览:什么?中文 NLP 和英文 NLP 研究的是两个方向?源远流长的汉语让 NLP 的探索,变得步履维艰?我们将在本文的内容里,一起回顾最近以来,那些给中文 NLP领域带来突破的几 ...
- 最强NLP模型BERT喜迎PyTorch版!谷歌官方推荐,也会支持中文
郭一璞 夏乙 发自 凹非寺 量子位 报道 | 公众号 QbitAI 谷歌的最强NLP模型BERT发布以来,一直非常受关注,上周开源的官方TensorFlow实现在GitHub上已经收获了近6000星 ...
- 阿里云机器学习PAI开源中文NLP算法框架EasyNLP,助力NLP大模型落地
作者:临在.岑鸣.熊兮 一 导读 随着 BERT.Megatron.GPT-3 等预训练模型在NLP领域取得瞩目的成果,越来越多团队投身到超大规模训练中,这使得训练模型的规模从亿级别发展到了千亿甚至万 ...
- 一举刷新 54 个中文 NLP 任务基准,大模型加持下的EasyDL有多强?
Datawhale分享 EasyDL:一键安装,本地高效建模 随着AI技术的发展,NLP技术已经陆续"上岗"至各类产业应用场景中,自动处理繁杂而重复性的工作,如新闻内容自动分类.智 ...
- NLP:训练一个中文问答模型Ⅰ
训练一个中文问答模型I-Step by Step 本文基于经典的NMT架构(Seq2Seq+Attention),训练了一个中文问答模型,把问题到答案之间的映射看作是问题到答案的翻译.基于Tens ...
- NLP:训练一个中文问答模型Ⅱ
训练一个中文问答模型Ⅱ-Step by Step 接上一篇 中文问答模型Ⅰ基于这次仍是基于NMT架构训练,但是把Seq2Seq替换为Transformer架构,还有一点不同是,本次没有采用分词训练 ...
最新文章
- iOS开发火了九年,这些错误你还在犯嘛?
- 深耕大数据“试验田” 发掘新经济“钻石矿”
- 虚拟dom_虚拟DOM发展的前世与今身
- redis使用watch完成秒杀抢购功能
- Centos安装后的一些必要处理工作
- Java与C底层数据类型转换
- python如何查询数据库_python如何实现查询sql数据库并生成html文件?
- About Site Definition Files
- String Statistics(2008年珠海市ACM程序设计竞赛)
- 数据算法之折半插入排序(binInsertSort)的Java实现
- 最小生成树MST详解
- MFC控件与变量的关联和值传递的方法
- 论文阅读 | FoveaBox: Beyond Anchor-based Object Detector
- 东航手机值机选座推荐
- mysql 备份库的shell_shell脚本之 备份mysql数据库
- Balsamiq Wireframes 免费安装
- 我的高中时代──纪念1995年进入高中20周年
- Shell脚本之免交互
- TexturePacker的用法
- 使用MATLAB实现对信号的EMD分解
热门文章
- debian8文件服务器,debian 8 下部署开发环境
- 网络层HTPPS和HTTP的概念与区别
- 人工智能创造了世界上最好的大象追踪设备
- 苹果支付在哪里设置_你会用苹果手机吗?这些快捷指令快速设置一下,好用度提升10倍...
- 怎样用html制作歌词字幕,爱剪辑可以制作歌词字幕吗 教你用爱剪辑加歌词字幕的方法--系统之家...
- TableauBDP,哪个才是最适合中国用户的数据可视化分析工具?
- html+input+js双击,JS双击变input框批量修改内容
- 火狐浏览器屏蔽百度热榜的方法
- python中round函数参数有负数_Python中round函数使用注意事项
- 设置网站 titile keyword 以及 descript