斯坦福python中文分词stanza

1 下载 Stanford CoreNLP相关文件
下载完整的组件 https://stanfordnlp.github.io/CoreNLP/index.html

下载中文模型文件

解压stanford-corenlp-full-2018-02-27.zip,并将下载的模型文件stanford-chinese-corenlp-2018-10-05-models.jar、 StanfordCoreNLP-chinese.properties 拷贝到上述解压的文件夹内
2 配置并检验JAVA环境
java -version
3 下载并安装 stanza 
手动下载或者通过git方式下载 stanza源文件 https://codeload.github.com/stanfordnlp/stanza/zip/master
在解压的文件内执行 python3 setup.py install
4 启动服务
java -Xmx6g -cp "*" edu.stanford.nlp.pipeline.StanfordCoreNLPServer -serverProperties StanfordCoreNLP-chinese.properties -port 9000 -timeout 15000
5 通过python调用分词验证
from stanza.nlp.corenlp import CoreNLPClient
client = CoreNLPClient(server='http://localhost:9000', default_annotators=['ssplit', 'lemma', 'tokenize
', 'pos', 'ner']) # 注意在以前的版本中,中文分词为 segment,新版已经和其他语言统一为 tokenize
# 分词和词性标注测试
test1 = "财政部会计司发布通知称,上海财经大学会计学院原副教授钱逢胜同志不再符合担任企业会计准则咨询委员
会委员条件,现决定辞聘钱逢胜担任的企业会计准则咨询委员会委员。"
annotated = client.annotate(test1)
for sentence in annotated.sentences:
for token in sentence:
print(token)

斯坦福python中文分词stanza相关推荐

  1. 资源 | Python中文分词工具大合集

    跟着博主的脚步,每天进步一点点 这篇文章事实上整合了之前文章的相关介绍,同时添加一些其他的Python中文分词相关资源,甚至非Python的中文分词工具,仅供参考. 首先介绍之前测试过的8款中文分词工 ...

  2. Python中文分词工具大合集:安装、使用和测试

    转自:AINLP 这篇文章事实上整合了之前文章的相关介绍,同时添加一些其他的Python中文分词相关资源,甚至非Python的中文分词工具,仅供参考. 首先介绍之前测试过的8款中文分词工具,这几款工具 ...

  3. 【NLP】jieba分词-Python中文分词领域的佼佼者

    1. jieba的江湖地位 NLP(自然语言)领域现在可谓是群雄纷争,各种开源组件层出不穷,其中一支不可忽视的力量便是jieba分词,号称要做最好的 Python 中文分词组件. "最好的& ...

  4. Python中文分词及词频统计

    Python中文分词及词频统计 中文分词 中文分词(Chinese Word Segmentation),将中文语句切割成单独的词组.英文使用空格来分开每个单词的,而中文单独一个汉字跟词有时候完全不是 ...

  5. python 中文分词工具

    python 中文分词工具 jieba,https://github.com/fxsjy/jieba jieba_fast,https://github.com/deepcs233/jieba_fas ...

  6. 『开发技术』Python中文分词工具SnowNLP教程

    介绍一个好用多功能的Python中文分词工具SnowNLP,全称Simplified Chinese Text Processing.在实现分词的同时,提供转换成拼音(Trie树实现的最大匹配)及繁体 ...

  7. “结巴”中文分词:做最好的 Python 中文分词组件

    jieba "结巴"中文分词:做最好的 Python 中文分词组件 "Jieba" (Chinese for "to stutter") C ...

  8. [工具]python中文分词---【jieba】

    jieba "结巴"中文分词:做最好的 Python 中文分词组件 "Jieba" (Chinese for "to stutter") C ...

  9. python 中文分词_python中文分词,使用结巴分词对python进行分词(实例讲解)

    在采集 中文分词是中文文本处理的一个基础性工作,结巴分词利用进行中文分词. 其基本实现原理有三点: 1.基于Trie树结构实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图(DAG) ...

最新文章

  1. java 注解学习_java注解的学习
  2. 【Flask】数据的CRUD之增加和查询操作
  3. C语言程序练习- L1-010 比较大小 (10分)
  4. Go netpoller 网络模型之源码全面解析
  5. Js组件layer的使用
  6. findler mac 隐藏文件_fiddler使用实例之----------查找隐藏的真实地址!!!!
  7. spring中的单例和多例
  8. sql1032n sql6048n db2start启动不了 db2修改hostname
  9. Nothing is impossible!——致敬Uzi
  10. Hive调优全方位指南(推荐收藏)
  11. Tomcat 弱密码爆破 漏洞复现
  12. 系统保留分区删除_什么是系统保留分区,您可以删除它吗?
  13. 非常非常地重试重试组件,使用杠铃的
  14. 短信验证码开发教程 - 4.后端篇
  15. scala特质 对比java的接口 使用方法
  16. action层,dao层,service层,domain层,util层,common层含义是什么?
  17. Linux使用scp在服务器之间远程传输复制文件和文件夹
  18. Sourcetree 拉取代码提示填写 authentic,但配置无法更改用户
  19. Android开发之百度地图(soso地图,搜狗地图,阿里云地图)转高德地图经纬度的方法
  20. GAT-图注意力模型

热门文章

  1. JavaScript实现截留雨水问题的动态编程方法算法(附完整源码)
  2. OpenCASCADE:使用扩展数据交换 XDE之剪裁平面
  3. wxWidgets:wxThread类用法
  4. wxWidgets:wxRibbonBar类用法
  5. boost::initialized<T>相关的测试程序
  6. boost::system::system_error相关的测试程序
  7. boost::overwrite相关的测试程序
  8. boost::isomorphism用法的测试程序
  9. DCMTK:从DICOM封装的PDF存储对象中提取PDF文件
  10. VTK:Picking之HighlightSelectedPoints