SmoothNLP


  • python
  • Java

Python

python interfaces for SmoothNLP 的 Python 接口, 支持自动下载底层jar包 ,目前支持Python3

Pypi 官方安装

pip3 install smoothnlp
复制代码

请注意使用python3安装smoothnlp项目,当前版本 version=0.2.4

如果您使用的Mac,且用anaconda管理python, 可能会碰到报错, 请尝试:

export MACOSX_DEPLOYMENT_TARGET=10.10 CFLAGS='-stdlib=libc++'
pip3 install jpype1
pip3 install smoothnlp
复制代码

API

通过smoothnlp 调用python 接口

1.Tokenize分词

import smoothnlp
smoothnlp.segment('欢迎使用smoothnlp的Python接口')
['欢迎', '使用', 'smoothnlp', '的', 'Python', '接口']
复制代码

2.Postag词性标注

import  smoothnlp
smoothnlp.postag('欢迎使用smoothnlp的Python接口')
[{'postag': 'VV', 'token': '欢迎'}, {'postag': 'VV', 'token': '使用'}, {'postag': 'NN', 'token': 'smoothnlp'}, {'postag': 'DEC', 'token': '的'}, {'postag': 'NN', 'token': 'Python'}, {'postag': 'NN', 'token': '接口'}]
复制代码

3.NER 实体识别

import smoothnlp
smoothnlp.ner("中国平安2019年度长期服务计划于2019年5月7日至5月14日通过二级市场完成购股," \"共购得本公司A股股票5429.47万股,占总股本的比例为0.297%," \"成交金额合计42.96亿元(含费用),成交均价约为79.10元/股")
[{'charEnd': 4, 'charStart': 0, 'nerTag': 'financial_agency', 'normalizedEntityValue': '中国平安', 'sTokenList': None, 'text': '中国平安'},{'charEnd': 9, 'charStart': 4, 'nerTag': 'datetime', 'normalizedEntityValue': '2019年', 'sTokenList': None, 'text': '2019年'}, {'charEnd': 26, 'charStart': 17, 'nerTag': 'datetime', 'normalizedEntityValue': '2019年5月7日', 'sTokenList': None, 'text': '2019年5月7日'},{'charEnd': 29, 'charStart': 27, 'nerTag': 'datetime', 'normalizedEntityValue': '5月', 'sTokenList': None, 'text': '5月'}, {'charEnd': 51, 'charStart': 49, 'nerTag': 'financial_metric', 'normalizedEntityValue': 'A股', 'sTokenList': None, 'text': 'A股'}, {'charEnd': 53, 'charStart': 51, 'nerTag': 'financial_metric', 'normalizedEntityValue': '股票', 'sTokenList': None, 'text': '股票'}, {'charEnd': 61, 'charStart': 53, 'nerTag': 'NUMBER', 'normalizedEntityValue': '54294700', 'sTokenList': {'25': {'postag': 'NN', 'token': '5429.47万'}}, 'text': '5429.47万'}, {'charEnd': 67, 'charStart': 64, 'nerTag': 'organization_metric', 'normalizedEntityValue': '总股本', 'sTokenList': None, 'text': '总股本'}, {'charEnd': 77, 'charStart': 71, 'nerTag': 'PERCENT', 'normalizedEntityValue': '0.297%', 'sTokenList': {'33': {'postag': 'NN', 'token': '0.297%'}}, 'text': '0.297%'}, {'charEnd': 91, 'charStart': 84, 'nerTag': 'MONEY', 'normalizedEntityValue': '¥4296000000', 'sTokenList': {'38': {'postag': 'CD', 'token': '42.96亿'}, '39': {'postag': 'M', 'token': '元'}}, 'text': '42.96亿元'}, {'charEnd': 109, 'charStart': 103, 'nerTag': 'MONEY', 'normalizedEntityValue': '¥79.1', 'sTokenList': {'49': {'postag': 'CD', 'token': '79.10'}, '50': {'postag': 'M', 'token': '元'}}, 'text': '79.10元'}]
复制代码

4. 金融实体识别

import smoothnlp
smoothnlp.financial_agency_recognize("中国平安2019年度长期服务计划于2019年5月7日至5月14日通过二级市场完成购股")
[{'charEnd': 4, 'charStart': 0, 'nerTag': 'financial_agency', 'normalizedEntityValue': '中国平安', 'sTokenList': None, 'text': '中国平安'}]
复制代码

5.数字实体识别

import smoothnlp
smoothnlp.number_recognize("百度移动应用的月活跃设备达11亿台")
#-- output
[{'charEnd': 16, 'charStart': 13, 'nerTag': 'NUMBER', 'normalizedEntityValue': '1100000000', 'sTokenList': {'9': {'postag': 'CD', 'token': '11亿'}}, 'text': '11亿'}]
复制代码

更多功能请阅读pySmoothnlp项目文档


Java

SmoothNLP项目的主要功能都在Java中有实现, 打包好的Jar文件会在[Release页面]定期更新, 或者在提供的maven项目代码中, 直接编译即可

git clone https://github.com/smoothnlp/SmoothNLP.git
cd smoothnlp_maven
mvn clean package
复制代码

编译好的Jar文件会在 smoothnlp_maven/target/smoothnlp-*.jar

SmoothNLP 中文NLP文本处理工具 Python 实战示范相关推荐

  1. NLP文本标注工具与平台(数据标注公司)

    最近在做NLP相关项目,包括句法分析.情感分析等,有大量数据需要标注.我评估了几个文本标注工具,也接触了几家数据标注公司和平台,总结如下,供各位参考. 文本标注平台(标注外包公司) 数据标注公司的工作 ...

  2. 自然语言处理系列十七》中文分词》分词工具实战》Python的Jieba分词

    注:此文章内容均节选自充电了么创始人,CEO兼CTO陈敬雷老师的新书<分布式机器学习实战>(人工智能科学与技术丛书)[陈敬雷编著][清华大学出版社] 文章目录 自然语言处理系列十七 分词工 ...

  3. 【从入门到高阶】NLP 算法的流程、主要任务及涉及算法,全都囊括了(Python 实战)

    NLP是人工智能领域历史较为悠久的领域,但由于语言的复杂性(语言表达多样性/歧义/模糊等等),如今的发展及收效相对缓慢.比尔·盖茨曾说过,"NLP是 AI 皇冠上的明珠." 在光鲜 ...

  4. python爬虫自学笔记分析解密_python爬虫学习笔记——1 各种文本分析工具简介之汇总...

    此处只简单汇总一下各种文本工具名目,他们的详细使用参见具体帖子.本文主要参考<8种目前Python使用率最高的文本处理工具>一文0.SnowNLP包 用于中文文本的处理 1.Jieba 2 ...

  5. 构想:中文文本标注工具(内附多个开源文本标注工具)

    ■ 项目地址 | https://github.com/crownpku/Chinese-Annotator 自然语言处理的大部分任务是监督学习问题.序列标注问题如中文分词.命名实体识别,分类问题如关 ...

  6. python 文本处理库_推荐8种目前Python使用率最高的文本处理工具

    前言 文本处理一般包括词性标注,句法分析,关键词提取,文本分类,情感分析等等,这是针对中 文的,如果是对于英文来说,只需要基本的tokenize.本文为大家提供了以下这些工具包.我整理了Python的 ...

  7. 基于web的通用文本标注工具MarkTool in NLP

    向AI转型的程序员都关注了这个号???????????? 机器学习AI算法工程   公众号:datayx 由于市面上的文本标注工具无法满足实际项目的标注场景需求,因此本项目自主开发了基于web的文本标 ...

  8. 【NLP】干货!Python NLTK结合stanford NLP工具包进行文本处理

    干货!详述Python NLTK下如何使用stanford NLP工具包 作者:白宁超 2016年11月6日19:28:43 摘要:NLTK是由宾夕法尼亚大学计算机和信息科学使用python语言实现的 ...

  9. 中文 NLP 工具总结

    文章目录 中文 NLP 工具总结 1. Jieba 分词 1.1 简介 1.2 模型原理 1.3 安装 1.4 使用 1.5 分词评测 2. pyltp--哈工大 2.1 简介 2.2 模型原理 2. ...

最新文章

  1. WPF 漏斗控件 等待沙漏效果
  2. Postfix的bcc邮件备份
  3. oracle tabe unlock_Oracle 学习之性能优化(四)收集统计信息
  4. c++ dll 类使用_在.Net Core 中使用钩子
  5. hdu 1161 Eddy's mistakes
  6. CCF201604-1 折点计数(解法二)(100分)(废除!!!)
  7. 【信息系统项目管理师】第10章 下篇-项目干系人管理 知识点详细整理
  8. c# 链接mongDB集群实战开发2
  9. [Yii][RBAC]Yii中应用RBAC完全指南
  10. 支付宝——(JAVA)支付测试开发
  11. 转载:VirtualizingStackPanel
  12. 【2019CCPC秦皇岛:A】Angle Beats(离线+斜率Hash+分类讨论)
  13. 软件测试基础知识整理(详细版)
  14. Mac乐谱制作工具---Sibelius 8 for Mac西贝柳斯
  15. 无危害有好玩的电脑病毒下载-01期
  16. 设计模式:简单的鸭子模型(入门)
  17. 5、Shader如何启用SPR Batcher支持
  18. 微信公众号开发——微信支付踩坑小记
  19. android 支付宝微信原生以及HTML调用原生SDK
  20. 研究显示,技术学习成本高已成科学、技术、工程和数学类职业发展最大障碍 | 美通社头条...

热门文章

  1. php 对象转换成数组,PHP把对象转换为数组的问题
  2. 线性分组码c语言实验报告,C语言线性分组码(附注释).doc
  3. android 支付宝月账单 统计图_记账其实很简单,用微信、支付宝就够了!
  4. java 正则匹配_正则表达式真的很强大,可惜你不会写
  5. shell swt 样式_SWT之路:SWT图像显示
  6. mastercam加工报表生成_2020北京加工中心编程培训工厂教学行业
  7. android动画放大后缩小,Android 补间动画 scale(缩放)
  8. java分割汉字_Java分割中英文,并且中文不能分割一半?
  9. php fpm 安装配置,php php+fpm安装配置
  10. c语言之优先级 结合性与自增运算,C语言之优先级、结合性与自增运算