HanLP是一系列模型与算法组成的NLP工具包,目标是普及自然语言处理在生产环境中的应用。HanLP具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。内部算法经过工业界和学术界考验,配套书籍《自然语言处理入门》已经出版。目前,基于深度学习的HanLP 2.x已正式发布,次世代最先进的NLP技术,支持包括简繁中英日俄法德在内的104种语言上的联合任务。

HanLP提供下列功能:

  • 中文分词

    • HMM-Bigram(速度与精度最佳平衡;一百兆内存)

      • 最短路分词、N-最短路分词
    • 由字构词(侧重精度,全世界最大语料库,可识别新词;适合NLP任务)
      • 感知机分词、CRF分词
    • 词典分词(侧重速度,每秒数千万字符;省内存)
      • 极速词典分词
    • 所有分词器都支持:
      • 索引全切分模式
      • 用户自定义词典
      • 兼容繁体中文
      • 训练用户自己的领域模型
  • 词性标注
    • HMM词性标注(速度快)
    • 感知机词性标注、CRF词性标注(精度高)
  • 命名实体识别
    • 基于HMM角色标注的命名实体识别 (速度快)

      • 中国人名识别、音译人名识别、日本人名识别、地名识别、实体机构名识别
    • 基于线性模型的命名实体识别(精度高)
      • 感知机命名实体识别、CRF命名实体识别
  • 关键词提取
    • TextRank关键词提取
  • 自动摘要
    • TextRank自动摘要
  • 短语提取
    • 基于互信息和左右信息熵的短语提取
  • 拼音转换
    • 多音字、声母、韵母、声调
  • 简繁转换
    • 简繁分歧词(简体、繁体、臺灣正體、香港繁體)
  • 文本推荐
    • 语义推荐、拼音推荐、字词推荐
  • 依存句法分析
    • 基于神经网络的高性能依存句法分析器
    • 基于ArcEager转移系统的柱搜索依存句法分析器
  • 文本分类
    • 情感分析
  • 文本聚类
    • KMeans、Repeated Bisection、自动推断聚类数目k
  • word2vec
    • 词向量训练、加载、词语相似度计算、语义运算、查询、KMeans聚类
    • 文档语义相似度计算
  • 语料库工具
    • 部分默认模型训练自小型语料库,鼓励用户自行训练。所有模块提供训练接口,语料可参考98年人民日报语料库。

在提供丰富功能的同时,HanLP内部模块坚持低耦合、模型坚持惰性加载、服务坚持静态提供、词典坚持明文发布,使用非常方便。默认模型训练自全世界最大规模的中文语料库,同时自带一些语料处理工具,帮助用户训练自己的模型。


项目主页

《自然语言处理入门》

HanLp的应用 - 转自GitHub开源代码介绍相关推荐

  1. github开源代码下载并运行

    github开源代码下载到本地 在github上找到要下载的项目,点击Code,HTTPS下面点击复制按钮(gitee也是类似的方式) 在本机电脑 新建一个文件夹,命名任意 打开新建的文件夹,右键-找 ...

  2. PointNet训练与测试github开源代码(PointNet实现第5步骤pytorch版)

    PointNet第5步--PointNet训练与测试github开源代码 在运行github上的代码时,经常版本不匹配会出现大量的不同,或者报错,这篇主要记录我解决相关报错的方法. 本次测试的是git ...

  3. 快速下载GitHub开源代码

    快速下载GitHub开源代码 1.登录github网站,找到需要下载的开源代码,复制地址(例:https://github.com/saysky/ForestBlog) 2.登录码云https://g ...

  4. 热榜第四:GitHub开源代码数据集界ImageNet,推出代码搜索挑战赛

    鱼羊 发自 凹非寺 量子位 报道 | 公众号 QbitAI 用别人的轮子,开自己的路. 在这个产品快速迭代的时代,搜索.调用别人的代码避免重复造轮子,已是开发常态. 但是搜索代码这件事,并不是百度一下 ...

  5. android studio 打开github开源代码

    1.最近下载的开源代码全是github来的,一直用eclipse开发,对于android studio来说是全新的 2.在eclipse导入一个工程那是so easy, import选择一下就可以. ...

  6. github 开源 代码 学习 集合(转载)

    一个支持多种item类型的recycleView依赖注入库 1.通过注解的方式方便的把ViewHolder注入到recycleView中. 2.去除findViewByID等冗余操作. 3.去除编写a ...

  7. 如何提高GitHub开源代码下载速度,这7招你必须知道

    一个励志在代码世界打怪升级的coder,总绕不开GitHub这个全球最大的程序员交流代码托管平台.在GitHub,我们能找到海量开源项目资源来进行学习和实践,也有机会与来自世界各地的大牛交流技术经验. ...

  8. Github 开源代码

    1.图片下载开源代码 github 上搜索 Smart-img-view

  9. 适合Python初学者阅读的Github开源代码

    程序员宝藏库:https://gitee.com/sharetech_lee/CS-Books-Store 你想要的,这里都有! Python作为一门热门的编程语言,在Github上想要找Python ...

最新文章

  1. Adam那么棒,为什么还对SGD念念不忘 (1) —— 一个框架看懂优化算法
  2. JavaNIO - AbstractInterruptibleChannel
  3. 第四周实践项目5 猴子选大王(循环链表)
  4. Groovy里的setProperty和getProperty重载用法
  5. My Appointment - Belonging to me, Search by team, Search by group
  6. 纯CSS3实现Material Design
  7. eclipse导出Maven依赖的Jar
  8. 基于JT/T808 协议的GPS解析分享 C#
  9. 起面的英怯——幸运的舆图
  10. 软件设计的启发规则---层次图,HIPO图和结构图----画数据流图
  11. class文件反编译后的汉字乱码问题
  12. chrome快速进入扩展页
  13. 如何使用cpolar内网穿透群晖NAS套件
  14. HDU 4489 The King’s Ups and Downs(组合DP)
  15. 大数据时代你需要知道的7个大数据定义
  16. C++课程实训——银行系统
  17. linux自动安装trojan客户端的shell脚本
  18. 实现断网收银_超市收银系统排名前五
  19. GPU渲染管线之旅|04 纹理和采样
  20. 关于磁力链接(Magnet URI)的简单介绍

热门文章

  1. DC-DC电源模块的九个主要性能指标和作用
  2. 生成式语言大模型压缩技术思考——以ChatGPT为例
  3. Vue移动端系列 => [07] 文章详情
  4. 系统的频域分析法-----Chap4_5-8
  5. 期权希腊字母更多的含义和解释
  6. 6.1神经网络--python机器学习
  7. DBeaver 修改快捷键(自定义快捷键位)
  8. xp下硬盘安装Ubuntu Kylin 14.04
  9. ABB机器人FTP传输机器人文件
  10. 软件测试实训的意义和目的,软件测试报告目的是什么