[NLP]OpenNLP介绍
目录
OpenNLP介绍
OpenNLP执行步骤
预训练模型
OpenNLP介绍
Apache OpenNLP库是一个基于机器学习的工具箱,用于处理自然语言文本。OpenNLP 支持大部分通用的NLP任务,例如分词、分句、词性标注、命名实体识别、分块、语法分析、语言检测、共指解析等。
OpenNLP项目的目标是为上述任务创建一个成熟的工具箱。另一个目标是为各种语言提供大量的预构建模型,以及这些模型派生的带注释的文本资源。
OpenNLP库包含多个组件,使之能够构建完整的自然语言处理管道。这些组件包括:句子检测器、标记器、名称查找器、文档分类程序、词性标记器、分块器、解析器、共指解析。组件包含一些部件,这些部件使我们能够执行各自的自然语言处理任务,训练模型,并且通常还可以评估模型。这些设施中的每一个都可以通过其应用程序接口(API)进行访问。此外,为了方便实验和训练,还提供了命令行界面(CLI)。
OpenNLP执行步骤
OpenNLP组件具有相似的API, 通常要执行任务,应该提供一个模型和一个输入。加载模型后,可以实例化工具本身;工具实例化后,可以执行处理任务。输入和输出格式是特定于工具的,但通常输出是字符串数组,而输入是字符串或字符串数组。
预训练模型
OpenNLP社区提供了许多已经训练好的模型,可以直接下载使用。
- SourceForge Models
http://opennlp.sourceforge.net/models-1.5/
2.maven repository
http://maven.tamingtext.com/opennlp-models/models-1.5/
[NLP]OpenNLP介绍相关推荐
- NLP会议介绍 2019(资料整合)
[NLP会议介绍 2019(资料整合)] 国外会议: 1.ACL (A类) https://www.aclweb.org/portal/ Annual Meeting of the Associati ...
- NLP的介绍和如何利用机器学习进行NLP以及三种NLP技术的详细介绍
文章目录 什么是NLP? 为什么要学习NLP? 深度学习 技术1:文本嵌入(Text Embeddings) 技术2:机器翻译 技术3:会话 易水寒 发表于 2018-06-10 10:26:10 本 ...
- Apache OpenNLP介绍(一)
一.介绍 1.描述 Apache OpenNLP库是一种基于机器学习的工具包,用于处理自然语言文本.它支持最常见的NLP任务,如标记化,句子分割,词性标记,命名实体提取,分块,解析和参考解 ...
- 【NLP】基于预训练的中文NLP工具介绍:ltp 和 fastHan
1. 简介 2. ltp 2.1 工作流程 2.2 demo 2.3 词典分词 2.4 词性标注集 2.5 模型算法 3. fastHan 3.1 模型结构 3.2 demo 3.3 词典分词 3.4 ...
- [NLP]OpenNLP块检测器(Chunker)的使用
Chunker 分块是将文章的内容分成句法相关的词组,如名词组.动词组,但不指定它们的内部结构,也不说明它们在主句中的作用. 训练数据的输入格式如下: Rockwell NNP B-NP Intern ...
- [NLP]OpenNLP词形还原器(Lemmatizer)的使用
Lemmatizer 词形还原,把用POS tagger标注格式的词还原为标注前的格式.如 输入: Rockwell_NNP International_NNP Corp._NNP 's_POS Tu ...
- [NLP]OpenNLP命名实体识别(NameFinder)的使用
目录 Name Finder 模型训练 命名识别 Name Finder 命名查找器可以检测文本中的命名实体和数字.为了能够检测到实体,命名查找器需要一个模型.模型依赖于它被训练的语言和实体类型.Op ...
- [NLP]OpenNLP标记器的使用
目录 Tokenizer 模型训练 句子分词 Tokenizer OpenNLP标记器将输入字符序列分段为标记.标记通常是单词.标点符号.数字等.标记化是一个两阶段的过程:首先,确定句子边界,然后识别 ...
- [NLP]OpenNLP语句检测器的使用
目录 Sentence Detector 模型训练 语句检测 Sentence Detector 语句检测器,OpenNLP语句检测器可以检测标点字符是否标记了句子的结尾.在这个意义上,句子被定义为两 ...
- [NLP]OpenNLP语言检测器的使用
目录 Language Detector 模型训练 语言类型预测 Language Detector 语言检测器,属于分类范畴.即OpenNLP语言检测器根据模型的能力用ISO-639-3(国际语种代 ...
最新文章
- 从事安卓开发6年,我都有哪些收获?
- Spring之AOP由浅入深
- htmlspecialchars() 函数把一些预定义的字符转换为 HTML 实体。
- html左边高140px怎么设置,html:侧边栏+滚动div,高度设置为当前页面大小
- hiho #1014 : Trie树(模板)
- SLAM_视觉SLAM中的一种单目稠密建图方法
- OPNsense用户手册-别名
- 矩阵乘法 mpi c语言,MPI实现矩阵相乘
- latex添加背景图片
- 华为中兴和中国政府可准备两项法律反击
- C6678里的汇编语言,TMS320C6678
- 微信小程序:全新趣味测试
- 交通灯定时控制系统的设计
- vulnhub之raven2
- 虚拟现实在医学领域的应用和发展前景
- 程序员科班出身的专业有哪些?
- FckEditor配置手册中文教程详细说明
- 精彩对白:好想好想谈恋爱
- scipy求解矩阵微分方程
- 开发板——X210BV4S开发板的简单介绍
热门文章
- AI智能识别盒 智能识别垃圾分类
- python(1)汇率换算
- Golang 双链表(Doubly Linked List)
- 声学测试软件ios,只需要 iPhone 就能进行声学测量,AcoustiTools 用 AR 帮你解决大声场环境的听感问题...
- 阿里云部署flask项目
- 华为硬件工程师社招机考题库_华为硬件工程师笔试题
- 卫星导航定位误差之多路径地球自转相位缠绕相位中心误差地球潮汐
- 【mmDetection框架解读】入门篇一、各组件解读,配置文件解读
- 如何建立一个快速显示桌面的快捷方式?
- w7计算机文件夹打开怎么设置密码,怎样设置文件夹密码 Win7系统文件夹加密步骤详解...