CRFEntityExtractor文档

简介

条件随机场(CRF)实体提取

输出

entities

需要

tokensdense_features(可选)

输出示例

{"entities": [{"value": "New York City","start": 20,"end": 33,"entity": "city","confidence": 0.874,"extractor": "CRFEntityExtractor"}]
}

描述

该组件实现了一个条件随机字段(CRF)来进行命名实体识别。crf可以被认为是一个无向马尔可夫链,其中时间步是单词,状态是实体类。单词的特征(大写、POS标记等)为某些实体类提供概率,相邻实体标记之间的转换也是如此:然后计算并返回最可能的标记集。

如果你想通过自定义特性,比如pre-trained字嵌入添加到CRFEntityExtractor,您可以在CRFEntityExtractor之前将任何稠密特性添加到管道中,然后配置CRFEntityExtractor,通过在其特性配置中添加“text_dense_feature”来利用密集特性。CRFEntityExtractor自动找到额外的密集特征,并检查密集特征是否为len(tokens)的可迭代对象,其中每个条目都是一个向量。如果检查失败,将显示一个警告。然而,CRFEntityExtractor将继续训练,而不需要额外的自定义特性。在密集特征存在的情况下,CRFEntityExtractor将通过密集特征sklearn crfsuite并使用它们进行训练。

配置

CRFEntityExtractor有一个要使用的默认特性列表。但是,您可以覆盖缺省配置。以下特性是可用的:

===================  ==========================================================================================
Feature Name         Description
===================  ==========================================================================================
low                  Checks if the token is lower case.
upper                Checks if the token is upper case.
title                Checks if the token starts with an uppercase character and all remaining characters arelowercased.
digit                Checks if the token contains just digits.
prefix5              Take the first five characters of the token.
prefix2              Take the first two characters of the token.
suffix5              Take the last five characters of the token.
suffix3              Take the last three characters of the token.
suffix2              Take the last two characters of the token.
suffix1              Take the last character of the token.
pos                  Take the Part-of-Speech tag of the token (``SpacyTokenizer`` required).
pos2                 Take the first two characters of the Part-of-Speech tag of the token(``SpacyTokenizer`` required).
pattern              Take the patterns defined by ``RegexFeaturizer``.
bias                 Add an additional "bias" feature to the list of features.
text_dense_features  Adds additional features from a dense featurizer.
===================  ==========================================================================================

当特性器使用滑动窗口在用户消息中的令牌上移动时,您可以在滑动窗口中为以前的令牌、当前的令牌和下一个令牌定义特性。将这些特性定义为[before, token, after]数组。

另外,您可以设置一个标志来确定是否使用BILOU标记模式。

pipeline:
- name: "CRFEntityExtractor"# BILOU_flag determines whether to use BILOU tagging or not."BILOU_flag": True# features to extract in the sliding window"features": [["low", "title", "upper"],["bias","low","prefix5","prefix2","suffix5","suffix3","suffix2","upper","title","digit","pattern",],["low", "title", "upper"],["text_dense_features"]]# The maximum number of iterations for optimization algorithms."max_iterations": 50# weight of the L1 regularization"L1_c": 0.1# weight of the L2 regularization"L2_c": 0.1# Name of dense featurizers to use.# If list is empty all available dense features are used."featurizers": []# Indicated whether a list of extracted entities should be split into individual entities for a given entity type"split_entities_by_comma":address: Falseemail: True

注意1
如果使用了POS功能(POS或pos2),那么您的管道中需要有SpacyTokenizer

注意2
如果使用pattern特性,则需要在管道中包含regexfeatuizer。

注意3
如果使用text_dense_features,你需要在你的管道中有一个密集特性器(例如languagemodelfeataturizer)。

参考

https://rasa.com/docs/rasa/components#crfentityextractor

CRFEntityExtractor文档相关推荐

  1. 导出swagger2生成的文档

    百度了好多篇用法,没法用.特此记录一下 一.下载项目 下载https://github.com/Swagger2Markup/spring-swagger2markup-demo下的项目,保存,注意文 ...

  2. README 规范和项目文档规范

    1. README 规范 我们直接通过一个 README 模板,来看一下 README 规范中的内容: # 项目名称<!-- 写一段简短的话描述项目 -->## 功能特性<!-- 描 ...

  3. FastAPI 自动生成的docs文档没法使用

    FastAPI 自动生成的docs文档没法使用,当展开路径时候一直在转圈,具体就是这样 这个是由于swagger-ui 3.30.1 中的bug导致,具体bug可以看这里 我们可以通过在FastAPI ...

  4. 【软件工程】VB版机房文档总结

    前言: 软工视频+软工文档+UML视频+UML图的学习过程图! 这部分的知识很厚,只是知道了个大概!最开始 慢悠悠的像个老爷爷走进度,后来遇到点什么事,妈呀,管不了那么多了,赶紧弄完在说,拖了多久了都 ...

  5. 智能文档理解:通用文档预训练模型

    预训练模型到底是什么,它是如何被应用在产品里,未来又有哪些机会和挑战? 预训练模型把迁移学习很好地用起来了,让我们感到眼前一亮.这和小孩子读书一样,一开始语文.数学.化学都学,读书.网上游戏等,在脑子 ...

  6. 基于javaGUI的文档识别工具制作

    基于javaGUI的文档识别工具制作 对于某些文本,其中富含了一些标志,需要去排除,以及去获得段落字数,以下是我个人写的一个比较简单的文档识别工具,含导入文件.导出文件以及一个简单的识别功能. 1.功 ...

  7. 从单一图像中提取文档图像:ICCV2019论文解读

    从单一图像中提取文档图像:ICCV2019论文解读 DewarpNet: Single-Image Document Unwarping With Stacked 3D and 2D Regressi ...

  8. 函数小知识点(文档字符串,闭包等)

    1 文档字符串(Documentation Strings) 一般被称为docstring,一款你应当使用的重要工具,它能够帮助你更好地记录程序并让其更加易于理解.令人惊叹的是,当程序实际运行时,我们 ...

  9. Spring Boot 集成Swagger2生成RESTful API文档

    Swagger2可以在写代码的同时生成对应的RESTful API文档,方便开发人员参考,另外Swagger2也提供了强大的页面测试功能来调试每个RESTful API. 使用Spring Boot可 ...

最新文章

  1. python菜鸟基础教程-Python3 面向对象
  2. IOCP之accept、AcceptEx、WSAAccept的区别
  3. nginx文件服务器修改根目录,nginx修改配置文件更改网站根目录无效?
  4. 每周论文清单:高质量文本生成,多模态情感分析,还有一大波GAN | PaperDaily #26
  5. 聊聊高并发(二十)解析java.util.concurrent各个组件(二) 12个原子变量相关类
  6. cf1556A. A Variety of Operations
  7. html怎么修改锚点的属性,在HTML中设置自定义锚点
  8. perl语言数据类型
  9. oracle配置ipv6_配置 IPv6 接口
  10. 树莓派安装rtl8192eu无线网卡驱动
  11. java 拼音的模糊匹配 算法_c#拼音模糊匹配算法
  12. java开发小公司跳槽华为od笔试面试过程
  13. Ttest + 秩和检验
  14. lumion最全电脑配置推荐,lumion选择什么样的电脑看这里
  15. c语言mud游戏制作,MUD游戏制作工具下载
  16. 嵌入式系统上电,程序的运行过程
  17. python3图片裁剪+转换pdf+压缩
  18. 写字楼如何实现无线wifi短信验证登录?
  19. 推荐一款手机、电脑必备的效率工具,功能强大,支持所有平台
  20. 魅族手机CUP浮点运算测试BUG

热门文章

  1. 三点确定一个圆(输出圆心、弧长、圆心角、方向)
  2. 电子白板无法触摸怎么办?
  3. linux slub分配器,slub分配器
  4. 为什么说,百度SEO是经验主义?
  5. 【Linux正则表达式之grepegrep】
  6. 51单片机制作脉冲发生器
  7. 2022宁波市第五届网络安全大赛(训练赛Misc部分)
  8. 华为eNSP基础命令
  9. JDK8经典特性回顾
  10. Django数据库字段及参数