选择一个正确的用例和工作流

Choosing the right recipe and workflow

所以你有一个需要解决的NER问题,以及需要注释的数据。你要尽可能高效地完成它。但是如何为你的用例选择正确的工作流呢?

So you have an NER problem you want to solve, and data to annotate. And you want to get it done as efficiently as possible. But how do you pick the right workflow for your use case?

1. 纯人工的方式进行命名实体识别标注:这个方式是最经典的数据注释方法。在一个原始文本中突出显示所有的文本。在流程的最后,您将导出“gold-standard”数据,您可以使用这些数据来训练模型。如果您想创建一个新的数据集,但是完全手工注释通常是最好的选择,但是没有任何现有资源可以利用。在Prodigy中,可以将此工作流与ner.manual配方。所有的命名实体识别最开始都需要人工进行标注,这是命名实体识别的种子,这样的标注结果可以训练一个初始的模型,对你未标注的数据进行一次基于这个种子生成的命名实体识别模型预测出来的标注。

  1. Fully manual: This is the most classic way of annotating data. You’re shown a raw text and highlight all entity spans in the text. At the end of the process, you export “gold-standard” data that you can train your model with. Fully manual annotation is often the best choice if you want to create a new dataset, but are starting completely from scratch without any existing resources you can leverage. In Prodigy, you can use this workflow with the <a href="https://prodi.gy/docs/recipes#ner-manual"> ner.manual recipe.
  2. 所以第二步要讲到的就是如何利用第一步的种子数据集构建的命名实体识别模型预测的结果进行二次人工审核的过程。完全手动的注释很容易变得乏味,这会导致错误和不一致的数据。你经常一遍又一遍地做同样的事情——例如,在你的数据中,提到“纽约”几乎总是指这个地方。您可以使用关键字列表和模式来描述您正在寻找的标记,而不是每次都手动标记它,并让Prodigy预先为您突出显示候选对象。即使你的模式只在50%的时间里起作用,那对你来说还是少了50%的工作量。在Prodigy中,你可以使用ner.manual和--patterns选项工作流实现这个工作。另请参阅模式文档。
  3. Manual with suggestions from patterns: Fully manual annotation can easily get tedious, which leads to mistakes and inconsistent data. You’re often doing the same thing over and over – for instance, in your data, mentions of “New York” may pretty much always refer to the location. Instead of labelling it by hand every single time, you can use keyword lists and patterns describing the tokens you’re looking for and make Prodigy pre-highlight the candidates for you. Even if your patterns only help 50% of the time, that’s still 50% less work for you. In Prodigy, you can use this workflow with <a href="https://prodi.gy/docs/recipes#ner-manual"> ner.manual and the --patterns option. Also see the docs on patterns.
  4. 模型建议手册:您还可以使用现有模型来突出显示建议实体的开始与结束,从而节省时间,而不是使用模式。如果要训练一个包含新类别和现有类别的模型,此工作流也很有用。您可以使用现有模型来帮助您标记感兴趣的实体类型,更正它所犯的任何错误,并在顶部添加新的类别。在Prodigy中,可以将此ner.correct工作流。正确空间模型的配方或任何其他预测命名实体的模型的自定义配方。更正模型的犯得错误并重新训练你的模型让模型对新的数据进行预测,在预测结果之上进行人工的标注。
  5. Manual with suggestions from model: Instead of patterns, you can also use an existing model to highlight suggestions and save you time. This workflow is also useful if you want to train a model with a mix of new and existing categories. You can use the existing model to help you label the entity types you’re interested in, correct any mistakes it makes and add a new category on top. In Prodigy, you can use this workflow with the <a href="https://prodi.gy/docs/recipes#ner-correct"> ner.correct recipe for spaCy models or a custom recipe for any other model that predicts named entities.
  6. 二元主动学习和模型流:如果您已经有了一个模型并希望对更多数据进行微调,则此工作流非常有用。您可以使用模型来建议您对最相关的示例进行注释,并对其预测提供反馈,而不是对每个示例进行注释。有许多不同的方法可以选择“最好的”例子,以及一系列致力于探索主动学习技术的研究。Prodigy的ner.teach 配方使用beam search实现了简单的不确定性采样,可以找到模型中的边界语料并返回给人工进行判定,边界语料就是模型没有百分百把握识别正确的语料:对于每个示例,命名实体识别模型都会获得大量分析,并要求您接受或拒绝它最不确定的实体识别结果。根据您的决定,模型将在循环中更新,并引导您进行更好的预测。Prodigy还包括一些实用程序,这些工具允许您使用循环中的模型实现自定义工作流。
  7. Binary with active learning and a model in the loop: This workflow is useful if you already have a model and want to fine-tune it on more data. Instead of annotating every example, you can use the model to suggest you the most relevant examples to annotate and give it feedback on its predictions. There are many different ways you can select the “best” examples, and a whole line of research dedicated to exploring active learning techniques. Prodigy’s <a href="https://prodi.gy/docs/recipes#ner-teach"> ner.teach recipe implements simple uncertainty sampling with beam search: for each example, the annotation model gets a number of analyses and asks you to accept or reject the entity analyses it’s most uncertain about. Based on your decisions, the model is updated in the loop and guided towards better predictions. Prodigy also includes utilities that let you implement custom workflows with a model in the loop.

命名实体识别_命名实体识别的几种标注形式相关推荐

  1. python 命名实体识别_命名实体识别的两种方法

    作者:Walker 目录 一.什么是命名实体识别 二.基于NLTK的命名实体识别 三.基于Stanford的NER 四.总结 一 .什么是命名实体识别? 命名实体识别(Named Entity Rec ...

  2. 人脸识别_云端人脸识别-人脸识别SDK+API-人脸识别闸机解决方案

    云端人脸识别-人脸识别SDK+API-人脸识别闸机解决方案 人脸识别闸机-人脸识别闸机解决方案 软硬一体的人脸识别闸机解决方案,提升人员系统化管理的安全性与便捷性 方案构成 针对人员出入的闸机及门禁场 ...

  3. 夜间环境人脸识别_基于人脸识别的夜间疲劳驾驶判断方法与流程

    本发明属于智能识别设有领域,尤其是一种基于人脸识别的夜间疲劳驾驶判断方法. 背景技术: 出租车和网约车在夜间运营极大的方便了人们的出行需求,但是出租车司机为了增加收入常常延长工作时间特别在夜间行驶的时 ...

  4. 人脸反光识别和读数识别_云端人脸识别-人脸识别SDK+API-人脸识别闸机解决方案...

    云端人脸识别-人脸识别SDK+API-人脸识别闸机解决方案 人脸识别闸机-人脸识别闸机解决方案 软硬一体的人脸识别闸机解决方案,提升人员系统化管理的安全性与便捷性 方案构成 针对人员出入的闸机及门禁场 ...

  5. python机器视觉车牌识别_机器视觉车牌识别

    机器视觉车牌识别 --车牌号识别系统研究课题 2018年7月10日,许昌学院信息工程(软件职业技术)学院"创出彩"机器视觉智能检测实践队第10天研究正式开展,由于老师有别的事情要忙 ...

  6. 夜间环境人脸识别_动态人脸识别系统的优势

    TH-894是一款天煌电子全新的三防动态人脸识别xt终端采用嵌入式系统.功耗低,运行更稳定.数据更安全.使用高性能智能处理器,基于深度学习的人脸识别与抓拍信息提取,极大的提高了人脸抓拍率.采用夜间红外 ...

  7. 什么叫侧面指纹识别_面指纹识别最新资讯

    在苹果公司的硬件产品中,除了iPhone之外,人气最高的要数iPad产品.在今年由于网课等原因,导致苹果的iPad产品也变得十分热销,因此不少用户都在期待苹果推出新款的iPad更新旧的机型. 日前荣耀 ...

  8. java手写识别_手写识别系统

    目的 采用k-近邻算法实现手写识别系统.这里采用0和1组成数字0-9的形状,再用算法对这些形状进行识别,来分辨出形状属于0-9那个数字.并计算出k-近邻算法识别手写数字的错误率. 数据说明 数据来自& ...

  9. 人脸识别与膜虹识别_当人脸识别遭遇口罩,虹膜识别的机会来了

    本文转自[科技日报]: 当人脸识别遭遇口罩,虹膜识别的机会来了 专家指出虹膜识别标准体系还需进一步完善 本报记者 马爱平 突如其来的新冠肺炎疫情,让人脸识别(Face ID)技术遭遇尴尬,因为一旦用户 ...

最新文章

  1. Flask框架-基本使用
  2. FL计算机软件,FL Studio12水果音乐制作软件
  3. spock_将Spock 1.3测试迁移到Spock 2.0
  4. linux无显卡运行程序,Ubuntu中在应用程序菜单添加未显示的应用程序启动器
  5. WCF入门-项目间调用服务
  6. C语言中的一维数组和二维数组
  7. 安装sqlserver时“试图执行未经授权的操作“的错误
  8. 电路板上的插头怎么拔下来_空调维修排查电路板内外原因
  9. 计算机xp用户丢失,WinXP电脑硬盘分区表丢失的解决方法
  10. Android控件系列之XML静态资源
  11. 我如何将亿次的计算降为实时
  12. 今天被BSE指摘了2个问题,感觉很典型
  13. 如何一次性批量打印PDF、Word、Excel、PPT和图片 - 文件批量打印工具
  14. 如何查询计算机上次登录时间,怎么查看电脑的上一次开机时间
  15. 用ps羽化图片边缘(两种羽化图片边缘的方法)
  16. Web与排版学上的字体问题
  17. 商业银行数据资产管理体系建设实践报告
  18. php redis pipeline管道技术
  19. tableau做折线图_用Tableau制作10种漂亮的折线图
  20. pixabay注册失败原因以及解决办法

热门文章

  1. 漫画 | 产品经理的八大罪状(上)
  2. 只懂 Git 就能成为架构专家?这得从代码的物理分析说起
  3. 2020年度“博客之星”报名开启!万元大奖等着你
  4. 两万字长文读懂 Java 集合!
  5. 同时面了腾讯三个部门,拿下 offer!
  6. 小米回应“米家”商标争议;人人 App 回归社交市场;TiDB 2.1.19 发布| 极客头条...
  7. 你的学习方法真的有效吗?
  8. 华为回应前员工被拘 251 天;暴风集团仅剩 10 余人;TiDB 3.0.6 发布 | 极客头条...
  9. 1.2w星!火爆GitHub的Python学习100天刷爆朋友圈!
  10. 编程机器人哪家好?灵跃模组机器人硬核评测!