https://github.com/doccano/doccano

一、conda 运行 doccano

要求Python 3.8+
1、进入conda

call D:ProgramData\Miniconda3\Scripts\activate

2、创建python3.8环境

conda create -n doccano python=3.8

3、进入doccano 的conda环境

conda activate doccano

进入之后安装doccano:

pip install doccano -i https://pypi.tuna.tsinghua.edu.cn/simple/

然后执行:

# Initialize database.
doccano init

doccano init 命令报错after drop column:no such column: hidden
解决方案:
https://blog.csdn.net/qq_44497995/article/details/126341535
先 pip uninstall Django
再 pip install Django==4.0.4

然后

# Create a super use
# 只需要创建用户时使用
doccano createuser --username admin --password pass
# Start a web server.
# 每次启动必须
doccano webserver --port 8000

**打开另外一个终端,**运行如下命令:

# Start the task queue to handle file upload/download.
doccano task

Go to http://127.0.0.1:8000/. 就可以使用标注工具了

以后需要每次打开服务的时候:

参考:https://blog.csdn.net/stay_foolish12/article/details/126176489

1、进入doccano的conda环境
2、在一个窗口启动doccano的WebServer,保持窗口

doccano webserver --port 8000

3、在另一个窗口启动doccano的任务队列

doccano task

4、打开浏览器(推荐Chrome),在地址栏中输入http://127.0.0.1:8000/回车

二、使用doccano标注的注意事项

1、登录
2、创建项目(注意项目类别,例如序列标注任务、文本分类任务等
3、创建标签,注意区分事件抽取、关系抽取任务中的span、relation两种类别的标签


4、事件、关系抽取中,务必参考提供的例子来创建标签(https://github.com/PaddlePaddle/PaddleNLP/blob/develop/model_zoo/uie/doccano.md),创建好的标签也很重要!
关系抽取任务:

事件抽取任务:

5、标注完成后将数据导出,选择导出的文件类型为JSONL(relation),即可导出json格式的数据,各字段的含义解释见6.1、6.2

6、数据转换,当标注完成后,在 doccano 平台上导出 JSONL(relation) 形式的文件,并将其重命名为 doccano_ext.json 后,放入 ./data 目录下。
通过 doccano.py 脚本进行数据形式转换,然后便可以开始进行相应模型训练。(7.1 抽取式任务数据转换

可配置参数说明:
doccano_file: 从doccano导出的数据标注文件。
save_dir: 训练数据的保存目录,默认存储在data目录下。
negative_ratio: 最大负例比例,该参数只对抽取类型任务有效,适当构造负例可提升模型效果。负例数量和实际的标签数量有关,最大负例数量 = negative_ratio * 正例数量。该参数只对训练集有效,默认为5。为了保证评估指标的准确性,验证集和测试集默认构造全负例。
splits: 划分数据集时训练集、验证集所占的比例。默认为[0.8, 0.1, 0.1]表示按照8:1:1的比例将数据划分为训练集、验证集和测试集。
task_type: 选择任务类型,可选有抽取和分类两种类型的任务。
options: 指定分类任务的类别标签,该参数只对分类类型任务有效。默认为[“正向”, “负向”]。
prompt_prefix: 声明分类任务的prompt前缀信息,该参数只对分类类型任务有效。默认为"情感倾向"。
is_shuffle: 是否对数据集进行随机打散,默认为True。
seed: 随机种子,默认为1000.
separator: 实体类别/评价维度与分类标签的分隔符,该参数只对实体/评价维度级分类任务有效。默认为"##"。

备注:
默认情况下 doccano.py 脚本会按照比例将数据划分为 train/dev/test 数据集
每次执行 doccano.py 脚本,将会覆盖已有的同名数据文件
在模型训练阶段我们推荐构造一些负例以提升模型效果,在数据转换阶段我们内置了这一功能。可通过negative_ratio控制自动构造的负样本比例;负样本数量 = negative_ratio * 正样本数量。
对于从doccano导出的文件,默认文件中的每条数据都是经过人工正确标注的。

doccano标注工具使用相关推荐

  1. NLP标注工具:doccano【开源、免费】

    doccano是一个开源文本标注工具. 它提供了文本分类,序列标注和序列到序列的标注功能. 因此,您可以为情绪分析,命名实体识别,文本摘要等创建标记数据. 只需创建项目,上传数据并开始标注. 总结下来 ...

  2. NLP工具——doccano标注系统自动标注功能使用

    NLP工具--doccano标注系统自动标注功能使用 0. 简介 1. doccano安装 2. 创建标注任务 3. 写一个命名实体识别的接口 4. 添加自动标注功能 5. 增加标注员用户 6. 数据 ...

  3. NLP标注工具:【免费:doccano、标注精灵、brat、YEDDA、DeepDive、rasa-nlu-trainer】【收费:Prodigy】

    NLP标注工具:[免费:doccano.标注精灵.brat.YEDDA.DeepDive.rasa-nlu-trainer][收费:Prodigy] 参考资料: NLP标注神器:可同时对文本与实体进行 ...

  4. AI数据标注工具Doccano

    Doccano是一款开源的标注工具,用于自然语言处理和机器学习任务.它提供了用户友好的界面,使用户能够轻松地标注文本.序列标注.文本分类和文本配对等任务.doccano支持多种标注格式,并且可以方便地 ...

  5. win安装doccano_支持多语言的文本标注工具——doccano

    项目主页chakki-works/doccano​github.com 好久没写东西了,难得现在做NLP方面的工作,想着继续介绍一些NLP相关的东西.肥水不流外人田,正好最近我们组做了一个NLP标注工 ...

  6. NLP标注工具Brat

    https://www.cnblogs.com/xiaoqi/p/brat-config.html [文本标注]文本标注工具brat的使用 2019常用NLP标注工具简单介绍 NLP标注工具: YED ...

  7. 常用NLP标注工具简单介绍

    NLP标注工具 YEDDA:(2016)(python)(可以在windows上装) 优点是安装方便,程序很小,标注方便,如果要实现给同一个实体加多个标签,也可以实现.最大标签数8,界面也还过的去. ...

  8. 2019常用NLP标注工具简单介绍

    NLP标注工具: YEDDA:(2016)(python)(可以在windows上装) 优点是安装方便,程序很小,标注方便,如果要实现给同一个实体加多个标签,也可以实现.最大标签数8,界面也还过的去. ...

  9. Brat序列标注工具小结

    20210616 https://blog.csdn.net/u012436149/article/details/79321112 spacy 构建语法解析树 Brat标注工具(本地)安装及使用 环 ...

最新文章

  1. VTA:深度学习加速器堆栈
  2. Mac003--Maven安装与环境变量配置
  3. 详解单链表经典OJ题
  4. Maven最佳实践 划分模块 配置多模块项目 pom modules
  5. Vue(二十一)使用express模拟接口数据
  6. jdk switch 枚举_JDK 12开关表达式遇到意外的枚举值
  7. AJAX异步--ajax请求
  8. 与 Rust 社区亲密接触!Rust 大会火热报名!
  9. all方法 手写promise_我团队的一年前端实现Promise所有方法
  10. Boolan第一周笔记(二)对于第一周作业的一点总结
  11. python调用hive与java调用区别_python 调用hive查询实现类似存储过程
  12. 一提开发满脸泪,不如尬评来赢书 | 张开涛亲笔签名
  13. 魅蓝2 android 8,流水账评测魅蓝2
  14. Win11系统安装教程 教你安装原版Win11系统
  15. python爬虫必看书籍推荐
  16. SpringBoot集成Activiti
  17. IDEA 插件开发 向主菜单注册菜单项目
  18. wps html编辑表格,手机wps中怎样编辑表格?手机wps编辑表格的方法
  19. python矩阵求和, numpy.sum()
  20. LL(1)语法分析器

热门文章

  1. 【拓展】868- 一文读懂base64
  2. QT + 百度智能云之人脸识别
  3. win10玩cf不能全屏_80后经典游戏:红色警戒2(可支持win10系统)
  4. 精仿 QQ 右下角弹窗 / 广告
  5. 变频电源怎么区分单相还是三相
  6. 全兼容的纯CSS级联导航菜单源码
  7. 基于装载率结合路径最短来设计几个循环送货的线路
  8. mysql grant 通配符_mysql的grant用法(转)
  9. 业务 | 信贷模型中的评分卡
  10. 【胸片分割】最小误差法胸片分割系统【含GUI Matlab源码 1065期】