doccano常用的nlp标注工具,文本分类标注工具,ner标注工具

doccano是documment anotation的缩写,是一个开源的文本标注工具,我们可以用它为NLP任务的语料库进行打标。总共支持三种NLP任务的文本标注,分别是文本分类、序列标注和序列到序列(例如文本翻译)。等任务。

官方文档:https://doccano.github.io/doccano

doccano的安装与初始配置

  1. 这里开一个screen!
  2. 先激活自己的venv环境
  3. 终端里输入:pip install doccano,即可在独立的venv环境中安装doccano。
  4. 然后,在终端里输入
    1. doccano init
    2. doccano createuser --username admin --password pass
    3. 即可完成初始化,并创建一个doccano的超级用户。

启动doccano

  1. 这里再开一个screen!
  2. 首先,在终端中输入doccano webserver --port 8000,启动WebServer
  3. 打开另一个终端,运行下面的代码启动任务队列:doccano task
  4. 此时完成了doccano的启动。

转移了doccano的工具部署位置,如何转移之前的标注记录呢?

doccano建议单独开一个venv,后面转移后就可以直接把该python环境的这个文件夹,参考路径:/venv环境名/lib/python3.x/site-packages/backend,这个文件夹backend拷贝到新的python环境下。

doccano总共支持4种格式的文本

  • Textfile:要求上传的文件为txt格式,并且在打标的时候,一整个txt文件在打标的时候显示为一页内容;【常用】

  • Textline:要求上传的文件为txt格式,并且在打标的时候,该txt文件的一行文字会在打标的时候显示为一页内容;
  • JSONL:是JSON Lines的简写,每行是一个有效的JSON值。【常用】
  • CoNLL:是“中文依存语料库”,是根据句子的依存结构而建立的树库。其中,依存结构描述的是句子中词与词之间直接的句法关系。具体介绍看汉语树库。
注意:
  • doccano官方推荐的文档编码格式为UTF-8。
  • 在使用JSONL格式的时候,文字数据本身要符合JSON格式的规范。
  • 数据集中不要包含空行
  • 小心里面的单双引号问题

运行doccano与创建新的文本打标项目

首先,打开浏览器(最好是Chrome),在地址栏中输入http://0.0.0.0:8000/并回车。
此时,我们会看到这样的界面

我们可以在红圈处切换语言,在蓝圈处切换成黑色模式(网页变成黑色背景)。
然后我们点击中间的蓝色按钮“快速开始”。
此时,我们会跳转到登陆的界面。这里,我们需要用之前创建的超级用户登陆。

完成登陆后,我们会来到“项目”的界面。我们可以点击左上角的“创建”按钮来创建新的项目;也可以点击“删除”按钮来删除已经创建的项目。

doccano在linux系统的安装流程相关推荐

  1. Linux系统 ·虚拟机安装· SecureCRT远程连接器

    一.Linux系统 ·虚拟机安装· SecureCRT远程连接器 一.Linux介绍 1.1 Linux主要特性 基本思想 1.2 常用Linux版本 二.Linux安装和目录结构 编辑虚拟机设置 三 ...

  2. linux安装xp系统安装教程视频教程,Linux系统怎么安装Win7?Linux下安装XP/WIN7系统图文详细教程...

    Linux是一个基于POSIX和UNIX的多用户.多任务.支持多线程和多CPU的操作系统.但是很多电脑用户还是习惯操作windows系统,这时候有些Linux系统用户就会选择在这系统基础上安装XP或W ...

  3. 如何在Linux系统下安装英特尔® Arc™系列独立显卡驱动以及进行AI推理性能测试...

    点击蓝字 关注我们,让开发变得更有趣 作者 | 周兆靖 排版 | 李擎 如何在Linux系统下安装英特尔® Arc™系列 独立显卡驱动以及进行AI推理性能测试 目录 1.本文目的 2.Linux 系统 ...

  4. [踩坑合集] 双linux系统卸载/安装,nvidia驱动安装,引导项缺失,开机黑屏,nvidia-smi和nvcc -v CUDA版本不匹配

    "个人文化属性" 双系统 1. 双linux系统格式化一个linux系统 2. 安装新的20系统(双系统) 3. 重启后直接进入grub界面(修复它) 3.1 寻找你的系统分区 3 ...

  5. 关于内网linux系统如果安装nodejs,npm,express,mongodb,forever等

    内网的linux系统要安装nodejs以及express等系列的框架,因为系统是局域网和互联网是物理隔离的,所以,没法像官网的安装教程那样直接install了,只能手动安装,这里已经我们自己的linu ...

  6. linux源码安装浏览器,Linux系统手动安装Firefox浏览器

    大多数Linux发行版都以Firefox作为默认的浏览器,并可以轻松地从软件库中安装.例如: Debian/Ubuntu: sudo apt-get install firefox Fedora: s ...

  7. vm虚拟机下linux安装python_VM中安装linux系统,安装VS Code,搭建Python环境

    VM中安装linux系统 在linux系统中安装VSCode(Visual Studio Code) 1.从官网下载安装包 2.在下载目录打开终端安装 sudo dpkg -i code_1.32.3 ...

  8. linux系统中安装java

    linux系统中安装java 文章目录 linux系统中安装java 视频 检查是否安装jdk 下载jdk的tar.gz版本 创建jdk文件夹 上传到服务器 解压到 /usr/local/java/ ...

  9. Linux系统的安装(自动引导安装、网络安装、分区选择)

    Linux系统的安装(自动引导安装.网络安装.分区选择) Cobbler配置 yum install httpd -y yum install cobbler cobbler-web pykickst ...

最新文章

  1. php v5.,PHP V5.3 中的新特性,第 5 部分- 从 PHP V5.2 升级到 PHP V5.3
  2. dispatch_async 与 dispatch_get_global_queue
  3. MATLAB从入门到精通-新增返回数组高、宽数字特征的全新方式
  4. Firefox年内将默认启用AV1解码
  5. SAP Spartacus单元测试用例中Component构造函数的调用上下文
  6. 牛客网Java刷题知识点之插入排序(直接插入排序和希尔排序)、选择排序(直接选择排序和堆排序)、冒泡排序、快速排序、归并排序和基数排序(博主推荐)...
  7. 阿里P8亲自讲解!java声明类的语法格式
  8. 闲暇所学“表白对话框”
  9. jsp java session_JSP中Session的使用
  10. 自己实现一个SQL解析引擎
  11. Spring restTemlate的使用
  12. 解决springboot启动失败问题:Unable to start embedded container;
  13. 导致Tomcat启动过程缓慢的原因及解决方法
  14. 梅特勒托利多xk3124电子秤说明书_梅特勒托利多电子秤校正标定方法
  15. 思科路由器防火墙如何配置的方法
  16. MATLAB 入门之旅【官方基础教程】
  17. 基于EEG信号的文献记录01(0719)-特征选择和分类算法在基于脑电信号的睡眠阶段分类中的比较研究
  18. nagios 总结_caci 与 nagios 一些总结 【一】
  19. vue之menu弹出菜单效果
  20. win2012部署asp网站相关

热门文章

  1. 华为前员工:揭密华为“薪酬真相”
  2. 如何提高自己的知识水平?
  3. 擎天架构加持,华为云Stack打算在混合云市场怎么打?
  4. ffmpeg视频按帧截取图片和ffmpeg将图片合成mp4视频
  5. 医药数字化的中国实践
  6. 许家印投资FF,贾跃亭能否起死回生?
  7. 学生成绩管理系统-设计文档
  8. 微信充值页面开发总结
  9. NDK是什么?(What is the NDK?)
  10. Axure教程(中级):分类导航菜单高亮条的实现