现在网络上关于深度学习算法的文章很多,但深度学习其实是数据驱动型。很多时候数据足够好,能给算法开发提供很大的便利。

因此,本文主要讲解数据标注。文章共两个部分:(1)数据标注综述(2)数据标注实践要点

本文是第一部分:数据标注综述

1、数据标注的作用

数据标注是大部分人工智能算法得以有效运行的关键环节。人工智能算法是数据驱动型算法,也就是说,如果想实现人工智能,首先需要把人类理解和判断事物的能力教给计算机,让计算机学习到这种识别能力。

数据标注的过程是通过人工贴标的方式,为机器系统可供学习的样本。数据标注是把需要机器识别和分辨的数据贴上标签,然后让计算机不断地学习这些数据的特征,最终实现计算机能够自主识别。

2、数据标注的质量及标注流程

数据的高质量体现在两个方面:一个标注的数量多,二是标注的质量高。

图像标注的质量标准:图像标注的质量好坏取决于像素点的判定准确性。标注像素点越接近被标注物的边缘像素,标注的质量就越高,标注的难度也越大。如果图像标注要求的准确率为100%,标注像素点与被标注物的边缘像素点的误差应该在1个像素以内。

语音标注的质量标准:语音标注时,语音数据发音的时间轴与标注区域的音标需保持同步。标注于发音时间轴的误差要控制在1个语音帧以内。若误差大于1个语音帧,很容易标注到下一个发音,造成噪声数据。

文本标注的质量标准:文本标注涉及到的任务较多,不同任务的质量标准不同。例如:分词标注的质量标准是标注好的分词与词典的词语一致,不存在歧义;情感标注的标注质量标准是对标注句子的情感分类级别正确。

多数投票算法(majority voting,MV)是常用的标注质量评估算法。MV 算法是由约翰逊提出的一种通用性强的质量控制算法。它将绝大多数用户选择的结果视为最终结果。其基本思想为:假设有

个图像标注任务
,每个任务
对应一个二元分类。为提高标注质量和标注可靠性,将需要标注的对象
分配给
个员工(一共
个员工,
)。每个工人的标注结果为
,再根据
推断出
的最终标签,其计算公式为:

图像数据的标注流程为:

(1)数据清洗:排除数据存在缺失值、噪声数据、重复数据等质量问题。

(2)数据标注:划分标注任务、制定标注规范。进行标注任务。

(3)标注检验:由标注审核员或机器质检机制,审核标注质量

3、常用的标注工具

知乎不能添加表格,点此处获取下载方式。点击标注工具的名称,即可获取下载地址。每个链接我都试了,如果连接不上可能是需要挂梯子。

Reference

[1]蔡莉,王淑婷,刘俊晖,朱扬勇.数据标注研究综述[J].软件学报,2020,31(02):302-320.

如何进行数据标注(1)相关推荐

  1. NLP文本标注工具与平台(数据标注公司)

    最近在做NLP相关项目,包括句法分析.情感分析等,有大量数据需要标注.我评估了几个文本标注工具,也接触了几家数据标注公司和平台,总结如下,供各位参考. 文本标注平台(标注外包公司) 数据标注公司的工作 ...

  2. “智能”基石:人工智能数据标注与训练,是决定智能时代的第一步

    记者 | 邓晓娟 2021年5月20日~23日,由深圳市科学技术协会.深圳市商务局.深圳市福田区人民政府共同指导,深圳市科技开发交流中心.深圳市人工智能行业协会联合主办的2021第二届深圳国际人工智能 ...

  3. ImageNet十年,AI数据标注如何蓬勃发展?

    2016 年,AlphaGo 战胜李世石,成为新一代 AI 浪潮的重要里程碑事件. 经此一役,很多人都认识到了算法和算力对 AI 发展的重要性,确忽略了另一个重要因素:数据. 2009 年,时任斯坦福 ...

  4. 听说数据标注行业缺“中立”平台,京东金融竖起了大旗

    数据标注是人工智能进行模型训练必不可少的一环.这是将最原始的数据变成算法可用数据的过程:原始数据一般通过数据采集获得,随后的数据标注相当于对数据进行加工,然后输送到人工智能算法和模型里进行调用. 上述 ...

  5. 近期活动盘点:心电数据标注系统和深度学习诊断算法研究、2019年第六届清华大学大数据社会科学讲习班...

    想知道近期有什么最新活动?大数点为你整理的近期活动信息在此: 第四期医工结合研讨会:心电数据标注系统和深度学习诊断算法研究 2019年7月11日 7月11日,"医工结合系列研讨会第四期会议: ...

  6. TaggerX——AI数据标注引入乡村振兴工作站解决农村地区青年就业问题【数据故事计划一等奖】...

    摘要:细听学长学姐讲故事,或许在他们的路上也有你的身影! [第一届数据故事计划] "数据故事计划"旨在收集各类有关大数据的故事然后进行比赛及相关的宣传和推广.包括同学们接触大数据. ...

  7. AI式剥削:数据标注人员日薪低至51块钱

    编译 | 核子可乐.钰莹 最新论文指出,AI 行业正在残酷压榨刚刚兴起的全球零工经济体系. 现代人工智能依赖各种算法处理规模达数百万的示例.图像或文本素材.但在此之前,首先需要由工作人员在图片数据集中 ...

  8. 数据标注成人工智能核心高地,未来谁扛大旗?

    在整个信息技术发展史上,人工智能是信息技术发展的必然,同时也是信息技术发展水平的最高体现. 如今,人工智能已成为国际竞争新焦点.从客观视角剖析来看,人工智能之所以能在极短时间内取得如此成绩,这与其本身 ...

  9. 有多少智能,就有多少人工?人工智能背后的数据标注师

    "目前我国已有庞大的数据加工队伍,仅北京就有一百多家专门从事数据标注的公司,全国从事这项工作的人大概超过千万,很多头部的互联网技术企业都有自己的数据标注公司." 目前人工智能落地场 ...

  10. 数据标注-人工智能高速路上的基石

    数据标注-人工智能高速路上的基石 中国科学技术大学博士袁岚峰在不久前的文章中把中国科技在世界的地位大致分为五类. 我们本文中只引用第四类. "如今世界科技的第四个格局:双头格局,一般是中美两 ...

最新文章

  1. 3月7日 ArrayList集合
  2. 昵图网服务器系统资源不足,Win7系统提示系统资源不足警告怎么办? - 爱绿豆...
  3. 七步确定一个优化项目的难易度
  4. git 快速入门笔记
  5. 新版SVT-AVS3发布 编码效率提升并提供更灵活的编码工具
  6. 10个让人很舒服的沟通技巧
  7. [Usaco2008 Feb]Eating Together麻烦的聚餐[最长不下降子序列]
  8. 1000道Python题库系列分享19(81道填空判断题)
  9. nginx tomcat spring-boot 对json等数据压缩
  10. 面试官:换人!赶快换人!连CopyOnWriteArrayList都没听过!确实没听过
  11. Atitit.软件仪表盘(7)--温度监测子系统--电脑重要部件温度与监控and警报
  12. 2022最新短视频去水印解析API接口分享
  13. 【译】eBPF 概述:第 4 部分:在嵌入式系统运行
  14. AD软件自动添加原理图标注
  15. weex中UISegmentControl实现及遇到的问题
  16. 跨境电商独立站流量起飞!社媒 Hashtags 营销全攻略!
  17. Ubuntu中使用vi编辑时方向键乱码或退格键不能使用解决方法
  18. 如何搭建一个自己的音乐服务器
  19. 互联网产品都有哪些类型?
  20. 国外人经常上的网站,即全球各个领域最大的互联网网站

热门文章

  1. 去哪儿,模拟登录(扫码登录)
  2. C# winfrom 录音
  3. Excel制作折线图与环形图嵌套的数据图表
  4. Vue基础概念,基础指令,选项式API
  5. 医院RFID药物跟踪管理解决方案
  6. C++求阶乘四种方法,阶乘和,高精度阶乘
  7. 解决Zotero导入参考文献作者名字字母全部大写问题
  8. 剑指offer C语言实现
  9. CDR中调和工具的使用方法
  10. Laravel 图床与颜值检测结晶