第一章:数据标注概述

一、数据标注的起源与发展

1、人工智能行业的发展

  • AI的概念:意指让机器具有像人一般的智能行为(1956年,达特茅斯会议,由约翰·麦卡锡提出)
  • AI的发展:60多年来,浮浮沉沉、三起三落
人工智能发展史

2、数据标注的起源与发展

  • 前两次AI浪潮中,由于数据量级很小,数据标注主要由研究的工程师完成
  • 第三次浪潮后,数据标注需求逐渐增大
  • 2011年,数据标注的外包市场开启
  • 2017年,数据标注行业真正爆发

3、什么是数据标注

  • 概念:通过分类、画框、标注、注释等,对图片、语音、文本等数据进行处理,标记对象的特征,以作为机器学习的基础素材的过程。

4、数据标注分类概述

a. 图像标注:

  • 对汽车和行人进行筛选、分类、标框等
  • 对骨骼进行描点
  • 对病理切片标注
图像标注

b. 语音标注:

  • 发音人角色标注
  • 环境情景标注
  • 多语种标注
  • ToBI(Tones and Break Indices)韵律标注体系标注
  • 噪声标注等
语音标注

c. 文本标注:

  • 语句分词标注
  • 语义判定标注
  • 文本翻译标注
  • 情感色彩标注
  • 拼音标注
  • 多音字标注
  • 数字符号标注等
文本标注

5、数据标注流程概述

数据标注流程

a. 数据采集:

采集来源:

  • 公开数据集
  • 专业数据集

获取方式:

  • 用SQL从内部数据库提取
  • 下载公开数据集
  • 编写网页爬虫自主收集

采集要求 :

  • 要考虑采集规模和预算
  • 要注重采集数据的多样性
  • 考虑是否适用于应用场景
  • 采集方法要合法合理

b. 数据清洗:

概念:

  • 清洗脏数据,将数据统一成适合于标注且与注意密切相关的标准格式,以帮助训练更为精确的数据模型和算法

方法:

  • 对所有采集的数据进行筛检,最大限度的纠正数据的不一致性和不完整性

举例:

  • 去除重复值
  • 去除无关值
  • 去除异常值
  • 补充缺失值
  • 平滑噪声数据

c. 数据标注:

先试标:

  • 需求方算法工程师给出标注样板
  • 详细阐述标注需求和标注规则

后标注:

  • 有数据标注员对不同素材的数据进行标注

d. 数据质检:

目的:

  • 提高输出数据的准确率

方法:

  • 排查
  • 抽查

二、数据标注的应用场景

1、出行行业

场景 :

  • 汽车自动驾驶研发
  • 规划出行路线
  • 优化驾驶环境

应用:

  • 矩形框或描点标注车辆
  • 矩形框或描点标注人体轮廓
  • 在地图上标记POI

2、金融行业

场景:

  • 身份验证
  • 智能投资顾问
  • 风险管理
  • 欺诈检测

应用:

  • 通过语义分析制作合同研发软件,大大缩短合同审查工作的时间,并显著降低错误率

3、医疗行业

场景:

  • 医学编码和注释
  • 远程医疗
  • 医疗机器人
  • 医疗影像
  • 药物挖掘
  • 疾病预测

应用:

  • 人体标框
  • 3D画框
  • 骨骼点标记
  • 病历转录

4、家居行业

场景:

  • 智能家居

应用:

  • 矩形标框标记人脸
  • 人脸精细分割
  • 对物品进行画框标记
  • 通过描点来区域划分
  • 采集语音进行标注处理

5、安防行业

场景:

  • 日常监控

应用:

  • 人脸标注
  • 视频分割
  • 语音采集
  • 行人标注

6、公共服务

场景:

  • 内容审核

应用:

  • 将同意语句归类的语义分析
  • 音频转化文字的语音转录

7、电子商务

场景:

  • 建立客户全生命周期数据
  • 预测需求趋势
  • 优化价格与库存
  • 精准营销

应用:

  • 搜索完善
  • 情绪分析
  • 人脸标注
  • 语音采集

三、有多少智能,就有多少人工

1、有监督的机器学习

AI体系的三大底层:

  • 数据
  • 算法
  • 应用

机器学习 :

  • 有监督学习

    • 核心在于“分类”
    • 主要用于实际产品应用
  • 无监督学习
    • 核心在于“聚类”
    • 主要用于探索研究
  1. 数据标注工作都是有监督学习

2、最后一批人工智能的“老师”

AI疯狂生长,标注岗位逐渐消亡:

  • 由弱人工智能,到强人工智能,直至超人工智能
  • 最终“学生“将超越”老师“,人工标注也将不复存在

目前阶段的AI辅助工具:

  • 例如“流体标注”
手动标注和流体标注的对比

四、数据越多,智能越好

深度学习的成功归功于:

  • 高容量的模型
  • 越来越强的计算能力
  • 可用的大规模标签数据

大规模数据有助于表征学习:

  • 模型性能与数据的数量级呈线性增长关系
测试性能随数据量呈线性增长
  • 随着感知智能向认知智能发展,对数据标注的维度和细化程度的要求也会增加

五、本章框架

六、作业与练习

1、如何理解数据标注与人工智能的关系?

答:人工智能意指让机器具有像人一般的智能行为,目前阶段的人工智能技术主要通过机器学习算法来达到相应的目的,而数据标注工作通过对数据进行处理,标记对象的特征,为机器学习提供了基础素材,因此数据标注可以看做是部分人工智能算法的前期基础工作。

2、什么是数据标注?

答:通过分类、画框、标注、注释等方法,对图片、语音、文本等数据进行处理,标记对象的特征,以作为机器学习的基础素材的过程就是数据标注。

3、数据标注对象可以划分为哪几类?

答:按标注对象为分类基础,可分为:图像标注、语音标注和文本标注等。

4、数据标注流程包括哪些环节?

答:包括四个环节,即数据采集、数据清洗、数据标注和数据质检。

5、数据标注有哪些应用场景?

答:数据标注的应用场景随着人工智能行业的发展日趋多样化,深入各行各业。例如:出行行业中的自动驾驶研发、物联网数据、交通网络大数据、车载应用技术等;金融行业中的身份验证、智能投资顾问、风险管理、欺诈检测等;医疗行业中的远程医疗、医疗机器人、医疗影像、药物挖掘、高效诊断与治疗等;家居行业丰富的智能家居场景;安防行业的日常监控、出入境管理、刑侦案件侦查等;公共服务行业的内容审核、语义分析、语音转录、视频审核等;电子商务行业的精准营销、搜索完善、情绪分析等。

6、如何理解“有多少智能,就有多少人工”?

答:机器的智能程度与数据处理的量级和质量直接相关,而目前,数据的采集、清洗、标注、质检大多由人工完成,换言之,现在的弱人工智能阶段,有监督学习的机器智能是通过人工的“老师”“教”出来的。在向强人工智能甚至超人工智能的发展过程中,有监督学习会逐渐向无监督学习或迁移学习进行转变,到时,人工的部分可能将会大幅度削减。

7、数据量级与智能程度之间存在怎样的联系?

答:数据量级越高,智能水平越高,大规模数据有助于表征学习,随着训练数据的数量级增长,模型性能呈线性增长。

lisp 线性标注自动避让_《数据标注工程》第一章学习笔记及作业:数据标注概述...相关推荐

  1. lisp 线性标注自动避让_自动化数据增强:实践、理论和新方向

    选自Stanford AI Lab Blog 作者:Sharon Y. Li 机器之心编译 参与:Panda 对当今需要大量数据的机器学习模型而言,数据增强是一种具有显著价值的技术--既可用于缓解数据 ...

  2. lisp线性标注自动避让_优化的标牌自动避让算法

    优化的标牌自动避让算法 马超 ; 黄煜 ; 张建伟 [期刊名称] <计算机工程与设计> [年 ( 卷 ), 期] 2012(033)009 [摘要] 为解决传统标牌自动避让算法导致标牌频繁 ...

  3. lisp 线性标注自动避让_本科阶段就挑战自动驾驶开发?华为云ModelArts说Yes!

    作为战略新兴产业,人工智能已经开始广泛应用于多个领域.近几年,科技公司.互联网公司等各领域的企业纷纷布局自动驾驶.那么,自动驾驶技术究竟发展得如何了?日前,华为云携手上海交通大学创新中心举办的华为云人 ...

  4. lisp 线性标注自动避让_泰州支重轮双头车自动化生产线

    泰州支重轮双头车自动化生产线数控机床的通电:机床一般使用三根动力线,一根接地保护线,要注意电缆线的平方数,在机床说明书的线路图中都有明确标注.线轨硬轨?加工中心导轨到底应该怎么选?机床行业的人士都知道 ...

  5. lisp线性标注自动避让_现在常用的地图标记避让算法有哪些啊?

    自动地图标记应该算是GIS中最复杂的问题之一吧(属于NP复杂度问题,所以通常不能找到最优解,只能找到较优解),已经有不少的文章讨论过相关算法.跟解决其他NP问题一样,大部分算法的思路都是提供一个启发( ...

  6. 流畅的python第一章_《流畅的Python》第一章学习笔记

    一摞python风格的纸牌from collections import namedtuple Card = namedtuple('Card', ['rank', 'suit']) # 构建只有少数 ...

  7. 计算机网络微课堂_第一章学习笔记

    1.1计算机网络在信息时代的作用 计算机网络已由一种通信基础设施发展成为一种重要的信息服务基础设施. 通信:指通过某种行为或媒介进行信息交流或传递. 1.2因特网概述 1.网络.互联网(互连网)和因特 ...

  8. 【学习笔记】大数据技术之Scala(下)

    [学习笔记]大数据技术之Scala(上) 大数据技术之Scala 第 6 章 面向对象 6.1 Scala 包 6.1.1 包的命名 6.1.2 包说明(包语句) 6.1.3 包对象 6.1.4 导包 ...

  9. Vue学习笔记入门篇——数据及DOM

    本文为转载,原文:Vue学习笔记入门篇--数据及DOM 数据 data 类型 Object | Function 详细 Vue 实例的数据对象.Vue 将会递归将 data 的属性转换为 getter ...

最新文章

  1. 语文教学中如何运用计算机辅助教学,计算机辅助教学在语文教学过程中的运用...
  2. 从零学web前端_从零到前端英雄(第2部分)
  3. 日志分析工具 LogParser
  4. POJ3666:Making the Grade——题解
  5. RecylerView动画组件RecylerViewAnimators
  6. 解决Jetson nano上编译librealsense错误:Could NOT find Vulkan (missing: VULKAN_LIBRARY VULKAN_INCLUDE_DIR)
  7. hdu1.3.5 排列2
  8. 4-1 复数类的运算符重载
  9. bzoj 5216 [Lydsy2017省队十连测]公路建设 线段树维护 最小生成树
  10. Linux SSH基础
  11. 第三次学JAVA再学不好就吃翔(part100)--文件名称过滤器
  12. Coco2dx-3.0中怎样调用LUA
  13. 1013.windows平台下移植qtmqtt三方库
  14. Spring配置中的classpath:与classpath*:的区别研究(转)
  15. OpenCV for Android开发环境Win7平台搭建(转)
  16. 如何获取网页flash游戏的资源?
  17. Acwing-873. 欧拉函数
  18. intellij idea 类和文件夹(目录)左上角出现小叉号
  19. vue-cli2.x统一配置接口请求地址和开发环境的跨域代理
  20. Reinforcement Learning | 强化学习十种应用场景及新手学习入门教程

热门文章

  1. mysql 事务回滚_SQL基础丨事务处理
  2. 2019创客中国智能融合应用中小企业创新创业大赛启动
  3. 【程序设计】模块化程序设计
  4. 【Servlet】Servlet的多线程并发情况
  5. 【数字逻辑设计】组合电路
  6. 【机器学习】机器学习用到的常用术语
  7. javascript全栈开发实践-web-7
  8. Ubuntu下基于Virtualenv构建Python开发环境
  9. 陈一舟:我们花了大力气找合适团队接力人人网 任务完成
  10. 使用git恢复未提交的误删数据