最近好多小伙伴留言问关于如果开发数据标注平台怎么做?需要注意哪些问题?有没有相关资料?但是目前开源的相关资料几乎没有,刚好之前工作也设计过几款数据平台以及数据处理平台的设计、研发、测试的工作,所以就想单独写一篇文章来做概要的介绍,给大家提供一个参考。

  1. 为什么要做数据标注平台?

  2. 基于解决“效率”问题的讨论

一.为什么要做数据标注平台?

首先目前行业是以服务为主,产品为辅的状态,也就是说大部分客户更关心的是服务质量、数据结果质量、结果格式等,至于过程使用什么工具处理不会太过要求,当然除了一些必须要单独工具处理的项目,如:自动驾驶部分的3D点云、医疗标注等,这类项目开源工具较少,除非客户自己有工具,否则就会要求服务方有工具。所以基于这一点,我们就要思考一个核心的问题,数据标注平台到底要解决什么问题?以及花钱做平台后的围绕着平台做的运营战略是什么?可以从以下几个方面去考虑:

  • 效率?

  • 工具?

    效率、工具很好理解的,这个是基础的需求部分,但凡是真的着手计划做平台的公司也是要解决的最基本需求。

  • 载体?

    个人认为这个行业是据有马太效应特点,也会容易产生规模效应,同时也具有灵活用工的特点,理论是应该会出现类似于“美团”、“滴滴”这样的分发平台公司,但是为什么现在还没有呢?本文不进行讨论,可以后面安排一篇文章单独讨论。

  • 安全?

    数据安全,是老生常谈的话题了,但是目前在标注行业大家更多的还是依靠企业的“契约精神”吧!

  • 通道?

    对于通道来讲,可以结合载体和安全来进行,对于数据标注这件事本身来讲,应该是一个数据流转过程中对数据进行不同处理的过程,至于是用机器来处理,还是人来处理都不重要,而这部分完全可以交给平台算法进行分发,但重要的是数据流经平台一圈回收的想要的数据结果。

  • ......

二.基于解决“效率”问题的讨论

应该还有其他方面,就不一一列举了,留言交流的小伙伴大部分都有一个特点不太懂技术,所以本文就重点从“效率”的角度去讨论作为数据标注平台的核心需求点,而对于上面讨论的方向性问题本文不做重点讨论,但是之所以放到前面提到,主要是表明一个逻辑关系,要想好要解决什么问题,再想怎么做的问题。这部分就基于以下几点和大家讨论:

基于目前的项目特点项目需求变化、周期变化有很大的不确定性,所以在项目培训这一块大部分公司都会花很多精力和时间来做重复的事情,无法达到更好的可复制。所以这部分可以通过工具平台的方式做积累主要方式有两种:

要达到至少两个目标:

  • 培训效率

    • 资料库(包含需求文档、视频文档、案例、数据、易错等)

    • 认证考试(针对做过项目数据做提炼作为考试备用)

    • 对已有项目的理解

    • 把对需求理解变成一种可迁移学习的一种能力,使用在其他项目上

  • 项目管理效率

    • 人员日常管理结合项目管理

      对于人员管理每个公司都会用相应的工具,市面上也有很多免费的工具可以使用,但是这块要提出来的是,如何把人员的日常管理结合到项目管理中,例如:大到人员请假、小到短时间内的人员调动。

    • 人员项目中管理

      因为人员在项目中的工作量和时间完全成正相关,所以数据标注的项目是更需要精细化管理的,这部分可以通过工具平台很好的解决,员工使用率和效率监管等问题。

    • 沟通效率

      标注项目有一个天然的特点就是需求变化的不确定性,所以沟通的效率也非常重要,目前大部分的解决方式还是基于微信、qq等即时通讯软件进行,对需求的版本控制等等都没有很好的把控,会很大程度上造成信息不对称的情况,所以这也是需要用平台工具来解决的问题。

  • 工作效率

    • 数据分发

    • 数据标注

    • 数据质检

    • 数据回收

      工作效率这部分应该是整个平台的核心部分,包括了数据分发、数据标注过程的工具、预处理、质检、回收等环节,也是最应该用平台工具解决的核心需求点,其中需要着重提到的两点,数据标注工具的易用性和预处理,其实这两点都是需要一个权衡项目性价比和长期积累的过程。另外预处理个人认为目前很多公司提供的自研预处理解决方案无法解决核心问题,反而还画蛇添足了。如果某公司预处理的结果在某些项目上做的非常好,可以解决百分之九十的标注问题,那么个人认为都有理由怀疑利用其数据进行算法训练了,所以某些逻辑上预处理应该是一个伪命题,个人认为对于预处理这件事儿上应该找到更好的方案,例如:数据闭环等。

从投入产出比的角度来讲,平台一定是解决“效率”问题作为第一步解决的核心问题,毕竟解决了就可以创造价值。而从战略发展的角度,平台要作为一个运营载体就需要更广的战略设想了。但作为一个平台的形式存在不管是哪一点,都不会是一劳永逸的事情,这个是需要不断开发迭代的过程,并且在平台建设初期很容易遇到工具易用性不好的情况,核心功能不好用就无法对人员进行分析管理等,上面提到到的一些逻辑也就无法实现,就容易出现烂尾工程,所以建议投资需谨慎,一定要做好充分的准备。

以上两部分是想从两个方面跟大家交流一下如何进行前期数据标注平台设计的构思,希望可以给小伙伴们一个参考,欢迎大家随时交流。


最后打一个小广告,参与编写的《数据标注实用教程》已经出版了,非常适用于小伙伴自学,或者中专高职本科类院校作为教材使用。(也可以关注公众号-联系我-标注猿小店  单独购买书)

【标注小课堂】关于数据标注平台设计的几点思考相关推荐

  1. 【标注小课堂】数据标注的价值不是数据标注

    各位小伙伴们开工大吉,假期总是飞快,第一个没有炮竹的新年总觉得差了点意思,不过绝对不影响对2021年的期待.个人认为2021年绝对是伟大的机遇年,所以祝愿小伙伴们今年都可以跟随国家发展的伟大契机快速发 ...

  2. 标注2.0:数据标注员如何进行从业选择?

    作为一个2020年3月份才正式正名的一个岗位,开始就受到了很多关注,但也引发了很多争议.经过几年的发展人工智能很多领域已经落地初见成效,数据标注也逐渐要进入一个"洗牌期".但很少有 ...

  3. 基于大数据的消费者能力的数据可视化平台设计与实现

    摘 要 大数据时代的来临,为了提高企业核心竞争力,首先需要解决电子商务大数据领域中,本设计主要为解决商家无法找到精准客户的问题,通过科学的方式对目标市场中形态各异的消费者进行精细的划分,根据每个用户不 ...

  4. 景联文科技—专业数据标注公司和智能数据标注平台

    近年来,人工智能技术所带来的创新增量价值引人瞩目,各大企业开始在算力.算法.数据三大基础要素上做整体布局,加速推进人工智能产业进入效率化.工业化生产阶段.AI已成为数字经济时代的核心生产力,驱动着数字 ...

  5. AI发电厂——数据标注公司(国内数据标注公司服务调研)

    众所周知,深度学习需要大量的标记数据和高效的运算来做支撑. 计算资源只要从黄老板的公司订购就可以了,但大规模的高质量有标记数据却不是那么容易获得,让科研人员头疼不已. 应用时代而生的就是一大批数据众包 ...

  6. 基于小程序的微信学习平台设计与实现+源码

    统计显示, 我国微信用户 数量在 2018 年超过了 10亿,小程序是微信开发推出的新型应用程序,用户无须下载安装就可以在微信中进行程序的开发. 相比传统的APP,小程序能调用微信基础框架.API接口 ...

  7. 泰迪云课堂大数据培训平台业务介绍

    泰迪云课堂大数据培训业务分为几个类型,包括就业培训班.在线实习.大数据推荐课程.图书配套视频课程 .技能提升等方面.        就业培训班包括:学徒班.线下就业班.项目班      学徒班包括:大 ...

  8. 数据集标注工具_数据标注分享9个数据标注工具

    本次分享一个谷歌暗度陈仓收集客户标注数据的故事,城市套路深,我要回农村:分享九个数据标注最常用的工具,涵盖打点,拉框,OCR,语义分割,3D等.01一个故事 2004 年,谷歌宣布开启全球图书馆馆藏图 ...

  9. 数据统计平台设计与实现

    1.背景与需求 如果想把控一个新生态的发展状态,那么我们迫切需要一个该生态相关的数据统计平台;该平台将从不同的维度去分析 这个生态,引入很多不同的指标以及图表,通过这些指标以及指标的展示图来描绘生态的 ...

最新文章

  1. MCMC笔记:MCMC的不足
  2. PHP——MySQL数据库连接与关闭自定义函数
  3. HDU - 4685 Prince and Princess(强连通缩点+二分图完备匹配)
  4. java时间加减_java时间加减
  5. 富爸爸系列之三富爸爸投资指南
  6. MySQL为什么用 B+ 树,不用 B 树?
  7. 桥牌笔记L4D17:小心阻塞
  8. android 使用pdf文件大小,Android 加载PDF文件的使用
  9. 【数学建模】基于matlab GUI雾霾分析仿真系统【含Matlab源码 1503期】
  10. arm linux 中文输入法,ARM 安装中文输入法
  11. Win10问题篇:使用微PE装机。(完整版教程)
  12. 禁止搜狗拼音输入法自动更新
  13. Zookeeper+ActiveMQ集群搭建
  14. 软件系统可靠性的指标计算
  15. 洛谷 P4234 LCT + 排序 + 枚举
  16. 程序员VS产品经理的世纪之争
  17. 注册电子邮箱帐号优点
  18. TensorFlow2.0 学习笔记(三):卷积神经网络(CNN)
  19. C语言实验——某年某月的天数
  20. 树莓派魔镜——树莓派无显示器安装系统并连接vnc

热门文章

  1. mplayer linux arm,【嵌入式】交叉编译移植 Mplayer 到 ARM开发板
  2. DHS推出物联网安全策略原则
  3. 从入门到大神,表弟的Python 开发进击之路
  4. wordpress插入bilibili视频
  5. 站长探讨说说之SEO文章关键词精准优化布局
  6. Libra: 一种新型金融基础设施尝试
  7. nginx处理cros跨域遇到的各种问题及解决方案,以及https配置和浏览器https不安全问题处理
  8. 电子琴节奏包制作_外卖料理包未来的命运,存在还是毁灭?
  9. 计算机窗口预览图,win10系统任务栏缩略图窗口预览速度提升的操作方法
  10. PHP三种数组合并方式