2021年初,特斯拉披露正在位于纽约的Gigafactory招聘一组数据标签员,以提供图像标注支持,帮助训练Autopilot/FSD神经网络。因为对于自动驾驶演进来说,算法方面的差距会逐渐缩小,数据将是真正影响技术能力和用户体验的重要因素。

而按照此前公布的数据,特斯拉总共有近千人的数据标注团队规模。“数据需求缺口仍在,市场远未饱和。这对于真正优质的数据供应商来说,正是抢占市场高地的绝佳时机。”数据堂公司相关负责人表示。

另一方面,硬件预埋也推动了智能驾驶行业进入数据驱动迭代周期。

今年,英伟达在Orin进入规模上量阶段的同时,推出了Drive Map,基于精确测绘数据与匿名众包数据相结合,提供厘米级的定位精度。后者,由搭载英伟达Hyperion架构的车辆提供数据众包,包括来自摄像头、激光雷达和毫米波雷达的数据。

所有这些数据,从车端不断上传到云端。然后,加载到英伟达的Omniverse平台,后者是一个为虚拟仿真和实时物理精确模拟而构建的开放平台,用于更新地图数据。同时,这些数据会转换成模拟测试环境,可用于Nvidia Drive Sim,一个端到端的自动驾驶车辆模拟平台。

而在Omniverse的背后,还有数据自动标签技术。

“Omniverse允许我们创建多样化、海量、精确的数据集,以构建高质量、高性能和安全的数据集,这对人工智能至关重要。”这其中,对于传统手工数据标注的增强,是关键要素之一。

马斯克也曾公开表示,FSD可以让公司价值不菲。但同时强调,系统改进的唯一途径是收集数据。

据悉,特斯拉只有“几十名”工程师在研究神经网络,但背后有一个“庞大”的团队在研究标签。一方面,手动高质量标准仍是基础工作,另一方面,标签自动化也是趋势,从而应对车队收集的大量数据。

Mobileye也是如此。公开数据显示,这家公司背后有一支2500多人组成的数据标注团队,每月可处理5000万个数据集——相当于500,000小时的驾驶里程,并建立了一个庞大的内部搜索引擎数据库。

这意味着,标注效率以及准确性,决定了视觉及多融合感知技术的迭代速度。“高质量数据,某种意义上就是决定性的要素。”在行业人士看来,一套高质高效的数据集,也是加快功能开发周期的关键。

而大众集团也有着同样的策略。比如,其基于Trinity开发的车型(预计2024年发布),被视为未来的“时间机器”,自动驾驶系统将受益于CARIAD正在开发的新型“神经网络”,与其他联网汽车共享道路、交通和其他系统的实时数据。

支持数据驱动开发将成为大众集团E³2.0软件平台的基本配置,背后还有为此搭建的云数据中心(VW.AC),后者在微软Azure上建立一个基于云的自动驾驶平台(ADP),软件功能开发周期将从现在的几个月缩短到几个星期。

此外,作为全球年产销量龙头的丰田,也已经开始在部分国家及地区启用数据采集功能,帮助开发和改进基于图像识别算法的ADAS系统,并保持对集成在车辆上的ADAS系统进行验证和评估。

而在中国,理想汽车用户驾驶总里程已达30.6亿公里(根据最近数据),辅助驾驶总里程达到2.9亿公里,NOA驾驶总里程达到2462万公里,而有效学习场景总里程达到1.9亿公里,仅次于特斯拉。

在研发上,理想也采用了和特斯拉类似的“影子”模式,智能驾驶算法的开发版本和当前版本同时下放到车端,比较相同场景下算法能力。“只有在车型中全系标配智能驾驶功能,才能更好地获取真实的驾驶场景数据,供自动驾驶算法进行训练。”

可以见得,随着软件和数据成为智能汽车的核心增量,数据采集、数据开发和数据闭环能力也被视为车企最核心的竞争力之一。越来越多的车企和系统供应商也开始转向数据驱动的开发模式。

对于人工标注岗位(大概每小时20美元的工资),特斯拉也多次明确其重要性:基于Autopilot标注界面来标记图像,对于训练深度神经网络至关重要。

比如,标注团队将与Autopilot团队的计算机视觉工程师互动,以帮助改进内部标注工具的设计;同时,标注团队将获得基本的计算机视觉和机器学习知识,以更好地理解算法如何使用标签,因为这将帮助在标记过程中出现的困难的「边缘情况」做出准确判断。

实际上,这个背后所传递的信息是:数据标注并非简单的「拉框」,也不是纯粹的逐条标注。“这种方式既费时又费钱。”一些行业人士指出,大部分传统外包商交付的结果数据经多次返修,依然无法达到客户要求的精确度。

而标注效率以及准确性决定了视觉及多融合感知技术的迭代速度。可以说,高质量数据,某种意义上就是决定性的要素。在行业人士看来,一套高质高效的数据集,也是加快功能开发周期的关键。

为此,数据堂也推出了自研的数据标注工具,内置ML辅助预识别功能,真正实现半自动化作业,有效提升人均效率30%以上。近30套标注工具,可灵活应用于语音、图像、3D点云、文本等多类型数据的标注,已成功应用在11年近5000多个项目的实施过程中。

比如,漏标是很严重的标注错误。数据堂在工具中内置了地面检测算法、颜色自动渲染,标注时可以根据颜色来判断标注物体,以减少漏标。

此外,这套工具还内置插值算法预标注功能,如在第一、五帧标注了目标ID,则会自动标注中间帧位置,只需查看或微调位置即可(主要用于目标追踪项目)。

值得一提的是,其自研数据采集工具,数据不经中间环节,自动回传至数据堂服务器,无限降低人为污染、泄漏数据的可能性。

2021年,数据堂的智能驾驶数据服务同比去年,业务涨幅达65%。这家连续数年在智能驾驶数据服务市场占有率领军的企业,也拿到了长城、上汽、小鹏、蔚来、宇通等国内一线车企的订单。

同时,考虑到数据合规的重要性,数据堂还在去年拿到了相关的测绘资质,也是业界唯一一家取得测绘资质的数据服务公司。这意味着这家公司可以在真实的道路环境下合法采集数据,并合规地进行数据标注和处理,构建其他数据服务商难以比拟的优势,也拿到了车企订单的准入门槛。

自动驾驶巨头们的数据“竞速赛”相关推荐

  1. 智行者王肖:自动驾驶本质在于对待数据的态度、获取及应用方式 | 自动驾驶这十年...

    雷锋网(公众号:雷锋网)按:回头看,第一届DARPA自动驾驶挑战赛已经是十年前的事了.对比互联网产业,十年前手机还没有支付业务,而现在支付宝.微信已经全面改变了人们的消费习惯.反观汽车产业,尤其是自动 ...

  2. 智行者王肖:自动驾驶本质在于对待数据的态度、获取及应用方式 | 自动驾驶这十年... 1

    雷锋网(公众号:雷锋网)按:回头看,第一届DARPA自动驾驶挑战赛已经是十年前的事了.对比互联网产业,十年前手机还没有支付业务,而现在支付宝.微信已经全面改变了人们的消费习惯.反观汽车产业,尤其是自动 ...

  3. 自动驾驶 11-3: 根据 LIDAR 数据进行位姿估计 Pose Estimation from LIDAR Data

    既然你已经学会了如何翻译, 旋转和缩放点云, 是时候谈谈我们该如何做 实际使用这些操作 用真实的点云 估计自动驾驶汽车的运动. 我们这样做的方式 一般是通过解决某事 称为点集配准问题, 这是最重要的问 ...

  4. 行业篇:自动驾驶场景下的数据标注类别分享

    随着全自动驾驶时代迫近,数据标注或将成为汽车行业下一个突破点. 对自动驾驶来说,感知技术尤为重要,训练自动驾驶感知模型需要使用大量准确真实的数据.据英特尔计算,L3+级自动驾驶每辆汽车每天产生的数据高 ...

  5. 【自动驾驶】3. DDS 数据分发服务(Data Distribution Service)

    DDS 数据分发服务(Data Distribution Service) 数据分发服务DDS(DataDistributionService)是对象管理组织(OMG)在HLA及CORBA等标准的基础 ...

  6. 自动驾驶-目标检测-路标数据

    数据中包括各种自然环境,一共两万多张数据.该资源还包括相关代码. [公众号:深度学习视觉] 关键词:路标识别(尽快领取,以防失效)

  7. CES 2022:四大芯片巨头正面厮杀,抢滩自动驾驶、元宇宙

    科技云报道原创. 2022年国际消费类电子产品展览会(CES)于1月7日落下帷幕.作为全球消费电子技术的晴雨表,CES一直是各家厂商大秀"肌肉"的重要阵地. 但受新冠疫情的影响,多 ...

  8. 从数据到模型:实现自动驾驶高效感知

    关注公众号,发现CV技术之美 以上视频为轻舟智航x火山引擎全无人自动驾驶Demo,车辆在城市晚高峰时段自己从地库出发接了3张订单又自动回去收车,一路完成了自动躲外卖小哥.火车站送客.礼让行人的复杂操作 ...

  9. 智能网联汽车 自动驾驶地图数据质量规范

    1 范围 本文件规定了全场景下的自动驾驶地图数据质量检测的基本要求.质量检测内容.质量检测指标.质量检测流程.质量检测方法.质量检测结果的判定与质量报告编写的要求等. 本文件适用于自动驾驶地图产品的质 ...

最新文章

  1. classpath路径(转)
  2. @excel注解_java bean 一对多,多对一 poi导出excel表格
  3. 24 MM配置-采购-配额管理-定义编码范围
  4. php web 简单的系统,Slim 简单而强大的 PHP 微型 Web 开发框架 - 资源分享
  5. SNF快速开发平台MVC-各种级联绑定方式,演示样例程序(包含表单和表格控件)...
  6. android双击返回键退出程序
  7. Neural Entity Linking综述【详细版】
  8. 免费而优秀的图表JS插件、js图表、html图表--百度的Echart、Highcharts、阿里的G2、Chart.js
  9. Python趣味脚本,做一个简单的抽奖刮刮卡
  10. PowerPoint2003常用快捷键
  11. 将链接转成base64格式生成二维码和把页面生成图片
  12. 树莓派安装TP-link wn725n网卡驱动
  13. html table内边框线条,HTML_TABLE内外边框
  14. ata驱动框架及scsi请求处理流程
  15. 【计算机视觉】OpenCV实现单目相机标定
  16. android java join_java中的join用法
  17. ABAP EWM模拟 /SCWM/ADGI过账更改HU数量
  18. 跟我一步一步实现 Flutter 视频播放插件 (一)
  19. JavaScript中绑定事件监听函数的通用方法[ addEvent() ]
  20. 局域网arp攻击_ARP局域网攻防浅析

热门文章

  1. 英雄联盟手游段位一览 LOL手游段位图标大全
  2. ServerSQL数据库查锁、解锁
  3. 关于delete this
  4. CentOS7配置VNC远程桌面
  5. 基于java的山西菜谱管理系统_家庭食谱菜谱管理系统的设计与实现(JSP,SQLServer)(含录像)...
  6. 微信公众号H5页面实现扫一扫功能
  7. 中小学信息学可以参加的比赛
  8. 墨尔本大学计算机qs排名,2020年墨尔本大学世界排名(QS排名、专业排名)
  9. MySQL高级篇知识点——索引的数据结构
  10. BoundingBox 图片分割