实战案例丨ModelArts在数据标注、数据过滤上的应用技巧:自动分组
分组标注场景
大量复杂、乱序的图片依次标注效率极低,如果一次可以标注一大片的图片将极大地提升标注效率。
自动分组识别并提取图像特征,通过ModelArts先进的聚类算法可以将所有图片分组:将特征相似的图片归为一类,将特征差别大的图片群分离。
在花朵识别项目中,需对大量无标注的花朵图片进行标注,依次乱序标注蒲公英、郁金香、向日葵等将耗费大量宝贵时间
启动自动分组,我们事先知道花朵数据集中存在5个类别,为他们分组6类(聚类算法不能保证一定将5类别完全区分出来,需更细化地分组,于是往往分组数需大于实际类别数):
过约3分钟后,通过筛选条件,我们可以得到自动分组的结果,如第1类几乎都是郁金香的图片,第3类几乎都是蒲公英的图片。
第1类
第3类
于是选择当前页 -> 输入蒲公英 ,即可直接对他们一次性进行标注。
当然并不是每个组都是完美的,如一个组中大多都是向日葵,但还夹杂着非洲菊 。此时选择当前页后,去掉相应非向日葵图片左上角的勾即可:
数据过滤场景
现实中的真实图像数据量少,往往无法满足深度学习网络训练数据量的要求,于是开发者们一般选择网络爬取需要的图片,但爬取下来的图片风格迥异、噪声杂多,想要从中提取需要的图片工作量是巨大的。
ModelArts提供的自动分组算法除了在分组标注上功能强大,在数据过滤场景上也是奇技淫巧 。
在安全帽项目中,由于实际安全帽图像过少,从谷歌爬取了大量安全帽相关图像(约3000张):
但是这些并不全是我们想要的“安全帽”,我们需要工地为背景,且工人类型的安全帽。
于是在自动分组中我们对这些图像细分为10个组(越大的分组数对数据集分组越细,能分离出更多噪声图像),以下为部分组的展示:
第0组
第1组
第4组
第9组
显然类似第1组和第9组的图片才是我们需要的结果,第1组和第4组浏览大致后可以全部删除,选择当前页并删除:
删掉噪声图像后,只剩下约1600张,过滤了快50%的图像:
当然如果还存在很多噪声,我们继续进行分组,对剩下的1640张图再自动分组10个类
可以看到,依旧有许多与安全帽不相干的图像如:
再一次浏览所有分组,对数据进行清洗,最终只剩下1008张图像,过滤了约65%的噪声图像,极大地降低了标注的压力。
点击这里→了解更多精彩内容
实战案例丨ModelArts在数据标注、数据过滤上的应用技巧:自动分组相关推荐
- R语言Kaplan-Meier绘制生存分析、Log-rank假设检验、Cox回归曲线实战案例:恶性黑色素瘤的术后数据生存分析
R语言Kaplan-Meier绘制生存分析.Log-rank假设检验.Cox回归曲线实战案例:恶性黑色素瘤的术后数据生存分析 目录
- python爬取喜马拉雅_Python爬虫实战案例之爬取喜马拉雅音频数据详解
这篇文章我们来讲一下在网站建设中,Python爬虫实战案例之爬取喜马拉雅音频数据详解.本文对大家进行网站开发设计工作或者学习都有一定帮助,下面让我们进入正文. 前言 喜马拉雅是专业的音频分享平台,汇集 ...
- Python实战案例:使用Pygame开发游戏翻牌子(上)
Python实战案例:使用Pygame开发游戏翻牌子(上) 一.翻牌子游戏介绍 翻牌子的原意是古代皇帝在晚上就寝时从三千佳丽中选择的某个女子,这里将它改版成对对碰.如果翻开第一张牌子后面的女子,再翻开 ...
- 实战案例丨GaussDB for DWS如何识别坏味道的SQL
摘要:SQL中的坏味道,你知道吗? SQL语言是关系型数据库(RDB)的标准语言,其作用是将使用者的意图翻译成数据库能够理解的语言来执行.人类之间进行交流时,同样的意思用不同的措辞会产生不同的效果. ...
- 数据可视化大屏百度地图绘制行政区域标注实战案例解析(个性化地图、标注、视频、控件、定位、检索)
百度地图开发系列目录 数据可视化大屏应急管理综合指挥调度系统完整案例详解(PHP-API.Echarts.百度地图) 数据可视化大屏百度地图API开发:停车场分布标注和检索静态版 百度地图高级开发:m ...
- 实战案例丨使用云连接CC和数据复制服务DRS实现跨区域RDS迁移和数据同步
[业务场景及诉求] 希望将不同区域"华北-北京四"的rds与"亚太-新加坡"的rds进行迁移和数据同步,网络配置使用云连接CC. [配置方法]: 1.资源准备: ...
- 新基建 数据中心样板案例丨中国联通贵安云数据中心微模块机房运营
联通云数据有限公司基于业务发展和联通集团的战略部署,在贵安新区电子信息产业园内建设了中国联通贵安云数据中心.贵安云数据中心是中国联通倾力打造的绿色环保.技术先进.运营稳定的大型综合信息服务基地.贵安云 ...
- 实战案例丨分布式系统中如何用python实现Paxos
本文分享自华为云社区<实战分布式系统-python实现Paxos>,原文作者:Leo Xiao . 一致性算法背景:Paxos 一致性算法解决的问题:分布式系统中数据不能存在单个节点(主机 ...
- 【华为云技术分享】实战案例丨代码优化:如何去除context中的warning?
在一个java语言群里面,有人抛了这么一段代码出来,问题是出现了下下图中的warning,问有什么好的方法消除 这种强转都是因为类型链条断掉了,写入的时候擦除了类型,读出来的时候也就只能强转了,那个i ...
最新文章
- 特斯拉到底颠覆了什么?
- SAP QM 模块主数据
- [转]详解编译预处理
- 纯CSS3实现GIF图片动画效果
- Python中关于split和splitext的差别和运用
- Swift的数组与OC中数组的区别
- JQUERY的appendappendTo
- 画胖小人和瘦小人,建造者模式版本
- 2021信阳高中高考成绩查询,河南省普通高中综合信息管理系统2021信阳中考成绩查询入口...
- perl中的uc与lc函数
- [工具向]__申请,下载,使用百度地图api
- php 股票数据 sina,使用Sina API获取新浪财经的证券股票数据接口(时价 K线等)
- PSP2000V3版5.03系统误删PSP文件夹的拯救方案
- 异常解决 java.lang.UnsupportedOperationException: Required method destroyItem was not overridden
- MATLAB怎么求非线性度误差,用Matlab进行最小二乘法线性拟合(求传感器非线性误差、灵敏度)...
- ArcGIS绘制矩形
- 直方图实现快速中值滤波opencv
- new BigDecimal比较大小
- photoshop插件制作_使用Photoshop更快地制作全景
- 1.结束进程的正确方式
热门文章
- 翼虎 android,福特翼虎成首款同时兼容CarPlay和Android Auto的车型
- udp服务器php代码例子,Java客户端PHP服务器UDP穿孔示例代码
- 改服务器的ip地址如何修改密码,服务器ip地址修改密码
- java数组比较的头文件_Java和C++的数组比较
- 保温杯哪种材质最好_哪种保温杯质量好?
- notepad文件太大打不开怎么办_U盘数据如何恢复?U盘打不开怎么办?
- linux 关闭防火墙 centos7,centos7关闭防火墙和selinux
- MFC之CString与const char* string 转换
- python调用远程chromedriver.exe、selenium抓包方法
- JSP开发环境配置问题解答