捡漏!用谷歌图片搜索自制深度学习数据集 | 教程
铜灵 编译整理
量子位 出品 | 公众号 QbitAI
就怕前脚刚立志搞个新研究,后脚就发现没有合适的数据集可用。AI工程师从入门到放弃,可能就是这么一会的功夫。
别找了,现在深度学习数据集也能自制了。
在这份教程中,来自fast.ai的小哥哥Francisco Ingham就想手把手教你,如何利用谷歌图片搜索,DIY一份自己的深度学习数据集出来,还不会违反谷歌服务条例。
整装待发,这样的好事其实需要六步就够了。
Let’s Go
第1步:搜索图像
非常简单,就像平时在谷歌图片中查找图像一样,输入关键词,搜索你感兴趣的图像。
谷歌图像最多显示700张图像,所以一页到底再点击“显示更多”,直到加载完毕。
小窍门:输入的关键词越精准,最后得到的数据集质量也越高。
第2步:下载图片
在浏览器中运行下面这段Javascript代码,创建数据集中所有图像的URL:
然后将这些URL保存到一个文件夹中,以备后用。
第3步:创建目录将URL传至服务器
上一步的成果,现在可以拿来用了。不过先得创建一个项目目录。作者将其命名为mkdir MyProject,不过“MyProject”可以替换成你喜欢的项目名字。
按下“Upload”键,将上传URL地址一键上传到这个目录中。
第4步:下载图像
上传到上面目录后,就能把它们从各自的URL下载下来,得到了初版数据集。
也不麻烦,,每个目录中都需要运行一次下面这段代码:
download_images(path/file, dest, max_pics=200)
只需要指定URL文件名和目标文件,就能自动下载保存,在本地就能打开图像了。
Tips:要下载图像的数量可以自己选择。
第5步:筛选图像
查看新鲜出炉的图像,可能会发现一些不需要的图像,此时就需要你手动去筛选和删除它们了。
如果一开始在谷歌搜索中的关键词没有设置好,那这一步可能得多费点时间喽。
第6步:准备训练目录
和数据集的众多兄弟姐妹一样,在开始使用它前,最好还是把里面的图片分成训练、验证和测试集。
过完这道坎,你就拥有了一个DIY的深度学习数据集了,此时有没有感觉赞赞的?
传送门
GitHub项目地址:
https://github.com/lesscomfortable/google-image-dataset
此外,Francisco Ingham还将教程搬到了fast.ai的课程仓库中,是用Jupyter Notebooks写成的。不过刚量子位看时还没有搬完。如果原地址找不到了,不妨来这里看看:
https://github.com/fastai/course-v3/blob/master/nbs/dl1/download_images.ipynb
条条大路通教程,祝你学有所得~
— 完 —
加入社群
量子位AI社群开始招募啦,欢迎对AI感兴趣的同学,在量子位公众号(QbitAI)对话界面回复关键字“交流群”,获取入群方式;
此外,量子位专业细分群(自动驾驶、CV、NLP、机器学习等)正在招募,面向正在从事相关领域的工程师及研究人员。
进专业群请在量子位公众号(QbitAI)对话界面回复关键字“专业群”,获取入群方式。(专业群审核较严,敬请谅解)
活动策划招聘
量子位正在招聘活动策划,将负责不同领域维度的线上线下相关活动策划、执行。欢迎聪明靠谱的小伙伴加入,并希望你能有一些活动策划或运营的相关经验。相关细节,请在量子位公众号(QbitAI)对话界面,回复“招聘”两个字。
量子位 QbitAI · 头条号签约作者
վ'ᴗ' ի 追踪AI技术和产品新动态
捡漏!用谷歌图片搜索自制深度学习数据集 | 教程相关推荐
- NLP+VS︱深度学习数据集标注工具、图像语料数据库、实验室搜索ing..
一.NLP标注工具 来源:<构想:中文文本标注工具(附开源文本标注工具列表)> Chinese-Annotator 来源:https://github.com/crownpku/Chi ...
- NLP+VS︱深度学习数据集标注工具、图像语料数据库、实验室搜索ing....
from: https://blog.csdn.net/sinat_26917383/article/details/54908389 一.NLP标注工具 来源:<构想:中文文本标注工具(附开源 ...
- 【图像标注】NLP+VS︱深度学习数据集标注工具、图像语料数据库、实验室搜索ing
因为不太会使用opencv.matlab工具,所以在找一些比较简单的工具. . . 一.NLP标注工具BRAT BRAT是一个基于web的文本标注工具,主要用于对文本的结构化标注,用BRAT生成的 ...
- python爬取百度图片(用于深度学习中数据集的收集)
6_python爬取百度图片(用于深度学习中数据集的收集)(6-20181225-) 参考: https://blog.csdn.net/guyuealian/article/details/7873 ...
- 自制深度学习推理框架-第七课-构建自己的计算图
自制深度学习推理框架-第六课-构建自己的计算图 项目主页 https://github.com/zjhellofss/KuiperInfer 感谢大家点赞和PR, 这是对我最大的鼓励, 谢谢. 现在K ...
- 自制深度学习推理框架-第十一节-再探Tensor类并构建计算图的图关系
自制深度学习推理框架-第十一节-再探Tensor类并准备算子的输入输出 本课程介绍 我写了一个<从零自制深度学习推理框架>的课程,课程语言是 C++,课程主要讲解包括算子实现和框架设计的思 ...
- 深度学习数据集标注工具、图像语料数据库等资源
NLP+VS︱深度学习数据集标注工具.图像语料数据库.实验室搜索ing... 2017年02月07日 12:12:01 阅读数:27032 ~~因为不太会使用opencv.matlab工具,所以在找一 ...
- 使用华为云跑自己的深度学习模型教程
使用华为云跑自己的深度学习模型教程 文章目录 使用华为云跑自己的深度学习模型教程 前言 一.创建访问密钥? 二.创建数据集OBS桶 (一)什么是OBS桶 (二)创建OBS桶 三.上传数据到OBS桶 ( ...
- Pytorch 深度学习实战教程(二):UNet语义分割网络
本文 GitHub https://github.com/Jack-Cherish/PythonPark 已收录,有技术干货文章,整理的学习资料,一线大厂面试经验分享等,欢迎 Star 和 完善. 一 ...
最新文章
- telegram bot 机器人 发送 加粗 斜体 字体
- R语言:na.fail和na.omit
- C++ 动态线性表的顺序存储结构(数组实现)
- Lang.NEXT 2012相关Session
- 常用的富文本编辑器推荐
- CleanMyMac for mac之偏好设置
- Spoonwep破解wep加密无线路由密码
- Linux实用代码--文件系统操作
- 3.linux(ubuntu)常用服务器搭建
- 解决IIS无法启动w3svc
- node.js(五)项目创建管理
- 毕设题目:Matlab图像隐写
- 监听程序当前无法识别连接描述符中请求的服务_Linux I/O复用中select poll epoll模型的介绍及其优缺点的比较...
- 国际大牌在中国的故事
- 2021-04-17
- 让你更值钱的方法:培养稀缺
- 面向对象(高级)章节练习题
- WPF的打印原理 实现打印页眉页脚和打印预览
- 业务范围(business area)
- SAR 三点回波模拟 正侧视RD算法(经典好用)
热门文章
- Eclipse 有望超越 Visual Studio!
- 大前端时代下,如何成为一名优秀的程序员?
- 台式电脑计算机能创建新磁盘吗,解决方案:如何添加硬盘以扩展台式计算机上的存储空间|如何对新添加的硬盘进行分区...
- r语言dataellipse_R语言绘图:28个实用程序包
- mysql锁机制原理,一招彻底弄懂!
- php imagedashedline,如何用php作线形图的函数
- android radiobutton底部导航,android中Fragment+RadioButton实现底部导航栏
- ddmmyy日期格式是多少_DDMMYY什么意思?
- 用python编程输入三角形的三条边判断是否构成三角形_vb三角形编程输入三条边,判断能否构成三角形.看我的编程是否有问题,...
- springboot不会运行gc_SpringBoot 深度调优,让你的项目飞起来!