铜灵 编译整理
量子位 出品 | 公众号 QbitAI

就怕前脚刚立志搞个新研究,后脚就发现没有合适的数据集可用。AI工程师从入门到放弃,可能就是这么一会的功夫。

别找了,现在深度学习数据集也能自制了。

在这份教程中,来自fast.ai的小哥哥Francisco Ingham就想手把手教你,如何利用谷歌图片搜索,DIY一份自己的深度学习数据集出来,还不会违反谷歌服务条例。

整装待发,这样的好事其实需要六步就够了。

Let’s Go

第1步:搜索图像

非常简单,就像平时在谷歌图片中查找图像一样,输入关键词,搜索你感兴趣的图像。

谷歌图像最多显示700张图像,所以一页到底再点击“显示更多”,直到加载完毕。

小窍门:输入的关键词越精准,最后得到的数据集质量也越高。

第2步:下载图片

在浏览器中运行下面这段Javascript代码,创建数据集中所有图像的URL:

然后将这些URL保存到一个文件夹中,以备后用。

第3步:创建目录将URL传至服务器

上一步的成果,现在可以拿来用了。不过先得创建一个项目目录。作者将其命名为mkdir MyProject,不过“MyProject”可以替换成你喜欢的项目名字。

按下“Upload”键,将上传URL地址一键上传到这个目录中。

第4步:下载图像

上传到上面目录后,就能把它们从各自的URL下载下来,得到了初版数据集。

也不麻烦,,每个目录中都需要运行一次下面这段代码:

download_images(path/file, dest, max_pics=200)

只需要指定URL文件名和目标文件,就能自动下载保存,在本地就能打开图像了。

Tips:要下载图像的数量可以自己选择。

第5步:筛选图像

查看新鲜出炉的图像,可能会发现一些不需要的图像,此时就需要你手动去筛选和删除它们了。

如果一开始在谷歌搜索中的关键词没有设置好,那这一步可能得多费点时间喽。

第6步:准备训练目录

和数据集的众多兄弟姐妹一样,在开始使用它前,最好还是把里面的图片分成训练、验证和测试集。

过完这道坎,你就拥有了一个DIY的深度学习数据集了,此时有没有感觉赞赞的?

传送门

GitHub项目地址:

https://github.com/lesscomfortable/google-image-dataset

此外,Francisco Ingham还将教程搬到了fast.ai的课程仓库中,是用Jupyter Notebooks写成的。不过刚量子位看时还没有搬完。如果原地址找不到了,不妨来这里看看:

https://github.com/fastai/course-v3/blob/master/nbs/dl1/download_images.ipynb

条条大路通教程,祝你学有所得~

加入社群

量子位AI社群开始招募啦,欢迎对AI感兴趣的同学,在量子位公众号(QbitAI)对话界面回复关键字“交流群”,获取入群方式;

此外,量子位专业细分群(自动驾驶、CV、NLP、机器学习等)正在招募,面向正在从事相关领域的工程师及研究人员。

进专业群请在量子位公众号(QbitAI)对话界面回复关键字“专业群”,获取入群方式。(专业群审核较严,敬请谅解)

活动策划招聘

量子位正在招聘活动策划,将负责不同领域维度的线上线下相关活动策划、执行。欢迎聪明靠谱的小伙伴加入,并希望你能有一些活动策划或运营的相关经验。相关细节,请在量子位公众号(QbitAI)对话界面,回复“招聘”两个字。

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态

捡漏!用谷歌图片搜索自制深度学习数据集 | 教程相关推荐

  1. NLP+VS︱深度学习数据集标注工具、图像语料数据库、实验室搜索ing..

    一.NLP标注工具 来源:<构想:中文文本标注工具(附开源文本标注工具列表)> Chinese-Annotator   来源:https://github.com/crownpku/Chi ...

  2. NLP+VS︱深度学习数据集标注工具、图像语料数据库、实验室搜索ing....

    from: https://blog.csdn.net/sinat_26917383/article/details/54908389 一.NLP标注工具 来源:<构想:中文文本标注工具(附开源 ...

  3. 【图像标注】NLP+VS︱深度学习数据集标注工具、图像语料数据库、实验室搜索ing

    因为不太会使用opencv.matlab工具,所以在找一些比较简单的工具.  .  . 一.NLP标注工具BRAT BRAT是一个基于web的文本标注工具,主要用于对文本的结构化标注,用BRAT生成的 ...

  4. python爬取百度图片(用于深度学习中数据集的收集)

    6_python爬取百度图片(用于深度学习中数据集的收集)(6-20181225-) 参考: https://blog.csdn.net/guyuealian/article/details/7873 ...

  5. 自制深度学习推理框架-第七课-构建自己的计算图

    自制深度学习推理框架-第六课-构建自己的计算图 项目主页 https://github.com/zjhellofss/KuiperInfer 感谢大家点赞和PR, 这是对我最大的鼓励, 谢谢. 现在K ...

  6. 自制深度学习推理框架-第十一节-再探Tensor类并构建计算图的图关系

    自制深度学习推理框架-第十一节-再探Tensor类并准备算子的输入输出 本课程介绍 我写了一个<从零自制深度学习推理框架>的课程,课程语言是 C++,课程主要讲解包括算子实现和框架设计的思 ...

  7. 深度学习数据集标注工具、图像语料数据库等资源

    NLP+VS︱深度学习数据集标注工具.图像语料数据库.实验室搜索ing... 2017年02月07日 12:12:01 阅读数:27032 ~~因为不太会使用opencv.matlab工具,所以在找一 ...

  8. 使用华为云跑自己的深度学习模型教程

    使用华为云跑自己的深度学习模型教程 文章目录 使用华为云跑自己的深度学习模型教程 前言 一.创建访问密钥? 二.创建数据集OBS桶 (一)什么是OBS桶 (二)创建OBS桶 三.上传数据到OBS桶 ( ...

  9. Pytorch 深度学习实战教程(二):UNet语义分割网络

    本文 GitHub https://github.com/Jack-Cherish/PythonPark 已收录,有技术干货文章,整理的学习资料,一线大厂面试经验分享等,欢迎 Star 和 完善. 一 ...

最新文章

  1. telegram bot 机器人 发送 加粗 斜体 字体
  2. R语言:na.fail和na.omit
  3. C++ 动态线性表的顺序存储结构(数组实现)
  4. Lang.NEXT 2012相关Session
  5. 常用的富文本编辑器推荐
  6. CleanMyMac for mac之偏好设置
  7. Spoonwep破解wep加密无线路由密码
  8. Linux实用代码--文件系统操作
  9. 3.linux(ubuntu)常用服务器搭建
  10. 解决IIS无法启动w3svc
  11. node.js(五)项目创建管理
  12. 毕设题目:Matlab图像隐写
  13. 监听程序当前无法识别连接描述符中请求的服务_Linux I/O复用中select poll epoll模型的介绍及其优缺点的比较...
  14. 国际大牌在中国的故事
  15. 2021-04-17
  16. 让你更值钱的方法:培养稀缺
  17. 面向对象(高级)章节练习题
  18. WPF的打印原理 实现打印页眉页脚和打印预览
  19. 业务范围(business area)
  20. SAR 三点回波模拟 正侧视RD算法(经典好用)

热门文章

  1. Eclipse 有望超越 Visual Studio!
  2. 大前端时代下,如何成为一名优秀的程序员?
  3. 台式电脑计算机能创建新磁盘吗,解决方案:如何添加硬盘以扩展台式计算机上的存储空间|如何对新添加的硬盘进行分区...
  4. r语言dataellipse_R语言绘图:28个实用程序包
  5. mysql锁机制原理,一招彻底弄懂!
  6. php imagedashedline,如何用php作线形图的函数
  7. android radiobutton底部导航,android中Fragment+RadioButton实现底部导航栏
  8. ddmmyy日期格式是多少_DDMMYY什么意思?
  9. 用python编程输入三角形的三条边判断是否构成三角形_vb三角形编程输入三条边,判断能否构成三角形.看我的编程是否有问题,...
  10. springboot不会运行gc_SpringBoot 深度调优,让你的项目飞起来!