深度学习 场景识别

Recognizing the environment in one glance is one of the human brain’s most accomplished deeds. While the tremendous recent progress in object recognition tasks originates from the availability of large datasets such as COCO and the rise of Convolution Neural Networks ( CNNs) to learn high-level features, scene recognition performance has not achieved the same level of success.

一眼认清环境是人类大脑最成就的事迹之一。 尽管最近在对象识别任务中取得的巨大进步源于大型数据集(例如COCO)的可用性以及卷积神经网络(CNN)的兴起,以学习高级功能,但场景识别性能并未达到相同的成功水平。

In this blog post, we will see how classification models perform on classifying images of a scene. For this task, we have taken the Places365-Standard dataset to train the model. This dataset has 1,803,460 training images and 365 classes with the image number per class varying from 3,068 to 5,000 and size of images is 256*256.

在此博客文章中,我们将看到分类模型如何对场景图像进行分类。 为此,我们采用了Places365-Standard数据集来训练模型。 该数据集包含1,803,460个训练图像和365个类别,每个类别的图像编号从3,068到5,000不等,图像大小为256 * 256。

安装和下载数据 (Installing and Downloading the data)

Let’s start by setting up Monk and its dependencies:

让我们开始设置Monk及其依赖项:

!git clone https://github.com/Tessellate-Imaging/monk_v1.git! cd monk_v1/installation/Linux && pip install -r requirements_cu9.txt

After installing the dependencies, I downloaded the Places365-Standard dataset which is available to download from here.

安装依赖项后,我下载了Places365-Standard数据集,可从此处下载该数据集。

创建实验 (Create an Experiment)

I have created an experiment, and for this task, I used mxnet gluon back-end.

我创建了一个实验,为此任务,我使用了mxnet gluon后端。

import osimport syssys.path.append("monk_v1/monk/");from gluon_prototype import prototypegtf = prototype(verbose=1);gtf.Prototype("Places_365", "Experiment");

选型与培训 (Model Selection and Training)

I experimented with various models like resnet, densenet, inception, vgg16, and many more but only vgg16 gives the greater validation accuracy than any other model.

我尝试了各种模型,如resnet,densnet,inception,vgg16等,但只有vgg16可以提供比其他任何模型都更高的验证精度。

gtf.Default(dataset_path="train/",            path_to_csv="labels.csv",            model_name="vgg16",            freeze_base_network=False,            num_epochs=20);gtf.Train();

After training for 20 epoch I got the training accuracy of 65% and validation accuracy of 53%.

经过20个时期的训练,我得到了65%的训练准确度和53%的验证准确度。

预测 (Prediction)

gtf = prototype(verbose=1);gtf.Prototype("Places_365", "Experiment", eval_infer=True);img_name = "test_256/Places365_test_00208427.jpg" predictions = gtf.Infer(img_name=img_name);from IPython.display import ImageImage(filename=img_name)
Prediction on test images
对测试图像的预测
img_name = "test_256/Places365_test_00151496.jpg" predictions = gtf.Infer(img_name=img_name);from IPython.display import ImageImage(filename=img_name)
Prediction on test images
对测试图像的预测

After this, I tried to find out why the accuracy has not improved more than what I got. Some of the possible reasons are:

此后,我试图找出为什么精度没有比我得到的提高更多的原因。 一些可能的原因是:

Incorrect Labels:- While inspecting the training folder, there are images that have incorrect labels like baseball_field has the wrong image. There are many more incorrect labels.

标签不正确:-检查训练文件夹时,有些图像的标签不正确,例如balloon_field的图像错误。 还有更多不正确的标签。

Wrong Image in baseball_field
棒球场中的图片有误
img=mpimg.imread(“images/train/baseball_field2469.jpg”)imgplot = plt.imshow(img)

Unclear Scenes:- Due to various similar classes that share similar objects like dining_room and dining_hall, forest_road and field_road, there are unclear images that are very hard to classify.

不清楚的场景:-由于共享相似对象的各种相似类(例如Dining_room和Dining_hall,forest_road和field_road),存在难以分类的模糊图像。

Label: field_road
标签:field_road
Label: forest_road
标签:forest_road

As we can see it is very hard to classify these 2 images.

如我们所见,很难对这两个图像进行分类。

Multiple Scene Parts:- Images consist of multiple scenes parts can not be classified into one category like buildings near the ocean. These scenes can be hard to classify and require more ground truth labels for describing the environment.

多个场景部分:-由多个场景部分组成的图像无法分类为一类,例如海洋附近的建筑物。 这些场景可能难以分类,并且需要更多地面真实性标签来描述环境。

To summarize, this blog post has shown how we can use deep learning networks to perform a natural scene classification and why scene recognition performance has not achieved the same level of success as that of object recognition.

总而言之,这篇博客文章显示了我们如何使用深度学习网络执行自然的场景分类,以及为什么场景识别性能没有达到与对象识别相同的成功水平。

翻译自: https://towardsdatascience.com/natural-scene-recognition-using-deep-learning-91b6ba86bad5

深度学习 场景识别


http://www.taodudu.cc/news/show-4243414.html

相关文章:

  • 遥感场景识别数据集(场景分类)
  • TRecgNet:基于转换识别网络进行RGB-D场景识别
  • Linux运维之windows2008R2远程连接问题
  • [服务器]Windows server 2008 R2远程桌面授权破解方法
  • windows server 2008 enterprise r2 x64 激活小记
  • 根据NSDate得到农历的年份(包括生肖) 、月、日。
  • 命中有时终须有,命中无时莫强求--命理理论
  • 天干、地支纪年 月 日
  • 农历2017年8月初4_2017年8月25日
  • 戊辰年
  • Mysql sql 对行数据求和
  • SQL 相加求和
  • 一条SQL返回多个统计求和
  • Oracle sql 对多个sql count的值再求和
  • SQL分类累计求和
  • SQL累计求和
  • sql子表求和在总表中显示,并参与搜索
  • php sql多字段求和,JSP_sql实现多字段求和并查询,下面就sql多字段求和并作为sql - phpStudy...
  • 不同情况下的sql求和
  • mysql中null值求和_sql求和涉及到null值
  • sql求和出现null时赋值为0
  • Linq to sql 求和操作
  • sql 纵向求和_SQL中求和函数SUM()的应用实例
  • sql 纵向求和_SQL语句求和语句该怎么编写?有几种方法?
  • SQL统计求和
  • sql 纵向求和_SQL 累计求和
  • sql 求和并且将求和条件作为查询条件
  • sql 纵向求和_SQL求和
  • sql之累计求和
  • sql数值求和

深度学习 场景识别_使用深度学习进行自然场景识别相关推荐

  1. 手语识别_使用深度学习进行手语识别

    手语识别 TL;DR It is presented a dual-cam first-vision translation system using convolutional neural net ...

  2. 深度学习 情感分析_使用深度学习进行情感分析

    深度学习 情感分析 介绍 (Introduction) The growth of the internet due to social networks such as Facebook, Twit ...

  3. 深度学习实现象棋_使用深度学习创建国际象棋人工智能

    深度学习实现象棋 When Gary Kasparov was dethroned by IBM's Deep Blue chess algorithm, the algorithm did not ...

  4. 深度学习多模态融合_多模态深度学习综述.PDF

    多模态深度学习综述.PDF 37 6 Vol. 37 No. 6 第 卷第 期 计算机应用研究 录用定稿 Application Research of Computers Accepted Pape ...

  5. 深度学习基础知识_数学基础(学习笔记)

    线性代数 向量.矩阵.矩阵计算,矩阵的秩,范数 了解更多可以参考: 哔哩哔哩: 晓之车高山老师 https://space.bilibili.com/138962930/channel/collect ...

  6. 深度相机 物体三维重建_基于深度相机进行室内完整场景三维重建的方法及系统_2017100513665_说明书_专利查询_专利网_钻瓜专利网...

    S121:采用Kintinuous框架,进行视觉里程计估计,得到每帧深度图像下的相机位姿信息. S122:根据相机位姿信息,将由每帧深度图像对应的点云数据反投影到初始坐标系下,用投影后得到的深度图像与 ...

  7. 深度相机 物体三维重建_基于深度相机的实时物体三维重建方法与流程

    本发明涉及三维成像领域,特别是一种能够实时地对物体或人体进行三维重建的方法. 背景技术: 三维重建技术一直是计算机图形学和计算机视觉领域的热点课题.三维重建就是从输入数据中建立3D模型.随着各种面向普 ...

  8. 如何使用python人脸识别_如何利用python进行精准人脸识别

    2017-10-21 回答 1.1.介绍introduction 从opencv2.4开始,加入了新的类facerecognizer,我们可以使用它便捷地进行人脸识别实验.本文既介绍代码使用,又介绍算 ...

  9. 楚留香ai人脸识别_戴口罩居然也能人脸识别?这些AI黑科技真的藏不住了.........

    当人工智能遇见影像技术,将会释放出多少意想不到的巨大能量? 「喔图·知图实验室」瞄准当下的影像痛点,持续发力升级AI黑科技,带来两大必杀技--人脸识别再度升级.AI智能旋转校正. 戴口罩也能识别--人 ...

  10. python名片识别_百度AI攻略:名片识别

    1.功能描述: 支持对各类名片的9个关键字段进行结构化识别,包括姓名.公司.职位.邮编.邮箱.电话.网址.地址.手机号.使用名片识别技术,实现对用户名片关键信息的结构化识别和录入,可应用于线下会议.论 ...

最新文章

  1. GAN简介及其常见应用
  2. 算法复习——凸包加旋转卡壳(poj2187)
  3. onethink封装arclist调用文章列表!
  4. 什么是序列化?python pickle模块
  5. E2017E0605-hm
  6. java 如何发提示_消息提醒-如何实现收到待办给QQ发送提醒?
  7. 计算两个日期相差的天数,Calendar用法
  8. 监视和调整Linux网络协议栈:发送数据
  9. ubuntu下安装绿联的AC650网卡驱动
  10. TCP/IP模型背后的内涵
  11. 老公老婆之间的道歉。。。有点幽默有点感动
  12. 农民抗征地住帐篷夜间起火1死3伤
  13. 学python必须得英语精通吗_Python无用武之地?只能说你是真的没有精通Python语言(附教程)...
  14. 再见了 SELECT * !大厂的 MySQL 查询优化方案,确实牛逼!
  15. 微软求职攻略之笔试答疑
  16. Cadence Allegro导出BOM清单图文教程及视频演示
  17. ubuntu下tree命令的使用
  18. PyTorch单机多卡分布式训练教程及代码示例
  19. 上传身份证照片js_js上传身份证正反面
  20. 给未来的你 — 李开复在2011级大学新生学习规划讲座上的演讲

热门文章

  1. JAVA实现简单超市收银系统、控制台输入
  2. python写excel标记文字颜色_[知识积累]python3使用xlwt时写入文档字体颜色和边框样式--转载...
  3. 少年派的计算机游戏怎么弄,少年派的无聊之旅攻略大全图文详解
  4. Cache简介(一)
  5. SpringMvc+饿了么UI组件+七牛云做图片上传
  6. 【CSS3】一文搞懂盒子模型(知识点加案例)
  7. 人类第一位女教授的传奇一生
  8. 【关键字】ddx ddy 导数函数
  9. 华为 日志服务器 配置文件,华为设置日志服务器配置
  10. 情感分析(判断文章正负向)