什么是深度学习?

深度学习是一系列机器学习的方法集合,其算法结构类似于多层级的神经网络。通过对大量的训练样本图像的学习,提取其各个层次的特征,使网络具有判别和推理能力。

深度学习它的主要工作是什么?

如下图,假设黑色圆与白色圆为两种物体,它们在某一 由两种特征建立的二维坐标系上的分布如下。图中的红色曲线就是深度学习算法做的事情(将两种物体尽可能的在特征分布上划分开来),具体的可翻阅文献。

深度学习是不是必要的?

举个例子我们在做分拣工作,一堆螺丝和螺母散落在托盘上需要通过机器进行分拣工作,通过观察我们得到如下特征:螺丝是长条的螺母是圆的,我们完全可以通过这些特征直接写上几行算法完事根本不需要用到深度学习技术。但是当环境特别复杂,一般的算法无法或者很难达到要求时我们就可以使用到深度学习技术。

深度学习的优点与缺点?

缺点:

需要大量的训练样本

训练耗时较长

需要一定的硬件支持

。。。

优点:

黑箱操作,非常简单

能满足复杂环境的需要

只需要标注样本进行训练

。。。

关于halcon中的深度学习:

自halcon17版本开始,halcon就引用了深度学习这一技术应用到图像处理中,为机器视觉行业提升了一个很大的空间和解决方法。

halcon引用这个深度学习技术在halcon中它也是一个黑箱的,只要把模型需要的数据给到即可,使用步骤如下(安装步骤以及环境需要就不提了):

1、准备网络和数据

      (1)、读取halcon自带的网络模型

      (2)、明确网络需求

      (3)、数据预处理

      (4)、数据集分割

以halcon17来说,halcon自带有两个网络模型,分别是:

pretrained_dl_classifier_compact.hdl

pretrained_dl_classifier_enhanced.hdl

按照halcon官方文档解释说这两种模型,前者相对于后者要简单很多(网络结构上),后者网络结构比较复杂能适用于较为复杂的训练和判断,然后在消耗上后者代价大于前者。

关于这两个模型对数据的要求可以通过get_dl_classifier_param算子查看:

*读取网络模型
read_dl_classifier ('pretrained_dl_classifier_compact.hdl', DLClassifierHandle)
*读取网络需要的图片大小
get_dl_classifier_param (DLClassifierHandle, 'image_width', DlImageWidth)
get_dl_classifier_param (DLClassifierHandle, 'image_height', DlImageHeight)
*读取网络需要的图片通道数
get_dl_classifier_param (DLClassifierHandle, 'image_num_channels', DlNumChannels)
*读取网络需要的图片灰度值范围
get_dl_classifier_param (DLClassifierHandle, 'image_range_min', DlRangeMin)
get_dl_classifier_param (DLClassifierHandle, 'image_range_max', DlRangeMax)

这样一来我们的训练样本图就要做一个预处理,把每个样本图才处理成224*224分辨率、3通道、-127到128亮度级图像。

halcon也提供了一个算子将样本图预处理成满足要求的样本图:preprocess_dl_fruit_example。不过这个算子是有很大局限的,也可以采用下面方法:

for I := 0 to |RawImageFiles| - 1 by 1*读取样本文件read_image (Image, RawImageFiles[I])*将图片缩放到网络model需求的大小zoom_image_size (Image, Image, DlImageWidth, DlImageHeight, 'constant')*将图像的灰度缩放成网络model需求范围convert_image_type (Image, Image, 'real')RescaleRange:=(DlRangeMax - DlRangeMin)/255.0scale_image (Image, Image, RescaleRange, DlRangeMin)*合成三通道图片count_obj (Image, Number)for Index := 1 to Number by 1select_obj (Image, ObjectSelected, Index)count_channels (ObjectSelected, Channel)*如果图片不是三通道图,就需要将图像合成三通道图if (Channel != DlNumChannels)compose3(ObjectSelected, ObjectSelected, ObjectSelected, ThreeChannelImage)*替换图元数组replace_obj (Image, ThreeChannelImage, Image, 1)endifendfor* Write preprocessed image to hobj file.write_object (Image, ObjectFilesOut[I])endfor
read_dl_classifier_data_set (PreprocessedFolder, 'last_folder', ImageFiles, Labels, LabelsIndices, Classes) **拆分数据集**
*训练占比
TrainingPercent := 70
*验证占比
ValidationPercent := 15
*将数据分割成三大块,分别为:训练集(TrainingImages, TrainingLabels)、验证集(ValidationImages, ValidationLabels)、测试集(TestImages, TestLabels)
split_dl_classifier_data_set (ImageFiles, Labels, TrainingPercent, ValidationPercent, TrainingImages, TrainingLabels, ValidationImages, ValidationLabels, TestImages, TestLabels)
stop ()

最后可将这些预处理好的文件写出hobj文件保存到外部文件备,也可以通过split_dl_classifier_data_set算子将数据集分割成:训练集、验证集、测试集三份,分别会在后续步骤中使用到。

2、训练网络并评估训练过程

    (1)、设置适合训练需要的网络参数

    (2)、对数据进行增强和扩充

    (3)、开始训练并对训练过程进行评估

超参数是一种人为设置的超参数,它不同于网络模型参数可以在训练中进行评估和优化。也可以理解成为了干预这个“黑盒”过程而暴露出的必要参数,比如说'batch_size'的值决定了学习过程输入的每批次的数据量。。。

关于超参数介绍表:

设置好超参数后可以直接使用到halcon提供的 train_fruit_classifier 算子,这个算子内部包括了训练过程以及将训练好的模型序列化到外部。

**设置超参数**
set_dl_classifier_param (DLClassifierHandle, 'classes', Classes) BatchSize := 64
set_dl_classifier_param (DLClassifierHandle, 'batch_size', BatchSize) try *初始化网络模型set_dl_classifier_param (DLClassifierHandle, 'runtime_init', 'immediately')
catch (Exception) dev_disp_error_text (Exception) stop ()
endtry *学习率
InitialLearningRate := 0.001
set_dl_classifier_param (DLClassifierHandle, 'learning_rate', InitialLearningRate) *学习率变化参数
LearningRateStepEveryNthEpoch := 30
LearningRateStepRatio := 0.1 *迭代次数
NumEpochs := 50 **训练分类器**
dev_clear_window ()
* 每次迭代的间隔,它会体现在学习过程中的图标上的‘x’轴
PlotIterationInterval := 100
*将训练好的网络模型序列化
FileName := 'classifier_minist.hdl'
*训练模型
train_fruit_classifier (DLClassifierHandle, FileName, NumEpochs, TrainingImages, TrainingLabels, ValidationImages, ValidationLabels, LearningRateStepEveryNthEpoch, LearningRateStepRatio, PlotIterationInterval, WindowHandle)
dev_disp_text ('Press Run (F5) to continue', 'window', 'bottom', 'right', 'black', [], []) *清除网络句柄
clear_dl_classifier (DLClassifierHandle)
stop ()

如果是调用train_fruit_classifier算子进行系统训练,它会反馈一张图标:

图中两条不断下降的曲线分别是训练过程和验证过程中的错误率曲线,两条线的走势都向0趋近且较为平稳说明这次训练过程中二者的收敛得很好;另一条线先保持水平,到达一定迭代次数后才发生急剧下降的是学习率曲线,表示训练过程已经趋近于稳定了。

为了验证训练结果即评估网络的性能如何,可以观察不同的样本对训练过程的影响。调整learning_rate(学习率)和momentum(动量)两个参数,可以观察迭代过程中错误率和学习率的变化情况。如果知道图像的实际标注信息,可以与网络模型的预测结果做对比,得到正样本与负样本的预测正确率。

或者直接观察反馈图像是否 欠拟合 和 过拟合 。首先,一个网络在学习过程中遇到新的样本时的学习能力称为泛化。好的网络模型泛化性能良好,可以在实际检测中对新样本进行良好的预测。因此在评价网络性能时,泛化能力是一个重要的考量,由此有两个术语:欠拟合和过拟合。

欠拟合,一般是因为训练样本的不足等原因产生的,导致模型在训练集上的误差较大(错误率高)。可以通过增加训练样本或增加特征维度解决。

过拟合,一般是因为模型过度学习了训练样本,导致泛化能力变差,在遇到新的样本上表现较差。过度学习有可能学习过多的特征,甚至把样本的噪声等细节也当成特征。

过拟合的曲线通常表现为以下式样(错误率下降一定程度后急剧上升):

3、应用网络与评估网络

混淆矩阵

*读取序列化网络模型
read_dl_classifier (FileName, DLClassifierHandle)
*计算混淆矩
get_error_for_confusion_matrix (ValidationImages, DLClassifierHandle, Top1ClassValidation)
*生成混淆矩模型
gen_confusion_matrix (ValidationLabels, Top1ClassValidation, [], [], WindowHandle, ConfusionMatrix)
dev_disp_text ('Validation data', 'window', 'top', 'left', 'gray', 'box', 'false')
dev_disp_text ('Press Run (F5) to continue', 'window', 'bottom', 'right', 'black', [], [])
stop ()
*清除混淆矩句柄
clear_matrix (ConfusionMatrix)
dev_clear_window ()
clear_dl_classifier (DLClassifierHandle)

下图的结果是我在训练0到9的数字图片样本,其中每个样本文件夹中都有300个样本图片,这3000个图片当中拿出预设的15%(450张)分量的图片样本作为验证集数据得到的混淆矩阵。

混淆矩阵的含义:如果知道图像的实质标注信息,可以与网络模型的预测结果进行对比,得出正样本与负样本的预测正确率。混淆矩阵就是这样一种直观地显示判断结果的工具。

在halcon中,混淆矩阵的每一列代表原图像的真实分类,每一行表示网络预测的结果。混淆矩阵显示了以下分类结果:

1、真正列(TP):属于某类并被预测为某类

2、假正列(FP):不属于某类却被预测为某类

3、真反列(TN):不属于某类,也没被预测为某类

4、假反列(FN):属于某类,却被预测为不属于某类

于是结合反馈的混淆矩阵数据我们可以计算出 精度、召回率、F-Score,它们的公式分别是:

精度=TP/(TP+FP);

召回率=TP/(TP+FN);

F-Score=2(精度*召回率) / (精度+召回率)

从0的分类器上看,TP=44;FP=0;FN=1 => 精度=1;召回率≈0.977

从1的分类器上看,TP=44;FP=0;FN=1 => 精度=1;召回率≈0.977

从2的分类器上看,TP=41;FP=2;FN=4 => 精度≈0.953;召回率≈0.911

。。。

如果一个分类器具有高精度、低召回率,那么该分类器可能识别出了很少的正样本,但是这些正样本的正确率很高;相反,如果该分类器具有低精度、高召回率,那么该分类器能识别出大部分的正样本,但是这些正样本的结果也可能包含了很多误识别的负样本。所以,一个理想的情况是:分类器实现高精度、高召回率。

4、实际检测

注意,当我们把要识别的图片给到之前训练好的模型中去的时候也需要将图片预处理成模型需要的类型和大小,否则报错。

*读取训练好的模型
read_dl_classifier (FileName, DLClassifierHandle)*限制每次识别图像为1个
set_dl_classifier_param (DLClassifierHandle, 'batch_size', 1)
* 初始化网络环境
set_dl_classifier_param (DLClassifierHandle, 'runtime_init', 'immediately')
*
dev_resize_window_fit_size (0, 0, WindowWidth, WindowHeight, -1, -1)set_display_font (WindowHandle, 30, 'mono', 'true', 'false')for Index := 0 to 10 by 1ImageFile := RawImageFiles[floor(rand(1) * |RawImageFiles|)]read_image (Image, ImageFile)*将图片缩放到网络model需求的大小zoom_image_size (Image, Image, DlImageWidth, DlImageHeight, 'constant')*将图像的灰度缩放成网络model需求范围convert_image_type (Image, Image, 'real')RescaleRange:=(DlRangeMax - DlRangeMin)/255.0scale_image (Image, Image, RescaleRange, DlRangeMin)count_channels (Image, Channel)*如果图片不是三通道图,就需要将图像合成三通道图if (Channel != DlNumChannels)compose3(Image, Image, Image, Image)endif*使用已经训练号的深度学习网络识别一组图像apply_dl_classifier (Image, DLClassifierHandle, DLClassifierResultHandle)*获取识别结果get_dl_classifier_result (DLClassifierResultHandle, 'all', 'predicted_classes', PredictedClass)*清除当前识别的句柄clear_dl_classifier_result (DLClassifierResultHandle)* dev_display (Image)Text := 'Predicted class: ' + PredictedClassdev_disp_text (Text, 'window', 'top', 'left', 'red', 'box', 'false')dev_disp_text ('Press Run (F5) to continue', 'window', 'bottom', 'right', 'black', [], [])stop ()
endfor
clear_dl_classifier (DLClassifierHandle)

效果展示:

。。。。

然后从百度图库中下载几张图片进行训练(分了4类,每类10张图片):

效果:

注:部分文献参考于《机器视觉算法原理与编程实践》

halcon中的深度学习相关推荐

  1. 在浏览器中进行深度学习:TensorFlow.js (四)用基本模型对MNIST数据进行识别

    2019独角兽企业重金招聘Python工程师标准>>> 在了解了TensorflowJS的一些基本模型的后,大家会问,这究竟有什么用呢?我们就用深度学习中被广泛使用的MINST数据集 ...

  2. 在OpenCV中基于深度学习的边缘检测

    点击上方"小白学视觉",选择加"星标"或"置顶" 重磅干货,第一时间送达 本文转自:AI算法与图像处理 导读 分析了Canny的优劣,并给出 ...

  3. 综述:NLP中的深度学习优势

    [简介]自然语言处理(NLP)能够帮助智能型机器更好地理解人类的语言,实现基于语言的人机交流.目前随着计算能力的发展和大量语言数据的出现,推动了使用数据驱动方法自动进行语义分析的需求.由于深度学习方法 ...

  4. 我的机器学习入门之路(中)——深度学习(自然语言处理)

    继上一篇<我的机器学习入门之路(上)--传统机器学习>,这一篇博客主要记录深度学习(主要是自然语言处理)这一块内容的学习过程.以下均将自然语言处理简称NLP. 这一块内容的学习路线分为三部 ...

  5. 图像识别中的深度学习【香港中文大学王晓刚】

    深度学习发展历史 深度学习是近十年来人工智能领域取得的重要突破.它在语音识别.自然语言处理.计算机视觉.图像与视频分析.多媒体等诸多领域的应用取得了巨大成功.现有的深度学习模型属于神经网络.神经网络的 ...

  6. 在浏览器中进行深度学习:TensorFlow.js (十二)异常检测算法

    2019独角兽企业重金招聘Python工程师标准>>> 异常检测是机器学习领域常见的应用场景,例如金融领域里的信用卡欺诈,企业安全领域里的非法入侵,IT运维里预测设备的维护时间点等. ...

  7. 如何在TensorFlow中通过深度学习构建年龄和性别的多任务预测器

    by Cole Murray 通过科尔·默里(Cole Murray) In my last tutorial, you learned about how to combine a convolut ...

  8. 使用TensorFlow.js在浏览器中进行深度学习入门

    目录 设置TensorFlow.js 创建训练数据 检查点 定义神经网络模型 训练AI 测试结果 终点线 内存使用注意事项 下一步是什么?狗和披萨? 下载TensorFlowJS示例-6.1 MB T ...

  9. 苹果叶片病害识别中的深度学习研究

    苹果叶片病害识别中的深度学习研究 1.研究内容 基于DenseNet-121深度卷积网络,提出了回归.多标签分类和聚焦损失函数3种苹果叶片病害识别方法. 2.数据集介绍 用于识别的图像数据集来源于Ai ...

  10. 精准医学中的深度学习和影像组学

    影像科正在经历一种范式转变,即使用人工智能与机器集成以及深度学习与影像组学更好地定义组织特征,从而实现计算机科学与影像学的共生关系.研究的目标是使用集成的深度学习和具有影像学参数的影像组学来为患者进行 ...

最新文章

  1. 【转载】C++创建对象的两种方法
  2. poj 1015 Jury Compromise_dp
  3. [YTU]_2800( 逗逗泡泡的保密电文)
  4. hdf5文件和csv的区别_使用HDF5文件并创建CSV文件
  5. 痛心!Pandownload开发者被抓!我终于决定使用Docker搭建一个多端同步网盘!
  6. 3-2Tensor的基本定义
  7. oracle对象类型_如何创建Oracle类型对象
  8. 吴恩达深度学习课程第二章第一周编程作业
  9. CEEMDAN算法及其应用
  10. 使用mysql打开什么文件格式_dbf是什么文件怎么打开
  11. 用计算机进行废物回收,回收旧的显示器以进行废物利用
  12. xp系统显示无打印机服务器,XP共享打印机时提示“工作站服务没有启动”的原因和解决方案...
  13. php 图片生成vr_vr全景技术难吗?vr全景技术原理和应用讲解
  14. 枚举报错 No enum constant XX 处理方法
  15. java rgb转yuv_RGB 转化YUV | 学步园
  16. java 批量重命名_Java实现文件批量重命名
  17. 【大数据】Hadoop (二) HDFS
  18. java基础 equals与hashCode
  19. 每日一道SQL题(第N高的薪水)
  20. freemark导出word,图片显示问题

热门文章

  1. 计算机二级vfp程序语言,2012年计算机二级VFP语言基础学习教程
  2. 计算机组成原理期末考试题库(超级多的那种)
  3. L2TP/L2TP over IPSec
  4. 2021-10-11 CTF-KX(第一场)-RSA10
  5. 手机语音混响软件_Tone2 UltraSpace-音频混响软件下载 v1.0 官方版 - 安下载
  6. vc++2010注册表修改
  7. 二叉树遍历——递归算法
  8. Bugku-社工-初步收集
  9. 光纤跳线接口_一文了解光纤配线架、光纤跳线、耦合器、收发器及光纤色谱顺序...
  10. 利用WPS功能破解及本地恢复密码