语义分割车道线,来自两篇论文的融合算法

IEEE IV 2018论文《LaneNet: Real-Time Lane Networks for Autonomous Driving》。这篇文章主要内容是,如何克服车道切换和车道数的限制。

关于Software Loss,另外一篇文章《Semantic Instance Segmentation with a
Discriminative loss function》。

原理是:提出了Lannet网络结构,即通过训练神经网络进行端到端的车道检查,将车道作为实例分割来实现。

下面是Lannet网络结构图:

  1. Lanenet使用一个共享的encoder,对输入图像进行处理,得到2个branch:嵌入式和语义分割的branch。嵌入branch可以将不同的车道线区分为不同的instance;因为只需要考虑车道线,因此语义分割的结果是二值化图像;然后对2个branch做聚类,最终得到结果。

  2. 通常情况下,车道线像素被投影成“鸟瞰图”。使用一个固定的转换矩阵。可是,因为变换参数对所有图像都是固定的,所以,当遇到非地面例如,在斜坡上,会有问题。为了解决类似问题,提出了H-Network可以估算输入图像上的“理想”透视变换的参数。

  3. 投影方法H-Net

将输入的RGB图像作为输入,使用LaneNet得到输出的实例分割结果,然后将车道线像素使用H-Net输出得到的透视变换矩阵进行变换,对变换后的车道线像素在变化后的空间中进行拟合,再将拟合结果经过逆投影,最终得到原始视野中的车道线拟合结果。

H-Net将RGB作为输入,输出为基于该图像的透视变换系数矩阵,优化目标为车道线拟合效果。

  1. Software
    Loss计算

与主流的基于proposal的实例分割(instance segementation)方法不同,本文受metric learning(测量学习)和(triplet loss)的启发,提出了一种基于pixel embending的方法。与deep watered network一样,本文方法也依赖于现成的语义分割结果,可以将本文方法视作语义分割结果的post processing以产生instance-level的结果。

One
key factor that complicates the baive application of the popular software
cross-entropy loss function to instance segmentation, is the fact that an image
can contain an arbitrary number of instances and that the labeling is
permutation-invariant: it does not matter which specific label an instance
gets, as long as it is different from all other instance labels.

上面指出,software loss用于实例分割的两个缺点:

第一, an image can contain an arbitrary number of instances(一幅图像可包含任意数量的实例)。

第二, the labeling is permution-invariant(实例标签具有permutation-invariant的性质)。

将本用于语义分割的software loss用于图像的实例分割,图像包含多少个实例,就有多少个“类”。这里的类,并不是语义分割中的class-label的含义,而是指不同的insatnce的instance id label。

应用software loss的网络,最后输出层的channel数等于类别数,因为图像中的实例数目不定,所以网络最后层的结果无法确定。

如果网络每个像素的预测输出和ground truth的id-label不一致。

Softmax Loss会惩罚这种预测错误。但这种预测结果其实是对的,只要不同实例之间的id-label不同就行。即instance id label满足permutation-invariant的性质。

Pixel embedding:mapping each pixel to a point in n-d feature space

Cluster:a group of pixel embendings sharing the same label

Cluster
center:the mean embebding of a char


Variance term:an intra-cluster pull-force that draws embeddings towards the mean
embedding, i.e. the cluster center.

Distance term:an inter-cluster push-force that pushes clusters away from each
other, increasing the distance between the cluster centers.

Regularization term:a small puul-force that draws all clusters towards the origin, to
keep the activations bounded.

The loss function encourages the network to map each pixel to a point in feature
space (pixel embedding) so that pixels belonging to the same instance lie close
together while different instances are separated by a wide margin.

用本文提出的 loss function对现有网络进行训练。优化的目标是:网络将图像每个像素投影到n-d特征空间(n是个随机数据集变化二变化的超参),是的同属一个实例的像素尽量靠近,形成一个cluster,每一个实例对应一个cluster,不同的cluster尽量远离。

如果loss降为零,显然:

5. 在多语义类别的实例分割场景中:

Therefore, we run our loss function independently on every semantic class, so that
instances belonging to the same class are far apart in feature space, whereas
instances from different classes can occupy tha same space. For example, the
cluster centers of a pedestrian and a car that appear in the same image are not
pushed away from each other.

概括起来,不同语义类别的实例像素潜入相互独立,分开进行。

语义分割车道线,来自两篇论文的融合算法相关推荐

  1. 计算机博士两篇一区两篇会议,本科博士联手!西电陈渤团队两篇论文被顶级会议录用...

    第34届神经信息处理系统大会(Neural Information Processing Systems, NeurIPS,https://neurips.cc/)将于12月06日-12月12日,通过 ...

  2. 车道线检测:LSTR论文解析

    车道线检测:End-to-end Lane Shape Prediction with Transformers论文解析 1. Abstract 2. Introduction 3. Related ...

  3. 批训练、注意力模型及其声纹分割应用,谷歌三篇论文揭示其声纹识别技术原理

    声纹识别技术在谷歌的诸多产品中有着重要应用.除了安卓手机目前所独有的声纹解锁功能外,谷歌的家庭语音助手 Google Home 也能通过声纹识别支持多用户模式,从而针对不同用户提供个性化服务.当你向 ...

  4. 3D图像生成和编辑研究成果大放送!朱俊彦团队放出两篇论文实现代码 | 资源...

    乾明 发自 凹非寺  量子位 报道 | 公众号 QbitAI 朱俊彦团队,一口气放出两篇论文的实现代码! 这两篇论文,都与3D图像有关,都被NeurIPS 2018大会收录了.朱俊彦在Twitter上 ...

  5. 微电子学与计算机期刊2019,微电子与通信工程学院研究生两篇论文被人工智能顶级会议AAAI 2019接收...

    近日,微电子与通信工程学院研究生有两篇文章被国际人工智能领域顶级学术会议AAAI 2019(AAAI Conference on Artificial Intelligence 2019)录用.AAA ...

  6. 北邮计算机学院石川,祝贺石川教授团队两篇论文被ACM SIGKDD2019接收!

    我院石川教授团队有两篇论文被刚刚揭晓的国际会议ACM SIGKDD 2019接受.ACM SIGKDD(国际数据挖掘与知识发现大会,简称 KDD)是世界数据挖掘领域的顶级国际会议.自 1995 年以来 ...

  7. Towards Two-Dimensional Sequence to Sequence Model和Two-Way Neural Machine Translation两篇论文简单分析

    第一篇是:发布于2018年Towards Two-Dimensional Sequence to Sequence Model in NeuralMachine Translation 第二篇是:与第 ...

  8. 陈跃国教授计算机,我校两篇论文在人工智能顶级国际会议AAAI 2014发表

    我校信息学院卢志武副教授和重点实验室陈跃国副教授各有一篇论文在2014年人工智能顶级国际会议AAAI发表.AAAI全称为Association for the Advancement of Artif ...

  9. 离谱!结论相反的两篇论文共用同一张图,教授:可能是研究生的错

    本文来源:整理自Retraction.丁香园.SCI论文投稿,编辑:募格学术 两篇结论相反的论文,竟用同一张实验图? 在被质疑后作者"甩锅式"回应:重复可能是因为研究生滥用了该图像 ...

最新文章

  1. windows 3.x编程指南_18000 MHz 可编程衰减器
  2. 2021-01-13 Linux下安装lua开发环境 Ubuntu
  3. Centos下MySql用户管理
  4. 面试:数据分析面试SQL操作真题解析
  5. 当Spring 容器初始化完成后执行某个方法
  6. 使用Visual Studio OnlineSQL Server数据库源控制:Git
  7. flutter系列之flutter工程结构详解(android视角)
  8. 一位Android大牛的BAT面试心得与经验总结
  9. 计算化侦查之根据公交卡记录抓小偷
  10. 无线路由器分流时用迅雷下载限速时不能每位用户支持良好的信息交换
  11. 昂达v80 plus linux,8英寸便携平板 昂达V80 Plus一体工艺来袭
  12. JavaScript逆向:金某xx网站登陆指纹算法分析
  13. 【职业】什么是架构师?
  14. 截止失真放大电路_一起学模电:6、放大电路静态与动态分析方法
  15. php 微信支付宝提现,微信支付对接提现功能(php)
  16. IIS URL 重写
  17. 利用Python进行数据分析笔记-pandas建模(statsmodels篇)
  18. 课时23 YUM软件管理
  19. 英雄联盟手游服务器维护中,《英雄联盟手游》serveriscurrentlyundermaintenance解决攻略...
  20. iOS----支付/银联/微信

热门文章

  1. pytorch问题索引
  2. Pytorch nn.init 参数初始化方法
  3. c++ Factor泛型编程示例
  4. 回归算法分类,常用回归算法解析
  5. Linux内存技术分析(下)
  6. 【嵌入式】从STM32F103ZET6移植到STM32F103RCT6的流程
  7. Ubuntu 系统通过终端打开AndroidStudio工具
  8. Android AnimationUtils (动画)的使用
  9. RecyclerView 点击Item 改变文字颜色以及所在的背景色
  10. The Android Gradle plugin supports only Kotlin Gradle plugin version 1.3.0 and higher.