【7.15】CAJ-陈

❄DL三元组损失原理与选取策略基本思想是：对于设定的三元组(Anchor, Positive, Negative) （Anchor和Positive为同类的不同样本，Anchor与Negative为异类样本），Triplet loss试图学习到一个特征空间，使得在该空间中相同类别的基准样本（Anchor）与正样本（Positive）距离更近，不同类别的 Anchor 与负样本（Negative）距离更远。其思想与图像识别任务的目标很契合，即给定训练图集和测试图集，判断两张图片是否属于同一类标签。

优势
基于Triplet loss的神经网络模型可以很好的对细节进行区分，尤其是在图像分类任务中，当两个输入很相似的时候，Triplet loss对这两个差异性较小的输入向量可以学习到更好的表示，从而在分类任务中表现出色。

相比其他分类损失函数，Triplet loss通常能在训练中学习到更好的细微的特征feature，更特别的是Triplet loss能够根据模型训练的需要设定一定的阈值。
带Triplet loss的网络结构在进行训练的时候一般都会设置一个阈值margin，设计者可以通过改变margin的值来控制正负样本的距离。

缺点
虽然Triplet loss很有效，但也有缺点：三元组的选取导致数据的分布并不一定均匀，所以在模型训练过程表现很不稳定，而且收敛慢，需要根据结果不断调节参数，而且Triplet loss比分类损失更容易过拟合。所以，大多数情况下，我们会把这种方法放在模型的预训练过程中，或者和softmax函数（分类损失）结合在一起使用。

【7.29】张-LD,夏-nnUNet

nnU-Net

nnUNet：生物医学影像自适应全自动深度学习分割网络nnU-net（No New U-Net）

基本的U-Net不局限于最初提出的2D U-Net，而是包括基本的2D U-Net、3D U-Net和级联3D U-Net。当然，作者说得比较客气，实际上就是作者认为2015年后对U-Net的一大堆号称SOTA的改进都是对特定数据集的调参，没有本质上的改进。其证据是在常见的49个器官分割任务中（包含19个生物医学数据集，包含CT\MRI\电镜3种影像模态），nnU-net的分割性能均名列前茅，且超过了不少算法专家精心设计的深度学习算法。优点：nnU-Net具有根据数据集特性和显存限制进行自适应网络结构生成和全自动训练的优良特点，且不需要调参。在大家都在忙着进行时髦的网络结构、损失函数等创新时，nnU-Net以极大的魄力暗示许多论文作者所宣称的伟大改进可能实际上并没有十分有效。同时，nnU-Net也通过Pipline的丰富集成证实了原定假设“当Pipline设置合理时，基本的U-Net结构是很难被打败的”，未来所有号称有强大泛化能力的分割网络都可以与nnUnet对比一下，以显示自身确实具有有效的创新。不足：1 对于非常规的生物医学影像数据集的分割性能是不够的，比如对CREMI比赛中的大脑神经电镜数据进行密集分割，nnU-Net仅取得第6名。这可能是因为nnU-Net没有充分利用神经纤维很长和神经纤维的拓扑结构等先验信息。2 依然有大量固定参数设置。未来研究可以根据数据集特性进行许多参数的自适应预测。

nnUNet： U-net在2015年被提出来，到现在引用量已经1万大几了，真是厉害的很。目前在医学图像分割甚至在自然图像领域都应用广泛。但是U-net在针对不同任务的时候，它的网络结构，预处理，训练和推断可能都不同。这些选择不是相互独立的并且影响着最终的效果。作者提出了nnU-Net(no new-Net，起名字就是这么潇洒，学着点)，该网络是在2D和3D U-Net基础的一个鲁邦并且自适应的框架。作者认为不应该过多考虑网络设计的细节，而是应该关注于能提高模型性能和泛化性的其他方面。然后作者进行了实验发现效果惊人的好。

非结构因素在分割方法中更重要，同时它也被严重低估

nnUNet论文总结

重构

DL中的重构：重构（Reconstruction）是指从经过变换的数据中恢复出原始数据。基本上，所有的深度学习算法中都用到了重构这一思想。

深度学习中的重构主要有两种：

Value-based。即基于值的重构。比如，平方误差。

Distribution-based。即基于分布的重构。比如交叉熵误差。这类重构一般都基于信息论准则。

深度学习中用到重构比较多的模型主要是自动编码机Autoencoder和限制玻尔兹曼机RBM.

这两种模型训练的基础都是基于重构误差最小化。而且，前者的训练使用的是Value-based重构误差最小化；而后者训练使用的是Distribution-based重构误差最小化。

自动编码机Autoencoder：其训练的基本原理就是使得重构误差（定义为模型输出值与原始输入之间的均方误差）最小化，从而可以无监督（实际上是使用了输入数据做监督信号）地训练出一个深度学习网络。

限制玻尔兹曼机RBM

ML中如何重构模型

自编码

一文了解：自编码器可以理解为一个试图去还原其原始输入的系统。

神经网络自编码模型：在深度学习中，自动编码器是一种无监督的神经网络模型，它可以学习到输入数据的隐含特征，这称为编码(coding)，同时用学习到的新特征可以重构出原始输入数据，称之为解码(decoding).从直观上来看，自动编码器可以用于特征降维，类似主成分分析PCA，但是其相比PCA其性能更强，这是由于神经网络模型可以提取更有效的新特征。除了进行特征降维，自动编码器学习到的新特征可以送入有监督学习模型中，所以自动编码器可以起到特征提取器的作用。

图片为什么要压缩呢?其主要原因是：有时神经网络要接受大量的输入信息, 比如输入信息是高清图片时, 输入信息量可能达到上千万, 让神经网络直接从上千万个信息源中学习是一件很吃力的工作. 所以, 何不压缩一下, 提取出原图片中的最具代表性的信息, 缩减输入信息量, 再把缩减过后的信息放进神经网络学习. 这样学习起来就简单轻松了. 所以, 自编码就能在这时发挥作用. 通过将原数据白色的X 压缩, 解压成黑色的X, 然后通过对比黑白 X ,求出预测误差, 进行反向传递, 逐步提升自编码的准确性. 训练好的自编码中间这一部分就是能总结原数据的精髓. 可以看出, 从头到尾, 我们只用到了输入数据 X, 并没有用到 X 对应的数据标签, 所以也可以说自编码是一种非监督学习. 到了真正使用自编码的时候. 通常只会用到自编码前半部分。

transformer

VBC

【8.19】周PCA Vertebral、宋Anomaly Detection

【周】

Accurate Scoliosis Vertebral Landmark Localization on X-ray Images via Shape-constrained Multi-stage Cascaded CNNs

论文：submitted 2022.6

换一个空间 via形状约束来进行点检测及定位

PCA对输入数据的要求：

PCA-12：

PCA降维：Principal Component Analysis是一种常见的数据分析方式，常用于高维数据的降维，可用于提取数据的主要特征分量。|| PCA 的数学推导可以从最大可分型和最近重构性两方面进行，前者的优化条件为划分后方差最大，后者的优化条件为点到划分平面距离最小。

性质：

1.缓解维度灾难：PCA 算法通过舍去一部分信息之后能使得样本的采样密度增大（因为维数降低了），这是缓解维度灾难的重要手段；

2.降噪：当数据受到噪声影响时，最小特征值对应的特征向量往往与噪声有关，将它们舍弃能在一定程度上起到降噪的效果；

3.过拟合：PCA 保留了主要信息，但这个主要信息只是针对训练集的，而且这个主要信息未必是重要信息。有可能舍弃了一些看似无用的信息，但是这些看似无用的信息恰好是重要信息，只是在训练集上没有很大的表现，所以 PCA 也可能加剧了过拟合；

4.特征独立：PCA 不仅将数据压缩到低维，它也使得降维之后的数据各特征相互独立；

PCA、PCA及应用☆：提出背景-数据/特征过多/维度过大、算法基本理念是方差最大理论、用于特征降维。

PCA试图用数据最主要的若干方面来代替原有的数据，这些最主要的方面首先需要保证蕴含了原始数据中的大量信息，其次需要保证相互之间不相关。因为相关代表了数据在某种程度上的“重叠”，也就相当于冗余性没有清除干净。

PCA总结

【宋】

无监督、半监督、弱监督和有监督学习

定义和区别：

有/无/半/弱监督，多示例，迁移学习：强化学习(reinforcement learning)：智能算法在没有人为指导的情况下，通过不断的试错来提升任务性能的过程。“试错”的意思是还是有一个衡量标准，用棋类游戏举例，我们并不知道棋手下一步棋是对是错，不知道哪步棋是制胜的关键，但是我们知道结果是输还是赢，如果算法这样走最后的结果是胜利，那么算法就学习记忆，如果按照那样走最后输了，那么算法就学习以后不这样走。弱监督学习(weakly supervised learning)：已知数据和其一一对应的弱标签，训练一个智能算法，将输入数据映射到一组更强的标签的过程。标签的强弱指的是标签蕴含的信息量的多少，比如相对于分割的标签来说，分类的标签就是弱标签，如果我们知道一幅图，告诉你图上有一只猪，然后需要你把猪在哪里，猪和背景的分界在哪里找出来，那么这就是一个已知若标签，去学习强标签的弱监督学习问题。半监督学习(semi supervised learning) ：已知数据和部分数据一一对应的标签，有一部分数据的标签未知，训练一个智能算法，学习已知标签和未知标签的数据，将输入数据映射到标签的过程。半监督通常是一个数据的标注非常困难，比如说医院的检查结果，医生也需要一段时间来判断健康与否，可能只有几组数据知道是健康还是非健康，其他的只有数据不知道是不是健康。那么通过有监督学习和无监督的结合的半监督学习就在这里发挥作用了。多示例学习(multiple instance learning) ：已知包含多个数据的数据包和数据包的标签，训练智能算法，将数据包映射到标签的过程，在有的问题中也同时给出包内每个数据的标签。多事例学习引入了数据包的概念，比如说一段视频由很多张图组成，假如1000张，那么我们要判断视频里是否有猪出现，一张一张的标注每一帧是否有猪太耗时，所以人们看一遍说这个视频里有猪或者没猪，那么就得到了多示例学习的数据，1000帧的数据不是每一个都有猪出现，只要有一帧有猪，那么我们就认为这个包是有猪的，所有的都没有猪，才是没有猪的，从这里面学习哪一段视频（1000张）有猪哪一段视频没有就是多事例学习的问题。

迁移学习：神经网络需要用数据来训练，它从数据中获得信息，进而把它们转换成相应的权重。这些权重能够被提取出来，迁移到其他的神经网络中，我们“迁移”了这些学来的特征，就不需要从零开始训练一个神经网络了。针对训练数据集小，防止过拟合使用。通常在计算机视觉imagenet 进行预训练。预训练模型:简单来说，预训练模型(pre-trained model)是前人为了解决类似问题所创造出来的模型。你在解决问题的时候，不用从零开始训练一个新模型，可以从在类似问题中训练过的模型入手。比如说，如果你想做一辆自动驾驶汽车，可以花数年时间从零开始构建一个性能优良的图像识别算法，也可以从Google在ImageNet数据集上训练得到的inception model(一个预训练模型)起步，来识别图像。一个预训练模型可能对于你的应用中并不是100%的准确对口，但是它可以为你节省大量功夫。怎样使用预训练模型：当在训练神经网络的时候我们希望网络能够在多次正向反向迭代的过程中，找到合适的权重。通过使用之前在大数据集上经过训练的预训练模型，我们可以直接使用相应的结构和权重，将它们应用到我们正在面对的问题上。这被称作是“迁移学习”，即将预训练的模型“迁移”到我们正在应对的特定问题中。ImageNet数据集已经被广泛用作训练集，因为它规模足够大(包括120万张图片)，有助于训练普适模型。ImageNet的训练目标，是将所有的图片正确地划分到1000个分类条目下。这1000个分类基本上都来源于我们的日常生活，比如说猫猫狗狗的种类，各种家庭用品，日常通勤工具等。在迁移学习中，这些预训练的网络对于ImageNet 数据集外的图片也表现出了很好的泛化性能。既然预训练模型已经训练得很好，我们就不会在短时间内去修改过多的权重，在迁移学习中用到它的时候，往往只是进行微调(fine tune)。在修改模型的过程中，我们通过会采用比一般训练模型更低的学习速率。微调模型的方法:1特征提取:我们可以将预训练模型当做特征提取装置来使用。具体的做法是，将输出层去掉，然后将剩下的整个网络当做一个固定的特征提取机，从而应用到新的数据集中。2采用预训练模型的结构:我们还可以采用预训练模型的结构，但先将所有的权重随机化，然后依据自己的数据集进行训练。3训练特定层,冻结其他层4另一种使用预训练模型的方法是对它进行部分的训练。具体的做法是，将模型起始的一些层的权重保持不变，重新训练后面的层，得到新的权重。在这个过程中，我们可以多次进行尝试，从而能够依据结果找到frozen layers和retrain layers之间的最佳搭配。如何使用与训练模型，是由数据集大小和新旧数据集(预训练的数据集和我们要解决的数据集)之间数据的相似度来决定的。

场景一：数据集小，数据相似度高(与pre-trained model的训练数据相比而言)：在这种情况下，因为数据与预训练模型的训练数据相似度很高，因此我们不需要重新训练模型。我们只需要将输出层改制成符合问题情境下的结构就好。我们使用预处理模型作为模式提取器。比如说我们使用在ImageNet上训练的模型来辨认一组新照片中的小猫小狗。在这里，需要被辨认的图片与ImageNet库中的图片类似，但是我们的输出结果中只需要两项——猫或者狗。在这个例子中，我们需要做的就是把dense layer和最终softmax layer的输出从1000个类别改为2个类别。

场景二：数据集小，数据相似度不高：在这种情况下，我们可以冻结预训练模型中的前k个层中的权重，然后重新训练后面的n-k个层，当然最后一层也需要根据相应的输出格式来进行修改。因为数据的相似度不高，重新训练的过程就变得非常关键。而新数据集大小的不足，则是通过冻结预训练模型的前k层进行弥补。

场景三：数据集大，数据相似度不高：在这种情况下，因为我们有一个很大的数据集，所以神经网络的训练过程将会比较有效率。然而，因为实际数据与预训练模型的训练数据之间存在很大差异，采用预训练模型将不会是一种高效的方式。因此最好的方法还是将预处理模型中的权重全都初始化后在新数据集的基础上重头开始训练。

场景四：数据集大，数据相似度高：这就是最理想的情况，采用预训练模型会变得非常高效。最好的运用方式是保持模型原有的结构和初始权重不变，随后在新数据集的基础上重新训练。

一文迁移学习√：为了对迁移学习产生一个直观的认识，不妨拿老师与学生之间的关系做类比。一位老师通常在ta所教授的领域有着多年丰富的经验，在这些积累的基础上，老师们能够在课堂上教授给学生们该领域最简明扼要的内容。这个过程可以看做是老手与新手之间的“信息迁移”。知识从上一代到下一代。

DL的25个概念

平滑损失和稀疏损失

L1稀疏L2平滑：L1和L2正则常被用来解决过拟合问题。而L1正则也常被用来进行特征选择，主要原因在于L1正则化会使得较多的参数为0，从而产生稀疏解。我们可以将0对应的特征遗弃，进而用来选择特征。

L1、L2、smooth L1三类损失函数√：

均方误差（MSE）

平均绝对误差（MAE）

L1_Loss和L2_Loss

smooth L1损失函数：该函数实际上就是一个分段函数，在[-1,1]之间实际上就是L2损失，这样解决了L1的不光滑问题，在[-1,1]区间外，实际上就是L1损失，这样就解决了离群点梯度爆炸的问题。

三者对比：

（1）鲁棒性（robustness）:因为与最小平方相比，最小绝对值偏差方法L1的鲁棒性更好，因此，它在许多场合都有应用。最小绝对值偏差之所以是鲁棒的，是因为它能处理数据中的异常值。这或许在那些异常值可能被安全地和有效地忽略的研究中很有用。如果需要考虑任一或全部的异常值，那么最小绝对值偏差是更好的选择。

从直观上说，因为L2范数将误差平方化（如果误差大于1，则误差会放大很多），模型的误差会比L1范数来得大，因此模型会对这个样本更加敏感，这就需要调整模型来最小化误差。如果这个样本是一个异常值，模型就需要调整以适应单个的异常值，这会牺牲许多其它正常的样本，因为这些正常样本的误差比这单个的异常值的误差小。

（2）稳定性:最小绝对值偏差方法的不稳定性意味着，对于数据集的一个小的水平方向的波动，回归线也许会跳跃很大。在一些数据结构（data configurations）上，该方法有许多连续解；但是，对数据集的一个微小移动，就会跳过某个数据结构在一定区域内的许多连续解。（The method has continuous solutions for some data configurations; however, by moving a datum a small amount, one could “jump past” a configuration which has multiple solutions that span a region. ）在跳过这个区域内的解后，最小绝对值偏差线可能会比之前的线有更大的倾斜。相反地，最小平方法的解是稳定的，因为对于一个数据点的任何微小波动，回归线总是只会发生轻微移动；也就说，回归参数是数据集的连续函数。

片段分割粒度

细粒度图像分类：

Awesome Fine-Grained Image Analysis – Papers, Codes and Datasets (weixiushen.com)

AUC指标

AUC☆：是一个模型评价指标，只能够用于二分类模型的评价。对于二分类模型来说还有很多其他的评价指标比如：logloss，accuracy，precision在上述的评价指标当中，数据挖掘类比赛中，AUC和logloss是比较常见的模型评价指标。因为很多机器学习的模型对分类问题的预测结果都是概率，如果要计算accuracy的话，需要先将概率转换成类别，这就需要手动设置一个阈值，如果对一个样本的预测概率高于这个预测，就把这个样本放进一个类别当中，如果低于这个阈值，就放在另一个类别当中，阈值在很大程度上影响了accuracy的计算。使用AUC或者logloss的好处就是可以避免将预测概率转换成类别。

AUC： Area under curve，字面理解：某条曲线下面区域的面积；问题来了，到底是哪一条曲线？曲线的名字叫做：ROC曲线。ROC分析的是二元分类模型，也就是输出结果只有两种类别的模型（垃圾邮件/非垃圾邮件），当观测量的结果是一个连续值的时候，类与类的边界必须用一个阈值threshold来界定。

AUC为什么可以衡量分类的效果？

AUC就是从所有1样本中随机选取一个样本，从所有0样本中随机选取一个样本，然后根据你的分类器对两个随机样本进行预测，把1样本预测为1的概率为p1，把0样本预测为1的概率为p2，p1>p2的概率就是AUC。所以AUC应该反映的是分类器对样本的排序能力，另外，AUC对样本类别是否均衡并不敏感，这也是不均衡样本通常采用AUC评价分类性能的原因

PWCNet 、光流

空洞卷积

end2end

【9.7-会议分享】

1、黄高、百度

deformable CNN中 transformer中

Swin transformer

volo：

Token：

有监督、无监督、半监督、自监督、弱监督

孪生网络

【Q&A】

1、端到端与2stage

二者关系：

2、上下文信息

上下文就是图片中某个区域与周围区域的关系，在考虑某个区域图像时也要考虑它和周围图像的关系

多尺度&上下文：本质上来说多尺度信息也是上下文信息中的一种。

【图像分割】从上下文到局部性：基于局部性感知的上下文相关性超高分辨率图像分割 - 知乎 (zhihu.com)

【组会记录 | 暑假 | 研二上】相关推荐

【阶段总结】研二上学期总结
写在前面距离上一篇[阶段总结]研一上学期总结又过去了将近一年的时间,而这一篇的阶段性总结也是在我入驻csdn平台后的第四篇的年度总结.从一开始的犹犹豫豫到现在坚持不定期的写作和总结,回想这几年的历程 ...
大一下暑假大二上学期规划
还有几天暑假就要结束鸟~~~~~~~~~国际惯例,做个样子,写个总结. 大一这一年过得很快,出乎我意料的快,快到我觉得好像什么也没有体验过就结束了. 我的大一,平淡,真的很平淡,没有什么波澜.甚至让我 ...
NLP领域论文笔记【研一下研二上】01
一.<Heterogeneous Graph Neural Networks for Extractive Document Summarization> 1.除句子外,还包含不同粒度级别 ...
研二（上学期）计划安排
今天是9.17号了,时间过得很快,学习的脚步永远停不下来. 时间的安排就不说了,真的是计划赶不上变化,一句话,除了外聘上课和研助,其他的时间必须到达实验室,(一个星期一次总结). 研二上学期(9.10 ...
我在南邮的三年—研二生活
中国学生都有一个通病,那就是做任何事情都要别人吩咐.本科生就期待考试结束便万事大吉了,没想到很多研究生也是这样. 由于南邮的大部分学生在研一的时候就把所有的学分拿到了,因此很多人在研二的时候便不用再上 ...
此文记录了我从研二下学期到研三上学期的找工历程，包括百度、腾讯、网易、移动、电信、华为、中兴、IBM八家企业的面试总结和心得--转...
感谢电子通讯工程的研究生学长为大家整理了这么全面的求职总结,希望进入通信公司和互联网公司做非技术类岗位的学弟学妹们千万不要错过哦~ ---------------------------原文分割线-- ...
个人记录 | 研二预答辩中的一些记录
研二预答辩11.11 [高-基于双平面X光图像的脊柱三维重建方法研究]15分钟作用 1.背景和意义: 辐射低.站立位.费用低.辅助诊断(术前预后) 国内外研究现状: 为什么要三维|不同面的信息不同|重 ...
重磅！腾讯云首次披露自研业务上云历程
导语:传统行业转型的过程中,腾讯向来扮演的是数字化助手的角色,腾讯云作为帮助企业数字化转型的入口,也已经成为腾讯的"独角兽"业务.然而伴随着云业务的增长,腾讯内部业务如何上云,对于 ...
我的2013 --岁月划过生命线(大二.上)
岁月划过生命线(大二.上) 又一次大清早被红马甲查赶出被窝,让哥光着屁股就跑到隔壁宿舍去了,真心恨死他们! 这是一篇最早写于2013.11.26日的日志,通过后来不断地增删改,来总结,回忆自己的大学二 ...

【组会记录 | 暑假 | 研二上】