机器学习分类光谱数据

Extended-wavelength diffuse reflectance spectroscopy with a machine-learning method for in vivo tissue classification 在活体组织上使用机器学习方法对扩展波长的漫反射光谱分类

**
研究对象：猪的不同组织和皮肤（共8头猪）猪组织的光学特性被证明接近于人类
研究方法：采用EWDRS记录猪的表面皮肤、口部、舌部不同色素沉着的程度，记录结果用来训练一个支持向量机来识别和分类不同的皮肤和组织类型
结果：每种皮肤和组织类型的EWDRS曲线轮廓不同，分类准确率较高，总体准确率率约98.2%
结论：作为非侵入性肿瘤的边缘描绘的诊断工具

ML过程：

使用PCA降低数据的维数，以便能够构建预测分类模型。（将原始数据集正交变换到由主分量张成的减少特征的子空间）选择5为主成分数，代表了所有数据的总方差的99.4%
评估过的模型：线性判别分析、决策树、K-means、支持向量机
使用二次核的支持向量机给出了最好的精度。通过分层五次交叉验证进行验证，即数据被分成五组、大小相等，其中四组用于模型训练，最后一组用于测试模型，对所有折叠进行重复，并使用平均测试误差来评估模型。五个主成分均被用作预测因子，真实组织类型作为响应参数
使用matlab从混淆矩阵中计算每种组织类型与其他组合组织类型的敏感性和特异性。
对比试验：使用450~900nm波长数据时的总体精度与全波长450-1550nm（实验中所使用的）的结果进行了比较
使用matlab R2016b进行了频谱处理和数据分类
利用PCA对EWDRS信号进行变换，第一主成分和第二主成分的图形表示可以区分不同的组织类型（PCA处理后，EWDRS测量数据使用第一主成分和第二主成分进行显示，这五种不同类型的组织类型呈簇集状，几乎没有重叠）

总结：使用二次支持向量机和5倍交叉验证方法，可以将DRS测量数据分类为5中不同的组织类型，总体精度约98.2%。微观和宏观的平均F分分别为98.1%和98.2%。在相同的数据上运行一个多数分类器进行比较，总的准确率只有22.1%。当只使用450 ~ 900 nm的信息时，获得了类似的98.7%的总体精度。

Machine learning classification of human joint tissue from diffuse reflectance spectroscopy data机器学习分类人体关节组织漫反射光谱数据

**
简述：使用DRS对人体关节组织进行分类，波长分辨率要求大于8nm，要达到50%以上的分类精度，信噪比必须大于10：1，800-900nm波长范围提供了较高的准确性。
数据来源：常规的全膝关节置换术中收集3个月的骨和软组织标本形式的人体关节硬体组织，包括1579个软骨、1269个软骨下骨、156个松质骨和39个半月板在内的3043份人体关节组织样本进行光谱分析。光谱波长范围：200-1000nm

ML过程：
（基于归一化光谱、使用WEKA机器学习工具包进行有监督学习）

共3043个光谱，每个光谱数据跨越2048个波长通道，每个波长通道被视作一个属性，以识别相关的组织类。
识别样本，由医生识别出每个样本的形状、颜色、表现、从患者的哪个部位去除。
对光谱进行归一化和降维。归一化从分割光源光谱开始，然后应用标准正态变量（SNV）转换到中心和规模，每个组织类别的平均光谱和标准偏差根据这个标准化的形式计算出来，这使得类间变化和类内变化都可以测量。降维涉及到减少每个光谱样本相关的属性或波长的数量，通过多类Fisher线性判别分析实现，得到每个样本只有3个识别属性。
分类：使用线性判别分析——LDA实现，并使用10倍交叉验证来确定最终的分类器精度。（参考上一篇文章）

**

Application of Classification Algorithms to Diffuse Reflectance Spectroscopy Measurements for Ex Vivo Characterization of Biological Tissues 分类算法在生物组织体外表征漫反射光谱测量中的应用

**
使用的数据：漫反射光谱（考虑吸收系数μa和散射系数μs等），使用猪做实验。
大体流程：

考虑归一化、趋势分离（detrending）、噪声
降维、趋势提取
采用kNN、二次判别分析QDA、朴素贝叶斯（NB）来进行光谱特征、主成分或线性判别分析、分类
对某些分类算法的特异性和敏感性均达到95%以上，具有一定的临床应用价值

细节：
1、测量光谱具有高维性，使得分类问题难以处理；提取相关特征的方法：①基于特征提取，即根据光谱数据特征提取特定梯度；②基于主成分分析。
2、基于特征提取或成分提取的方法：主成分分析PCA；分类方法：基于kNN、线性判别分析LDA、二次判别分析QDA、朴素贝叶斯NB
3、上述方法的结果通过ANOVA进行比较
（几个要点：数据降维、降噪、误差校正；特征提取、主成分分析；分类算法）

方法：
去噪： ①使用10个光谱的时间平均来降低随机噪声，同时利用光谱平均来避免离群值。每个点测量4次、共测量16个点，共获得6400个光谱。②采用Savitzky-Golay滤波器，以保留光谱的相关特征（峰的位置和宽度——允许组织分类的潜在参数）③对光谱仪适当校准，应用对齐算法——动态时间翘曲和icoshift。
归一化： 通过减去光谱的平均值，并通过调整数据的标准偏差为统一来实现。
去趋势： 由于不良效果光谱数据表现为 线性趋势，因此应用了去趋势过滤器。
降维： 1、基于光谱特征提取；2、主成分分析

基于特征提取的分类：
1、基于光谱特征点的梯度最显著，波峰波谷的位置对于充分定义梯度是至关重要的，给定的是范围、不是值。
2、1/5的数据用来训练，其余数据用来测试
3、输入数据线性可分时，线性判别分析（LDA）效果最佳。
4、总共需要分析81个梯度，使用最佳的14个梯度进行分类，最优分类器为kNN，其次时CART，准确率接近95%。在梯度空间中，线性LDA或二次QDA模型并不能很好的分类不同类型组织的梯度。NB的精度低是因为梯度的独立性假设并不一定正确。

基于主成分分析的分类：
PCA：将一组可能相关的变量转换为一些相等或较小的、不相关的或正交的变量。这些转换后的变量称为主成分。
在本实验中，仅需要40个成分就可以获得非常显著的结果。
第一种方法中数据的选择是由于纯粹的数学原因，而不是根据对组织中生化成分的先验知识，第二种方法能使得程序更加的可靠。
QDA和LDA准确率超过99%，kNN和CART准确率超94%，NB下降至80%。

Automated classification of brain tissue: comparison between hyperspectral imaging and diffuse reflectance spectroscopy 脑组织的自动分类:高光谱成像和漫反射光谱的比较

实验对象： 8个猪的离体脑组织，将其分类为灰质和白质；DRS结合该分类的敏感性和特异性为96%，HSI（高光谱成像）的敏感性为95%，特异性为93%
分类方法： 线性支持向量机SVM。
实验流程：

流程： 预处理（归一化、降维）、提取相关特征进行分类、留一交叉验证（LOOCV）进行测试。
数据： 140个DRS信号（其中70个白质、70个灰质）、25张高光谱图像。根据信号的形状对其进行分类。
交叉验证： 针对8个大脑样本中的每个样本进行训练，使用除了该样本的其他几个样本进行测试，避免双样本的使用和过拟合。
结论： 使用DRS进行分类的效果较好。

Diffuse reflectance spectroscopy in dental caries detection and classification 漫反射光谱在龋齿检测与分类中的应用

研究对象：578个不同变化程度的口腔特征群，330个健康，248个不健康。
结果：准确率在94.1 ~ 98.4%之间，交叉验证误差小于8.3%
分类方法：支持向量机、贝叶斯法、k近邻法和神经网络进行分类。初始时只分类为健康和不健康组织，随后分类为：健康组织、可能健康组织、不清晰组织、可能龋齿组织和龋齿。

神经网络模型的准确率最高，F1得分分别为98.4%和98.2%，交叉验证误差最小，为0.2%。