**

Extended-wavelength diffuse reflectance spectroscopy with a machine-learning method for in vivo tissue classification 在活体组织上使用机器学习方法对扩展波长的漫反射光谱分类

**
研究对象:猪的不同组织和皮肤(共8头猪)猪组织的光学特性被证明接近于人类
研究方法:采用EWDRS记录猪的表面皮肤、口部、舌部不同色素沉着的程度,记录结果用来训练一个支持向量机来识别和分类不同的皮肤和组织类型
结果:每种皮肤和组织类型的EWDRS曲线轮廓不同,分类准确率较高,总体准确率率约98.2%
结论:作为非侵入性肿瘤的边缘描绘的诊断工具

ML过程:

  1. 使用PCA降低数据的维数,以便能够构建预测分类模型。(将原始数据集正交变换到由主分量张成的减少特征的子空间)选择5为主成分数,代表了所有数据的总方差的99.4%
  2. 评估过的模型:线性判别分析、决策树、K-means、支持向量机
  3. 使用二次核的支持向量机给出了最好的精度。通过分层五次交叉验证进行验证,即数据被分成五组、大小相等,其中四组用于模型训练,最后一组用于测试模型,对所有折叠进行重复,并使用平均测试误差来评估模型。五个主成分均被用作预测因子,真实组织类型作为响应参数
  4. 使用matlab从混淆矩阵中计算每种组织类型与其他组合组织类型的敏感性和特异性。
  5. 对比试验:使用450~900nm波长数据时的总体精度与全波长450-1550nm(实验中所使用的)的结果进行了比较
  6. 使用matlab R2016b进行了频谱处理和数据分类
  7. 利用PCA对EWDRS信号进行变换,第一主成分和第二主成分的图形表示可以区分不同的组织类型(PCA处理后,EWDRS测量数据使用第一主成分和第二主成分进行显示,这五种不同类型的组织类型呈簇集状,几乎没有重叠)

总结:使用二次支持向量机和5倍交叉验证方法,可以将DRS测量数据分类为5中不同的组织类型,总体精度约98.2%。微观和宏观的平均F分分别为98.1%和98.2%。在相同的数据上运行一个多数分类器进行比较,总的准确率只有22.1%。当只使用450 ~ 900 nm的信息时,获得了类似的98.7%的总体精度。

**

Machine learning classification of human joint tissue from diffuse reflectance spectroscopy data机器学习分类人体关节组织漫反射光谱数据

**
简述:使用DRS对人体关节组织进行分类,波长分辨率要求大于8nm,要达到50%以上的分类精度,信噪比必须大于10:1,800-900nm波长范围提供了较高的准确性。
数据来源:常规的全膝关节置换术中收集3个月的骨和软组织标本形式的人体关节硬体组织,包括1579个软骨、1269个软骨下骨、156个松质骨和39个半月板在内的3043份人体关节组织样本进行光谱分析。光谱波长范围:200-1000nm

ML过程:
(基于归一化光谱、使用WEKA机器学习工具包进行有监督学习)

  1. 共3043个光谱,每个光谱数据跨越2048个波长通道,每个波长通道被视作一个属性,以识别相关的组织类。
  2. 识别样本,由医生识别出每个样本的形状、颜色、表现、从患者的哪个部位去除。
  3. 对光谱进行归一化和降维。归一化从分割光源光谱开始,然后应用标准正态变量(SNV)转换到中心和规模,每个组织类别的平均光谱和标准偏差根据这个标准化的形式计算出来,这使得类间变化和类内变化都可以测量。降维涉及到减少每个光谱样本相关的属性或波长的数量,通过多类Fisher线性判别分析实现,得到每个样本只有3个识别属性
  4. 分类:使用线性判别分析——LDA实现,并使用10倍交叉验证来确定最终的分类器精度。(参考上一篇文章)

    **

Application of Classification Algorithms to Diffuse Reflectance Spectroscopy Measurements for Ex Vivo Characterization of Biological Tissues 分类算法在生物组织体外表征漫反射光谱测量中的应用

**
使用的数据:漫反射光谱(考虑吸收系数μa和散射系数μs等),使用猪做实验。
大体流程:

  1. 考虑归一化、趋势分离(detrending)、噪声
  2. 降维、趋势提取
  3. 采用kNN、二次判别分析QDA、朴素贝叶斯(NB)来进行光谱特征、主成分或线性判别分析、分类
  4. 对某些分类算法的特异性和敏感性均达到95%以上,具有一定的临床应用价值

细节:
1、测量光谱具有高维性,使得分类问题难以处理;提取相关特征的方法:①基于特征提取,即根据光谱数据特征提取特定梯度;②基于主成分分析。
2、基于特征提取或成分提取的方法:主成分分析PCA;分类方法:基于kNN、线性判别分析LDA、二次判别分析QDA、朴素贝叶斯NB
3、上述方法的结果通过ANOVA进行比较
(几个要点:数据降维、降噪、误差校正;特征提取、主成分分析;分类算法)

方法:
去噪: ①使用10个光谱的时间平均来降低随机噪声,同时利用光谱平均来避免离群值。每个点测量4次、共测量16个点,共获得6400个光谱。②采用Savitzky-Golay滤波器,以保留光谱的相关特征(峰的位置和宽度——允许组织分类的潜在参数)③对光谱仪适当校准,应用对齐算法——动态时间翘曲和icoshift。
归一化: 通过减去光谱的平均值,并通过调整数据的标准偏差为统一来实现。
去趋势: 由于不良效果光谱数据表现为 线性趋势,因此应用了去趋势过滤器。
降维: 1、基于光谱特征提取;2、主成分分析

基于特征提取的分类:
1、基于光谱特征点的梯度最显著,波峰波谷的位置对于充分定义梯度是至关重要的,给定的是范围、不是值。
2、1/5的数据用来训练,其余数据用来测试
3、输入数据线性可分时,线性判别分析(LDA)效果最佳。
4、总共需要分析81个梯度,使用最佳的14个梯度进行分类,最优分类器为kNN,其次时CART,准确率接近95%。在梯度空间中,线性LDA或二次QDA模型并不能很好的分类不同类型组织的梯度。NB的精度低是因为梯度的独立性假设并不一定正确。

基于主成分分析的分类:
PCA:将一组可能相关的变量转换为一些相等或较小的、不相关的或正交的变量。这些转换后的变量称为主成分。
在本实验中,仅需要40个成分就可以获得非常显著的结果。
第一种方法中数据的选择是由于纯粹的数学原因,而不是根据对组织中生化成分的先验知识,第二种方法能使得程序更加的可靠。
QDA和LDA准确率超过99%,kNN和CART准确率超94%,NB下降至80%。

Automated classification of brain tissue: comparison between hyperspectral imaging and diffuse reflectance spectroscopy 脑组织的自动分类:高光谱成像和漫反射光谱的比较

实验对象: 8个猪的离体脑组织,将其分类为灰质和白质;DRS结合该分类的敏感性和特异性为96%,HSI(高光谱成像)的敏感性为95%,特异性为93%
分类方法: 线性支持向量机SVM。
实验流程:

流程: 预处理(归一化、降维)、提取相关特征进行分类、留一交叉验证(LOOCV)进行测试。
数据: 140个DRS信号(其中70个白质、70个灰质)、25张高光谱图像。根据信号的形状对其进行分类。
交叉验证: 针对8个大脑样本中的每个样本进行训练,使用除了该样本的其他几个样本进行测试,避免双样本的使用和过拟合。
结论: 使用DRS进行分类的效果较好。

Diffuse reflectance spectroscopy in dental caries detection and classification 漫反射光谱在龋齿检测与分类中的应用

研究对象:578个不同变化程度的口腔特征群,330个健康,248个不健康。
结果:准确率在94.1 ~ 98.4%之间,交叉验证误差小于8.3%
分类方法:支持向量机、贝叶斯法、k近邻法和神经网络进行分类。初始时只分类为健康和不健康组织,随后分类为:健康组织、可能健康组织、不清晰组织、可能龋齿组织和龋齿。

神经网络模型的准确率最高,F1得分分别为98.4%和98.2%,交叉验证误差最小,为0.2%。

机器学习分类光谱数据相关推荐

  1. 机器学习分类算法_达观数据:5分钟带你理解机器学习及分类算法

    1.本文介绍内容:什么是机器学习,机器学习有哪些分类算法,分类算法之k-近邻,决策树,随机森林2.本文适合人群:本文通过通俗易懂的语言和例子介绍核心思想,不拽高大上的名词,适合于不懂机器学习的小白3. ...

  2. 大数据 机器学习 分类算法_13种用于数据科学的机器学习分类算法及其代码

    大数据 机器学习 分类算法 The roundup of most common classification algorithms along with their python and r cod ...

  3. 机器学习--Iris数据集的Fisher线性分类以及数据可视化技术的学习

    Iris数据集的Fisher线性分类以及数据可视化技术的学习 1.Iris数据集的Fisher线性分类 2.数据可视化技术的学习 1.数据集介绍 2.观看数据前5行 3.特征工程 1.数据清洗 2.数 ...

  4. R语言主成分回归(PCR)、 多元线性回归特征降维分析光谱数据和汽车油耗、性能数据...

    原文链接:http://tecdat.cn/?p=24152 什么是PCR?(PCR = PCA + MLR)(点击文末"阅读原文"获取完整代码数据). • PCR是处理许多 x ...

  5. 15分钟带你入门sklearn与机器学习——分类算法篇

    作者 | 何从庆 本文转载自AI算法之心(ID:AIHeartForYou) [导读]众所周知,Scikit-learn(以前称为scikits.learn)是一个用于Python编程语言的免费软件机 ...

  6. 独家 | 零售业中的惊涛骇浪——人工智能、机器学习和大数据

    作者:Prannoiy Chandran 翻译:李润嘉 校对:丁楠雅 本文约5600字,建议阅读15分钟. 本文教你如何利用人工智能和机器学习来提高零售业的效率和顾客参与度. 时尚是一门富有魅力的生意 ...

  7. 来!一起捋一捋机器学习分类算法

    点击上方"AI遇见机器学习",选择"星标"公众号 重磅干货,第一时间送达 来自:算法与数学之美 可是,你能够如数家珍地说出所有常用的分类算法,以及他们的特征.优 ...

  8. 机器学习中的数据不平衡问题----通过随机采样比例大的类别使得训练集中大类的个数与小类相当,或者模型中加入惩罚项...

    机器学习中的数据不平衡问题 摘自:http://wap.sciencenet.cn/blogview.aspx?id=377102 最近碰到一个问题,其中的阳性数据比阴性数据少很多,这样的数据集在进行 ...

  9. 图机器学习中的数据增强技术

    文稿整理者:张琳 审稿&修改:赵通 本人总结来自圣母大学的博士生赵通在深蓝学院分享的"图机器学习中的数据增强技术"公开课.通过介绍图机器学习的概念,发展历程等,以及分享两篇 ...

最新文章

  1. 7-30 字符串的冒泡排序 (C语言)
  2. 猫和老鼠 蓝桥杯/手速/暴力练习赛(暴力搜索)
  3. java发送html附件_Java发送邮件(图片、附件、HTML)
  4. ArchSummit微课堂|蘑菇街DevOps实践及心路历程分享
  5. 微信打电话和直接打电话有什么区别吗?为什么?
  6. 编程过程中常见几何数学公式汇总
  7. java计算机毕业设计高速公路收费管理源码+mysql数据库+系统+lw文档+部署
  8. 网络基础之静态路由配置及网络问题排查思路
  9. [mybatis异常:Could not find result map ......]
  10. 信捷PLC程序 八轴程序,有伺服也有步进,内部有伺服和步进计算公式换算
  11. comparable的compareTo( )方法
  12. Jenkins+Jmeter+Ant接口用例执行情况监控
  13. 我的世界java村民繁殖条件,我的世界:四个新版村民繁殖的基础条件,而且这个指令也要关掉?...
  14. 论文笔记_SIGGRAPH2019会前课程:An Introduction to Physics-Based Animation_3
  15. matlab的exp函数学习
  16. 【C#】游戏客户端编程
  17. 非随机参数估计的克拉美罗界(Cramer-Rao Bounds)
  18. Java并发编程一万字总结(吐血整理)
  19. 电阻按照封装分为哪几种,不需要解释
  20. WPS在13703以后版本中手工启用新网盘的方法

热门文章

  1. 阿里云域名配置以及https证书(ssl证书)配置
  2. imgareaselect+php实现图片裁剪保存
  3. Linux驱动开发: 杂项字符设备
  4. 回传速率和测量带宽及两者之间的联系
  5. 趣头条“瘦身”减负?
  6. 等比缩放公式_PHP图像等比缩放代码
  7. 区块链中的“双花”问题
  8. 基于JSP(java)网络百宝箱的设计和实现(含源文件)
  9. python的socket
  10. 贫富分化是生产力发展的必然趋势 zz