1.前言
金线莲为兰科开唇兰属植物,别名金丝兰、金丝线、金耳环、乌人参、金钱草等,是一种名贵中药材,国内主要产地为较低纬度地区如:福建、台湾、广东、广西、浙江、江西、海南、云南、四川、贵州以及西藏南部[1],被当地人民誉为“药中之王”,福建品种和台湾品种更是其中的上等品种,在治疗肺部炎症、糖尿病、癌症、肾炎、膀胱炎、重症肌无力、风湿性及类风湿性关节炎、高血脂、毒蛇咬伤有着很大的作用[2-3]。由于野生金线莲的自然繁殖率低、生长条件受限制等原因导致数量有限,市面上出售的金线莲大多为人工培育品种。不同品系金线莲主要活性成分相似,但是其有效化学成分含量不同,因此药用价值不同。因此,如何准确有效识别金线莲的品系和成分对保障药方药效、维护消费者利益具有重要意义。为了更好地规范金线莲市场,保证金线莲质量,需要一种快速可靠的金线莲及其伪品的鉴别方法,而对于金线莲内部有效化学成分的含量鉴定是具有很大研究潜力的课题方向。
金线莲尚未被《中华人民共和国药典》收载,目前可遵循的国家级最高标准当属国家质量监督检验检疫总局颁布的质量技术要求。其在2011年第175号公告中根据《地理标志产品保护规定》批准永安金线莲实施地理标志产品保护,并对永安金线莲的质量技术要求作了规定,包括感官特性,其中金线莲鲜品要求株高6cm以上,植株硬挺,茎节明显,根2~3条,叶5~6片,叶为卵椭圆形,互生具柄。尾尖,叶表面墨绿色有光泽,叶脉金黄清晰,脉络相连,背面呈淡紫色。市售金线莲鲜品、干品多糖均不低于15%(以干基计),黄酮均不低于0.8%(以干基计),干品另外要求水分小于12%。近年来,金线莲的组织培养技术不断向更高水平发展,目前已经实现了金线莲的较大规模工厂化育苗和人工栽培[4],并且在我国人口结构日渐趋向于老龄化和广大人民对医疗健康的需求不断增加,对美好生活的标准日渐提高,呼唤药材市场规范标准化的声音愈加强烈和迫切等多方因素影响的时代背景下,医药领域的市场必将不断扩大。因此,金线莲的市场需求和产量在未来都将有极大提升,而为了保证我国消费者的权益,更好地完善政府相关机构对金线莲市场进行监管,与之对应的金线莲质量鉴别研究必将拥有非常广阔的发展前景。而人工智能作为提升生产效率,提高生产力的一种高新技术,如果能将机器学习中的stacking集成学习方法融入到金线莲质量鉴别中,并逐渐推广到其他医药相关领域中去,必定能够给医药领域带来效率方面的提高,促进我国医药卫生领域的发展。
2.国内外研究现状分析
目前国内外对金线莲的品质鉴定通常依赖于化学分析方法,其中一种是分离成分鉴定法于2008年由曹扬远提出,将金线莲黄酮类成分和甾醇类成分的分离,测定金线莲中三种黄酮醇类物质的含量,可以作为衡量该药材质量的一个指标,以控制金线莲及其制剂的质量[5]。另一种化学分析方法即高效液相色谱法在2017年由邹舒鹏提出:利用金线莲HPLC测定法,主峰在供试品溶液中的保留时间与金线莲苷对照品峰应该相同,制订了金线莲苷HPLC鉴别法。最终采用薄层、高效液相色谱的鉴别[6]。
随着我国科技实力不断增强,生产力水平日益提高,除了化学分析法外还产生了利用其他学科进行金线莲质量鉴别的方法。2020年由谢文涌、柴琴琴、王武等提出形状特征、纹理特征和颜色特征来作为叶片的识别特征的基于多特征提取和stacking集成学习的机器视觉鉴定法[7]。以及王海阁,许文,张勋等提出的通过(叶)显微构造观察,发现不同品系金线莲上表皮细胞和叶肉薄壁细胞的内含物存在差异,从而进行金线莲质量的鉴别的显微镜鉴别法[8]。还有一种方法值得借鉴的是:林艳春在2019年提出利用近红外光谱检测技术进行豆粉质量分析:近红外光谱照射时,由于不同分子的分子结构不同导致不同,导致得到的光谱不同。因此通过近红外光谱技术对药材质量进行检测时,根据得到红外光谱的波长范围进行分析,从而准确地分析出红外光线所携带的分子信息结构与组成的成分[9]。该方法为金线莲质量鉴别提供了一种新的思路。
在2009年结束的Netflix推荐大赛中,由于顶级参赛小组均使用集成学习算法,使得基于Stacking的Ensemble方法得到了广泛的关注,并因此让针对集成学习的算法研究在世界范围的发展进入了加速时期,2011年方育柯,傅彦,周俊临等首先基于集成学习研究了个性化推荐算法[10],他们因此成为了中国首批研究集成学习的学者,此后的2012、2013年仍有集成学习的相关论文发表,从2015年开始集成学习作为一个热门研究方向进入了广大领域的科学家的眼中,关于集成学习的论文发表数自2015年-2020年保持着不断增长的趋势。2018年徐凯,崔颖提出利用STACKING集成学习在光谱图像分类研究中能产生重要作用[11],高光谱图像分类研究中,集成学习能够显著地提高分类效果。但是传统的并行多分类系统对基础分类器有较高要求,即要求差异性及分类均衡。为了解决这一问题,采用StackingLearning的堆栈式学习方式,首先使用K-Fold和交叉验证的方式进行数据分割和训练,将原始特征进行特征变换,重新构建二级特征,再使用新特征进行对Meta分类器进行训练得到判决分类器,用于样本的最后分类判断。实验结果表明,采用的StackingLearning方法不依赖基础分类器,且相比较于传统的多分类系统具有更高的精度和良好的稳定性。面对我国医疗服务系统存在的医疗资源供给不足、分配不均、医疗效率低等困境。人工智能技术正在显示它改造医疗行业与社会的潜力。基于医疗大数据、深度学习算法和愈发优异的计算机运算能力。凭借在辅助诊疗、药物研发、健康管理、医院管理等多个场景的应用,人工智能将从诊疗技术和药材系统两个层面。通过多条路径来提升我国医疗的效率。随着国务院在《新一代人工智能发展规划》中指出要推广应用人工智能医疗的新模式、新手段,人工智能医疗项目将在医疗领域的各个场景中得到开展[12],因此stacking集成学习作为一种能够提高效率的机器学习方法,必将在未来的医疗领域中得到更加广泛的应用,而药材质量鉴别分类将是其中一个至关重要的环节。
吸收光的能力不同,从而导致得到的光谱不同。因此通过近红外光谱技术对药材质量进行检测时,根据得到红外光谱的波长范围进行分析,从而准确地分析出红外光线所携带的分子信息结构与组成的成分[9]。该方法为金线莲质量鉴别提供了一种新的思路。
在2009年结束的Netflix推荐大赛中,由于顶级参赛小组均使用集成学习算法,使得基于Stacking的Ensemble方法得到了广泛的关注,并因此让针对集成学习的算法研究在世界范围的发展进入了加速时期,2011年方育柯,傅彦,周俊临等首先基于集成学习研究了个性化推荐算法[10],他们因此成为了开启中国集成学习时代的学者,此后的2012、2013年仍有集成学习的相关论文发表,从2015年开始集成学习作为一个热门研究方向进入了广大领域的科学家的眼中,关于集成学习的论文发表数自2015年-2020年保持着不断增长的趋势。2018年徐凯,崔颖提出利用STACKING集成学习在光谱图像分类研究中能产生重要作用[11],高光谱图像分类研究中,集成学习能够显著地提高分类效果。但是传统的并行多分类系统对基础分类器有较高要求,即要求差异性及分类均衡。为了解决这一问题,采用StackingLearning的堆栈式学习方式,首先使用K-Fold和交叉验证的方式进行数据分割和训练,将原始特征进行特征变换,重新构建二级特征。再使用新特征进行对Meta分类器进行训练得到判决分类器,用于样本的最后分类判断。实验结果表明,采用的StackingLearning方法不依赖基础分类器,且相比较于传统的多分类系统具有更高的精度和良好的稳定性。面对我国医疗服务系统存在的医疗资源供给不足、分配不均、医疗效率低等困境。人工智能技术正在显示它改造医疗行业与社会的潜力。基于庞大的医疗数据、优秀的深度学习算法和愈发优异的诊疗、药物研发、健康管理、医院管理等多个场景的应用。凭借在辅助诊疗技术和医疗系统两个层面,通过多条路径来提升我国医疗的效率。随着国务院在《新一代人工智能发展规划》中指出要推广应用人工智能医疗的新模式、新手段。人工智能医疗项目将在医疗领域的各个场景中得到开展[12],因此stacking集成学习作为一种能够提高分类效率的机器学习方法,必将在未来的医疗领域中得到更加广泛的应用。伴随着药材市场的不断扩大,数据量和数据种类也将不断增加,从而产生了非平稳的数据流,针对数据流的非平稳特性,集成学习就成为了解决数据流的重要方法,而在国际范围内学术界对该方法已有了一些探索和研究。
在2019年IEEE第八届国际信息技术和人工智能联合会议(ITAIC)上,来自国防科技大学的中国学者们提出利用多模型叠加集成算法来进行个性化商品推荐,该方法对比于传统基于协同过滤(CF)的方法,能够更好地避免CF推荐算法的瓶颈,防止过拟合,从而得到更好的预测结果[13]。
而集成学习在数据处理方面也拥有其独特的优势,2017年由弗吉尼亚联邦大学计算机科学系的Bartosz.krawczyk等提出由于数据流的非平稳特性,导致在内存和时间有限的情况下要使用算法进行数据处理就需要用到集成学习的方式[14]。另外由于数据流的非平稳特性导致模型必须适应概念漂移,因此必须有更多元性的模型构建输入。根据wolpert提出的“没有免费的午餐”定理,没有一个单一的分类器适合所有的任务,因为每个算法都有自己的能力范围。因此我们需要将多种分类器相结合,把复杂、困难的大问题分解成更简单的子问题,提高预测精度。具体步骤可分为以下三点:1、找到各个分类器的连接关系2、构建一个多样化且互补的分类器集合3、用复合规则限制最后的结果。一个好的集成学习应该有多样化且正确率高的分类器,这是建立数据流分类器的一个极好的方式,因为他能分配数据流向以适应最新的数据流,而最新的数据会使得他重新训练集成部分并抛弃过时的分类器。
集成作为一种集体决策系统,是将学习到的分类器的预测结合起来进而生成对新实例的预测。计算机技术已经发展了几十年,要显著提高单个分类器的性能已经成为了一项事倍功半的工作,因此将不同种类分类器组合以获得更好分类性能的思路取得了学术界的广泛关注。2013年由香港岭南大学YiJunChen,Man-Leung Wong,Haibing Li等人提出stcking集成分类器能够实现相比于单一成分分类器更准确的分类[15]。stacking和BAGGING、BOOSTING算法不同的是,它从不直接操作训练数据集,相反,由通过不同学习算法训练的多个分类器构成基础层以及用结合了基本分类器输出和真实类标签的元数据集的算法训练元层,这两个层次生成一个分类器的集合。从而实现将具有差异性的分类器相结合,进而得到优化分类性能的结果。
但至今为止国内外还未有学术研究将stacking集成学习和金线莲的近红外光谱检测数据进行结合,从而开发出对于金线莲质量鉴别的高级分类方法,因此本篇论文着手于基于stacking learning的金线莲质量鉴别研究,将stacking集成学习应用的近红外光谱分析中,与传统的以人工对比分析近红外光谱数据相比能够节约大量的时间和人力成本,既能提高对金线莲质量鉴别的准确性,又能提高鉴别分类的速度,还降低了鉴别所需要的成本,因此是一个极具价值的研究方向。对于stacking集成学习在应用中我们最关注的研究方向,也就是生成一个理想的集成分类器的最主要难点是如何合理地配置每个基本分类器和元分类器。影响基础分类器发挥作用的因素既包括了学习算法的多样性,又包含了元分类器类型对基础分类器的融合。因此,本篇论文的研究方向在于基于stacking集成学习原理编写基本分类器和元分类器,并利用PCA方法原理进行数据降维仿真并设置合适的权重进行训练,使分类器能够在保证一定的准确率的前提下进行金线莲的质量鉴别。
3.主要参考文献
[1]王莹,邱江明,吴建阳, 等.适宜工厂化生产的江西野生金线莲组织培养技术研究[J].农业与技术,2014,(3):11-12. DOI:10.3969/j.issn.1671-962X.2014.03.010.
[2]林平,华碧春,黄智锋.金线莲的质量标准探讨[J].福建中医药大学学报,2012,22(5):40-42. DOI:10.3969/j.issn.1004-5627.2012.05.014.
[3]陈人龙.说说金钱莲[J].健康人生,2019,(11):50-51.
[4]韩金龙,张雪峰,单成钢, 等.金线莲组培技术现状及发展趋势[J].现代农业科技,2019,(22):90-91.
[5]曹扬远.金线莲中化学成分的研究[D].福建:福建医科大学,2008. DOI:10.7666/d.y1333787.
[6]邹舒鹏.金线莲保健食品的研究与开发[D].湖北:华中科技大学,2017. DOI:10.7666/d.D01309955.
[7]谢文涌,柴琴琴,甘勇辉, 等.基于多特征提取和Stacking集成学习的金线莲品系分类[J].农业工程学报,2020,36(14):203-210. DOI:10.11975/j.issn.1002-6819.2020.14.025.
[8]王海阁,许文,张勋, 等.林下栽培金线莲的生药鉴别[J].中药材,2020,43(2):303-308. DOI:10.13863/j.issn1001-4454.2020.02.009.
[9]林艳春.近红外光谱技术在豆粉质量分析中的应用[J].现代食品,2019,(6):154-156. DOI:10.16736/j.cnki.cn41-1434/ts.2019.06.047.
[10]方育柯,傅彦,周俊临.基于集成学习的个性化推荐算法[J].计算机工程与应用,2011,47(10):1-4. DOI:10.3778/j.issn.1002-8331.2011.10.001.
[11]徐凯,崔颖.Stacking Learning在高光谱图像分类中的应用[J].应用科技,2018,45(6):42-46,52. DOI:10.11991/yykj.201712011.
[12]厉杰,章富荣.人工智能提升我国医疗效率的机遇与挑战[J].江南论坛,2020,(10):30-32.
[13]AolongZhou;KaijunRen;XiaoyongLi;WenZhang.MMSE: A Multi-Model Stacking Ensemble Learning Algorithm for Purchase Prediction[A].2019 IEEE 8th Joint International Information Technology and Artificial Intelligence Conference (ITAIC)[C],2019
[14] KrawczykB ,Minku L L , Gama J , et al. Ensemble learning for data stream analysis: A survey[J]. Information Fusion, 2017, 37:132-156.
[15] Chen Y J , Wong M L , Li H . Applying Ant Colony Optimization to configuring stacking ensembles for data mining[J]. Expert Systems with Applications, 2014, 41( 6):2688-2702.

基于机器学习中集成学习的stacking方式进行的金线莲质量鉴别研究(python进行数据处理并完成建模,对品种进行预测)相关推荐

  1. 机器学习中集成学习的一些知识

    集成学习 (ensemble learning) 通过构建并结合多个学习器来完成学习任 务,有时也被称为多分类器系统(multi-classifier system) .基于委员会的学 (commit ...

  2. 【机器学习】集成学习之stacking

    stacking方法也是集成学习的一个作弊一样的方法. 比bagging,boosting内容要少一点. 简介 Stacking(有时候也称之为stacked generalization)是指训练一 ...

  3. 机器学习——基于Bagging的集成学习:随机森林(Random Forest)及python实现

    基于Bagging的集成学习:随机森林的原理及其实现 引入 Bagging装袋 随机森林 随机森林分类 随机森林回归 python实现 随机森林分类 随机森林回归 引入 "三个臭皮匠赛过诸葛 ...

  4. 【机器学习】集成学习知识点总结一

    集成学习算法概述 严格意义上来说,集成学习算法不算是一种机器学习算法,而更像是一种优化手段或策略,它通常是结合多个简单的弱机器学习算法,去做更可靠的决策.有人把它称为机器学习中的"屠龙刀&q ...

  5. 【机器学习】集成学习与模型融合方法举例

    [机器学习]集成学习与模型融合方法举例 文章目录 1 概述1.1 什么是集成学习 2 CrossValidation 交叉验证 3 stacking 4 Voting投票器 5 Bagging 1 概 ...

  6. 基于机器学习与深度学习的金融风控贷款违约预测

    基于机器学习与深度学习的金融风控贷款违约预测 目录 一.赛题分析 1. 任务分析 2. 数据属性 3. 评价指标 4. 问题归类 5. 整体思路 二.数据可视化分析 1. 总体数据分析 2. 数值型数 ...

  7. 【机器学习】集成学习—Boosting—GBM(Gradient Boosting Machine)解析

    [机器学习]集成学习-Boosting-GBM(Gradient Boosting Machine)解析 文章目录 [机器学习]集成学习-Boosting-GBM(Gradient Boosting ...

  8. 研究型论文_基于双层异质集成学习器的入侵检测方法

    文章目录 基于双层异质集成学习器的入侵检测方法 论文摘要 论文解决的问题 1.模型体系结构 2.数据降维 3.交叉验证策略 4.分类评估算法 5.多分类器集成算法 6.总结 参考文献 基于双层异质集成 ...

  9. 【机器学习】集成学习投票法:投票回归器(VotingRegressor) 投票分类器(VotingClassifier)

    前言 投票回归器和投票分类器都属于集成学习.在[机器学习]集成学习基础概念介绍中有提到过,集成学习的结合策略包括: 平均法.投票法和学习法.sklearn.ensemble库中的Voting Clas ...

最新文章

  1. 异构GoldenGate 12c 双向复制配置
  2. 如何着手学习一个新的PHP框架
  3. 打开.264后缀名格式的文件
  4. java mqtt客户端_MQTT消息队列遥测传输
  5. 绝地求生大逃杀,改配置
  6. JavaScript匿名函数与托付
  7. 【Java用法】java 8两个List集合取交集、并集、差集、去重并集
  8. django request对象和HttpResponse对象
  9. Honeywell1900霍尼韦尔 扫描二维码 QT 客户端显示数据
  10. OneNote网页版链接用桌面应用打开报错的解决
  11. 树莓派配置文件config.txt详细介绍
  12. 一位微信小程序萌新的学渣笔记(三)基础语法之常见组件
  13. Word中跨页表格都显示表头
  14. Spring 02
  15. edge linux 下载软件,如何下载安装微软Microsoft Edge for Linux预览版?
  16. B2C购物网站常用分类目录
  17. 诺基亚手机是怎么分平台的?
  18. html5网页播放声音
  19. 仿微信支付密码的弹框
  20. ros对应不同的ubuntu版本

热门文章

  1. mac按键难回弹(按下去软软的)
  2. HDU 1885 Key Task 国家压缩+搜索
  3. 密码破解工具John the Ripper使用说明
  4. Fabrice Bellard其人 ---- FFMPEG及其他……
  5. uploadify上传图片
  6. 比较两个Integer的值是否相等
  7. 关于png的交错Interlace
  8. 计算机怎么设置java环境_怎么设置java环境变量
  9. ThinkPad E420升级改造过程
  10. SAP中可替代物料按比例使用消耗分析测试