概述 

“DTEmpower核心功能技术揭秘”系列文章分享了天洑软件多年来工业数据实战所遇到的难题挑战和针对性的技术解决方案,如HierarchicalStratify分层分类技术、AIOD智能异常点检测技术和HDDV高维数据可视化技术。

本系列的第四篇主题将介绍“特征工程”,正所谓“数据和特征决定了机器学习模型的上限,算法则是在不断逼近这个上限”,数据建模分析中,设计数据问题的输入输出特征是非常关键的环节。DTEmpower集成了互信息、灰度矩阵、皮尔逊积矩相关系数、MRMR熵增益分析等常见的特征分析手段。除此之外,为了降低用户特征选择所需的专业要求,天洑进一步针对性地研发出低门槛的MDI/MDA特征重要性功能,用户可以清晰的看到每个特征对输出变量的“贡献”,通过自由设置重要性阈值,可以轻松筛选出对建模增益贡献最大的特征子集。

图1  MDI(Mean Decrease in Inpurity)属于嵌入类方法,适用于大规模数据集,MDA(Mean Decrease in Accuracy)属于包装类方法,计算成本稍高但可以找到性能优秀的特征子集。重要性评分结果以水平柱状图的形式显示每个的重要性,用户可以自由设置重要性阈值进行特征子集截取

基于DTEmpower的MDI/MDA特征选择实战 

1. 电厂水处理系统参数预测(MDI)

① 数据集介绍:来源于某电厂污水处理系统的流量、压差、浊度等时序数据,含有50+特征变量,共21000个样本,目标是预测水处理设备未来一段时间内的出口浊度。

② 建模和实验方法:采用图2所示的建模流程,选取MDI节点作为特征选择工具,并使用ExtraTrees极限随机树算法用以训练出口浊度预测模型。

图2 基于DTEmpower软件平台的水处理设备出口浊度的参数预测建模方案,选取MDI节点作为特征选择工具。利用MDI节点,通过简单的参数配置即可选取不同的特征进行建模

③ 实验分析:考察不同的MDI重要性阈值截断选择对于建模的影响,设定不同的MDI重要性阈值,选取模型的R2和MAPE指标观测模型效果。每组MDI阈值参数做20次独立重复计算,取指标统计值得到分析图3。实验结果表明,随着无用特征的不断剔除,模型精度在不断提高。

图3 设备出口浊度预测模型的精度指标随MDI阈值的变化趋势,当不进行特征选择(MDI重要性阈值为0)时,R2≈0.90,MAPE≈0.08;MDI重要性阈值设置为0.010时,剔除明显的无用特征,此时的模型精度显著提高,R2提高到0.92,MAPE下降至接近0.07;进一步增大MDI重要性阈值,模型精度也有了进一步的提高。但是当阈值设置过大时(本实验中设置为0.020),部分对预测结果有贡献的特征也会被剔除,这会导致模型精度下降

2. 风机测点结构应力快速评估(MDA)

① 数据集介绍:某头部风机制造商提供的结构应力评估数据集,含有15维输入特征,含有2400个样本,目标是快速评估测点的结构应力。

② 建模方法:采用图4所示的建模流程,采用Random Forest随机森林、GBDT(Gradient Boosting Decision Tree)梯度提升树、ExtraTrees极限随机树和Bagging共4种算法进行对比实验。

③ 实验分析:设定不同的MDA重要性阈值,对不同阈值对应模型的R2和NRMSE指标进行统计对比,分析结果见图6、图7。

图4 DTEmpower提供了一站式的数据建模解决方案,通过简单的节点拖拽即可搭建完整的建模流程。MDA作为特征选择工具,能够剔除“无用特征”,为搭建高精度模型提供支持

图5 使用MDA功能模块计算出15个特征变量的重要性值并进行排序后的实验结果。可以看到:V14、V3、V4等特征的重要性较低;V12、V2等特征的重要性较高;V11、V10等处于中间水平,对于目标变量也有一定的“贡献度”

图6 随着MDA阈值的不断增加,4种模型的R2指标出现了明显的上升趋势。但是当阈值增大到一定程度时(实验中为0.0450),对目标变量有“贡献”的特征V11被删除,此时模型的精度开始下降

图7 4种模型的NRMSE指标随MDA阈值的变化趋势,结合图6可以看出:不断删除“无用特征”可以有效的帮助用户提升模型精度,降低模型的预测误差。但是当MDA阈值设置的过大时,“有用特征”也会被删除,建议用户此时应停止特征筛选

总结

数据和特征决定了模型的上限,因此,在进行具体的模型训练之前,进行精细化的特征工程是搭建高精度模型的必要条件。常用的诸如相关性、灰度矩阵分析法等手段存在一定的交互限制和使用门槛。

DTEmpower集成了低门槛的MDI/MDA特征重要性选择功能。通过实际工业场景中的应用案例和对比实验,证明了MDI/MDA功能模块能轻松、有效地辅助用户提前优秀的特征子集,和建模流程的无缝连接,可高效地辅助用户搭建高精度模型。

【技术】DTEmpower核心功能技术揭秘(4)- MDI/MDA特征选择技术相关推荐

  1. 【技术】DTEmpower核心功能技术揭秘(2) - AIOD智能异常点检测技术

    一.概述 在上一篇<DTEmpower核心功能技术揭秘(1)--HierarchicalStratify分层分类技术>中,我们提到工业设计方法中往往大量采用了数据驱动的方式构建代理模型.但 ...

  2. 【技术】DTEmpower核心功能技术揭秘(7) - ROD基于回归分析的异常点检测技术

    概述 <DTEmpower核心功能技术揭秘>系列的文章围绕着如何提升机器学习模型的精度,介绍了AIOD.AIAgent.autoML等核心技术.其中AIOD异常点检测技术融合了数十种常见的 ...

  3. 大型网站技术架构:核心原理与案例分析 mobi_大数据技术经典学习路线

    如果你看完有信心能坚持学习的话,那就当下开始行动吧! 点击链接加入群聊[大数据学习交流群]:想要在大数据这个领域汲取养分,让自己壮大成长.分享方向,行动以前先分享下一个大数据交流分享资源,欢迎想学习, ...

  4. React+Redux技术栈核心要点解析(中篇)

    感谢作者郭永峰的授权发布. 作者:郭永峰,前端架构师,现用友网络 FED团队负责人,目前主要负责企业级应用前端技术平台建设工作,在前端工程化实现.Node 应用开发.React技术.移动开发等方向有丰 ...

  5. React+Redux技术栈核心要点解析(下篇)

    感谢作者郭永峰的授权发布. 作者:郭永峰,前端架构师,现用友网络 FED团队负责人,目前主要负责企业级应用前端技术平台建设工作,在前端工程化实现.Node 应用开发.React技术.移动开发等方向有丰 ...

  6. React+Redux技术栈核心要点解析(上篇)

    感谢作者郭永峰的授权发布. 作者:郭永峰,前端架构师,现用友网络 FED团队负责人,目前主要负责企业级应用前端技术平台建设工作,在前端工程化实现.Node 应用开发.React技术.移动开发等方向有丰 ...

  7. Live800:智能客服机器人有哪些核心功能?

    随着互联网的普及和用户服务要求的不断升级,许多企业已经开始关注在线客服系统以及智能客服机器人的应用. 那么,智能客服机器人在解决企业痛点的过程中,充分使用了哪些核心功能呢? 一.自然语言处理 客户提问 ...

  8. 单图说TDSQL;OceanBase 2.2 事务引擎核心功能;穿云箭2.0版发布;RMAN DUPLICATE配置19C DG;外键上有无索引的影响;MySQL8.0 索引新功能;GaussDB C

    摘要:墨天轮数据库周刊第16期发布啦,每周1次推送本周数据库相关热门资讯.精选文章.干货文档. 热门资讯 1.英国电信企业Virgin Media营销数据库配置错误 导致90万客户信息泄露 [摘要]英 ...

  9. 上门洗车软件的核心功能和技术选型

    一.上门洗车软件的核心功能一般包括以下几个方面: 1.预约服务:用户可以在上门洗车软件上进行车辆预约,选择洗车.打蜡.除臭等服务以及时间和地址等信息,方便用户安排车辆清洗的时间和地点. 2.订单管理: ...

最新文章

  1. zabbix mysql 8g优化_zabbix mysql调优
  2. python mysql 遍历_Python自动化办公系列六(pdf文档处理)
  3. svn的搭建和和文件检出与提交
  4. SHD0新建屏幕变式
  5. Mysql学习总结(6)——MySql之ALTER命令用法详细解读
  6. 【Gas Station】cpp
  7. 如何转换html转化mp4,格式互转技巧:webm格式怎么转换mp4?
  8. eova(JFinal)项目一键式部署方法
  9. 单片机c语言出租车计时程序,基于单片机的出租车计费(c语言
  10. Lab: Username enumeration via different responses:通过不同的响应来验证用户名是否正确复盘
  11. 通信教程 | 波特率、比特率、通信速度的区别
  12. 牛顿下山法(C语言实现)
  13. 实用经验 92 区分函数模版与模版函数,类模版和模板类
  14. 利用python的docx模块处理word和WPS的docx格式文件
  15. 黑马程序员_Java_线程池
  16. Django开发个人博客网站——12、实现不同大小的标签云样式
  17. 红米note4android,红米Note4处理器是什么型号?红米Note4处理器的具体参数和性能
  18. 知乎高赞:35岁失业的程序员,最后都去了哪儿?是在路边摊炒粉和做烤鸭?...
  19. python turtle绘图-案例集锦(小猪佩奇、哆啦A梦、小黄人、樱花树、皮卡丘、汉诺塔、高达、星空等)
  20. VAA先锋音讯智能语音质检分析系统-让服务问题无处可藏

热门文章

  1. 使用Xshell连接Ubuntu 20.4系统时提示
  2. 老电脑安装XP时遇到问题的总结
  3. 计算机专业的研究生专业方向
  4. (APIO)烟火表演
  5. loj 573 单枪匹马
  6. 前端如何单枪匹马实现小程序页面级版本控制
  7. 操作系统作业:向内核中添加一个系统调用
  8. win10计算机本地连接属性在哪里,Win10系统打开本地连接属性的方法
  9. java gettext用法_Java Label.getText方法代码示例
  10. AI 行业发展趋势和人才需求预测