待解决的问题

在拥有多个模型的情况下,是否可以通过给多个模型分配权重(weight),使得加权后的多模型预测结果要好于单模型?

思路

  • 是否存在通用的多模型weight计算方式?
  • 如果没有,是否存在其他选取模型的方式?
  • 如果权重只能人为设置,增加权重提高拟合度的方法是否可行?
  • 如果权重能自动计算,能否在实际数据训练中增加拟合度?

解决方向

  1. 查找相关论文资料,确认了使用多模型同时计算加权的方式不常见。更多的是对单模型做优化以提高拟合度。简单做法是取所有模型拟合度相加等比放大/缩小到1,放大/缩小系数k作为权重。
  2. sklearn中存在一个分类器VotingClassifier,往这个分类器中添加多个模型,可以根据训练集计算得分(score,拟合度)最高的模型,并以此模型做预测。
  3. 人为设置方式不可取,调整者需要很丰富的经验和大量测试时间。故采用决策树的方式,自动调整权重,得到与训练集拟合度最高的结果为合适方案。同时,此方案需要大量的样本数据才能拟合准确,否则会出现过拟合or仅在特定训练集表现优秀的情况。

试验

假设存在三个模型A B C,训练集train_set。

简单权重计算

训练集拟合得分Sa, Sb, Sc。权重计算为

  1. 当存在 Si<=0 时,该模型的权重Wi = 0,不计算结果。
  2. Ssum = Sa,Sb,Sc相加。
  3. 权重 Wi = Si / Ssum。

此方式得到的权重,在实际计算中未能有效的提升预测结果的拟合度,表现与使用单模型相差不大,整体上表现略逊于拟合度>0.5的模型。

sklearn分类器

将模型放入sklearn分类器进行模拟时发现,分类器选取要求每个模型拟合的训练集在数据清洗组合后都是同维的,才能进行比较。而目前使用的模型:支持向量机(SVR),隐性时间序列(HiddenPeriod),需要的训练集是完全不同维度的(SVR:28, HP: 1)。且将来添加其他模型需要训练的维度也大概率是不同于两者。故此方案不可行。

决策树

目前由于数据数量和边界条件不明,暂时无法做拟合度测试。待重启

结论

以目前的研究和试验看来,权重的方式对拟合度的提升不明显,效率提升不如对单模型进行优化。故权重计算的开发可暂时延后。

另一种思路?

不采用权重同时训练所有的模型,而是先取某个模型进行训练,再针对残差使用另一个模型进行训练。这种思路会使得单模型有针对性的处理特定数据训练集,是否能提高拟合度有待检验。

尝试使用sklearn自动进行多模型预测并计算权重相关推荐

  1. Python使用sklearn构建lasso回归模型并指定样本权重:即构建带样本权重(sample_weight)的回归模型

    Python使用sklearn构建lasso回归模型并指定样本权重:即构建带样本权重(sample_weight)的回归模型 目录

  2. Python使用sklearn构建ElasticNet回归模型并指定样本权重:即构建带样本权重(sample_weight)的回归模型

    Python使用sklearn构建ElasticNet回归模型并指定样本权重:即构建带样本权重(sample_weight)的回归模型 目录

  3. python模型预测_python:目标检测模型预测准确度计算方式(基于IoU)

    训练完目标检测模型之后,需要评价其性能,在不同的阈值下的准确度是多少,有没有漏检,在这里基于IoU(Intersection over Union)来计算. 希望能提供一些思路,如果觉得有用欢迎赞我表 ...

  4. 如何从零开始设计与开发一款通用模型预测调度系统 | 干货分享

    机器学习模型从训练导出到生成环境部署,这个过程中涉及大量工作,会面临着各种问题与挑战,比如不断丰富的业务场景,系统需要负载种类繁多的神经网络,预测任务不均匀等,然而企业拥有的计算资源(如GPU个数)是 ...

  5. sklearn模型预测性能评估(二)

    1. 使用sklearn.metric包中的性能度量函数 1.1 分类器性能度量 精度-召回率-F度量 损失函数 接收机操作曲线 1.2 只限于二元单标签分类问题的评估指标 metrics.preci ...

  6. python模型预测_用Python如何进行预测型数据分析

    数据分析一般分为探索性数据分析.验证型数据分析和预测型数据分析.上一篇讲了如何用Python实现验证型数据分析(假设检验),文章链接:转变:用Python如何实现"假设检验"​zh ...

  7. python模型预测足球_采用 Python 机器学习预测足球比赛结果!买谁赢就谁赢!

    采用 Python 机器学习预测足球比赛结果 足球是世界上最火爆的运动之一,世界杯期间也往往是球迷们最亢奋的时刻.比赛狂欢季除了炸出了熬夜看球的铁杆粉丝,也让足球竞猜也成了大家茶余饭后最热衷的话题.甚 ...

  8. 用Python搭建机器学习模型预测房租价格

    毫无疑问,机器学习是当前大数据分析中最热门的话题.这也是一些最令人兴奋的技术领域的基本概念,例如自动驾驶汽车和预测分析.百度上的机器学习搜索在2019年4月创历史新高,自此以来兴趣一直没有下降. 但是 ...

  9. python xgb模型 预测_Python 调用 PMML

    PMML(Predictive Model Markup Language全称是预测模型标记语言,好处在于PMML可以让模型部署环境脱离开发环境,实现跨平台部署,是PMML区别于其他模型部署方法最大的 ...

最新文章

  1. 2、Mysql 8.0.20最新版本修改密码
  2. 限流算法(记录cyc大佬的专栏)
  3. css degrees_带有Python示例的math.degrees()方法
  4. python全套学习方法_python学习方法总结(内附python全套学习资料)
  5. 最佳实践 | 数据库迁云解决方案选型 流程全解析
  6. python 访问网站 json_python爬虫用selenium访问一个网址返回的是个json字符串,怎么获取这个json字符串?...
  7. php 获取父类名称,[typecho]获取 父级分类 名称?
  8. java基础知识查漏 三
  9. nginx 为什么要反向代理 影藏后端 高效连接(给nginx,他自己返回) 端口冲突解决 多个服务...
  10. 交互软件Axure—高保真原型
  11. [bzoj4136][fjoi2015]带字串包含约束lcs问题
  12. 基于KINECT的拖拉机防撞系统
  13. FlinkSql系列6之 Interval Join
  14. 消失的网秦:创始人遭绑架 414 天,睡觉都戴手铐
  15. 线性规划的对偶问题(The Dual of LP)
  16. 使用ThreeJs从零开始构建3D智能仓库——第二章(创建地面与门窗)
  17. DolphinScheduler PMC Chair 代立冬入选 2021 中国开源先锋 33 人之心尖上的开源人物!...
  18. C++学习(三九一)vs2017 Hostx64 Hostx86 x64 x86
  19. 人工智能技术突破以及教育放量未来可期 增持评级
  20. 合并多个DataTable及将DataTable添加到DataSet的方法

热门文章

  1. 文字生成视频,清华出品
  2. Python平板电脑数据分析-课程大作业-部分源码
  3. 黑苹果 双系统 macos 与Windows蓝牙设备共享
  4. 电脑连不上ishanghai_i-Shanghai免费上网将不限时 详解如何上网不掉线
  5. 前端埋点数据收集及上报方案
  6. 看图吧地图数据如何玩转企业地信圈
  7. 闲谈自动化应用安全测试工具
  8. python自动化脚本常用方法小结
  9. 如何显示文件夹的后缀和隐藏文件
  10. 同期及上期数据对比显示