Detail 零基础入门数据挖掘 (心跳信号分类) 学习反馈TASK3

使用语言:python

Tas1 – Task5

Task4 建模与调参

本次学习的重点是贪心调参、网格搜索调参、贝叶斯调参共三种调参方法

模型对比与性能评估

  • 逻辑回归
  • 决策树
  • 集成模型集成:Bagging和Boosting
在个人使用中,常见的是前两个;故对第三种进行详细学习:

Bagging和Boosting都是将已有的分类或回归算法通过一定方式组合起来,形成一个更加强大的分类。两种方法都是把若干个分类器整合为一个分类器的方法,只是整合的方式不一样,最终得到不一样的效果。常见的基于Baggin思想的集成模型有:随机森林、基于Boosting思想的集成模型有:Adaboost、GBDT、XgBoost、LightGBM等。

Baggin和Boosting的区别总结如下:

  • 样本选择上: Bagging方法的训练集是从原始集中有放回的选取,所以从原始集中选出的各轮训练集之间是独立的;而Boosting方法需要每一轮的训练集不变,只是训练集中每个样本在分类器中的权重发生变化。而权值是根据上一轮的分类结果进行调整
  • 样例权重上: Bagging方法使用均匀取样,所以每个样本的权重相等;而Boosting方法根据错误率不断调整样本的权值,错误率越大则权重越大
  • 预测函数上: Bagging方法中所有预测函数的权重相等;而Boosting方法中每个弱分类器都有相应的权重,对于分类误差小的分类器会有更大的权重
  • 并行计算上: Bagging方法中各个预测函数可以并行生成;而Boosting方法各个预测函数只能顺序生成,因为后一个模型参数需要前一轮模型的结果。
模型评价方法:

数据划分
留出法,交叉验证法和自助法( 当k=1的时候,我们称之为留一法

  • 对于数据量充足的时候,通常采用留出法或者k折交叉验证法来进行训练/测试集的划分;
  • 对于数据集小且难以有效划分训练/测试集时使用自助法
  • 对于数据集小且可有效划分的时候最好使用留一法来进行划分,因为这种方法最为准确
    模型评价 f1-score、ks、auc
模型调参:
  • 1. 贪心调参
    • ①:max_depth、num_leaves
    • ②:min_data_in_leaf、min_child_weight
    • ③:bagging_fraction、 feature_fraction、bagging_freq
    • ④:reg_lambda、reg_alpha
    • ⑤:min_split_gain
  • 2. 网格搜索
  • GridSearchCV用于进行网格搜索,只需要把模型的参数输进去,就能给出最优化的结果和参数;只适用于小数据集。
  • 3.贝叶斯调参
    • 定义优化函数(rf_cv)
    • 建立模型
    • 定义待优化的参数
    • 得到优化结果,并返回要优化的分数指标
对于调参需要根据数据具体进行设置参数;同时需要考虑调用不同的API官方库的定义函数(集成模型中原生库和sklearn下的库部分参数不一致,需要注意,具体可以参考xgb和lgb的官方API);本次项目重点使用贝叶斯调参对本次项目进行简单优化。
未调参前

调参后

lgb_scotrainre_list:[0.9615056903324599, 0.9597829114711733, 0.9644760387635415, 0.9622009947666585, 0.9607941521618003]
lgb_score_mean:0.9617519574991267
lgb_score_std:0.0015797109890455313

个人收获:

MK文档撰写
具体参数调参

Datawhale 零基础入门数据挖掘心跳信号分类学习反馈04相关推荐

  1. Datawhale 零基础入门数据挖掘心跳信号分类学习反馈

    Detail 零基础入门数据挖掘 (心跳信号分类) 学习反馈TASK1 使用语言:python Tas1 – Task5 Task1 赛题理解: 根据给定的数据集,建立模型,预测不同的心跳信号(以预测 ...

  2. Datawhale 零基础入门数据挖掘心跳信号分类学习反馈02

    Detail 零基础入门数据挖掘 (心跳信号分类) 学习反馈TASK2 使用语言:python Tas1 – Task5 Task2_数据探索性分析 涉及函数:总览+判断数据缺失和异常+分布 data ...

  3. Datawhale 零基础入门数据挖掘心跳信号分类学习反馈03

    Detail 零基础入门数据挖掘 (心跳信号分类) 学习反馈TASK3 使用语言:python Tas1 – Task5 Task3_数据特征工程分析 主要是针对时间序列的心电图数据加上:特征time ...

  4. 2021-03-17零基础入门数据挖掘-心跳信号分类预测

    零基础入门数据挖掘-心跳信号分类预测TASK02 1.学习目标: 2.学习内容 2.1载入库 2.2载入数据 2.3数据总览 2.4数据缺失和异常 2.5预测值分布 1.学习目标: 数据探索性分析ED ...

  5. Datawhale零基础入门数据挖掘-Task5模型融合

    Datawhale零基础入门数据挖掘-Task5模型融合 五.模型融合 5.1 模型融合目标 5.2 内容介绍 5.3 Stacking相关理论介绍 5.4 代码示例 5.4.1 回归\分类概率-融合 ...

  6. Task 3 特征工程 Datawhale零基础入门数据挖掘- 二手车交易价格预测

    Task 3 特征工程 Datawhale零基础入门数据挖掘- 二手车交易价格预测 Tips:此部分为零基础入门数据挖掘的Task3特征工程部分,主要包含各种特征工程以及分析方法 赛题:零基础入没人能 ...

  7. Datawhale 零基础入门数据挖掘-Task2 数据分析

    数据探索在机器学习中我们一般称为EDA(Exploratory Data Analysis):是指对已有的数据(特别是调查或观察得来的原始数据)在尽量少的先验假定下进行探索,通过作图.制表.方程拟合. ...

  8. 【组队学习】【23期】Datawhale零基础入门数据挖掘(心跳信号分类)

    零基础入门数据挖掘(心跳信号分类) 开源内容:https://github.com/datawhalechina/team-learning-data-mining/tree/master/Heart ...

  9. Datawhale 零基础入门数据挖掘-Task5 模型融合

    模型融合是比赛后期一个重要的环节,大体来说有如下的类型方式. 一.简单加权融合 1.回归(分类概率):算术平均融合(Arithmetic mean),几何平均融合(Geometric mean): 2 ...

最新文章

  1. 使用OpenCV和Python计算图像的“彩色度”
  2. QIIME 2教程. 32如何写方法和引用Citing(2020.11)
  3. 升级php影响zabbix吗,zabbix2.0升级到zabbix3.0
  4. 从sqlite 迁移 mysql_将 Ghost 从 SQLite3 数据库迁移到 MySQL 数据库
  5. Python_爬虫_案例汇总:
  6. 网页版 Nginx 配置文件生成器发布,在线一健生成神器!不用愁了!
  7. 正确使用 realloc()
  8. 软件测试面试题(全)
  9. 配置catalina.out的日志格式
  10. IE主页被恶意软件劫持,360卫士无法修改
  11. MT【33】证明琴生不等式
  12. dexpathlist.java_java.lang.ClassNotFoundException: Didn't find class xxx on path: DexPathList
  13. NGINX源码之:ngx_hash
  14. 详解Dell EMC发布的PowerMax存储和R系列计算系统
  15. 人和摩托最快达到目的地
  16. WebDAV之葫芦儿•派盘+Obsidian笔记
  17. win10 c语言 语音功能,win10系统自带录音功能在哪?windows10开启录音功能的方法-系统城...
  18. 解决谷歌浏览器跨域以及cookie保存失效重复登录
  19. BIGEMAP APP导入/导出文件\照片(kml\shp\cad(dxf)\txt\excel)
  20. [内核安全4]内核态Rootkit之IDT Hook

热门文章

  1. android 图标素材可查找方向
  2. OpenGL ES之实现“大头小头”和“头部晃动”的效果
  3. android 单行文本滚动,Android UI实现单行文本水平触摸滑动效果
  4. 抖音矩阵系统源码,抖音矩阵系统定制开发look
  5. JavaWeb——HTML基本标签(1)作业
  6. 电脑tf卡检测不到_手机内存卡在电脑上读不出来,怎么办?
  7. OSChina 周一乱弹 —— 人生,一场漂泊
  8. PYNQ-Z2学习——启动PYNQ,安装需要的软件和系统
  9. qsort函数用法详解
  10. APP测试方法与技巧-----自动化测试