一、数据预处理

1、数据缺失值的处理:除了简单的填均值、众数外在竞赛中还有哪些方法有效提升分数;

2、数据异常值的处理:如何判断是否要处理异常值;若要处理,如何筛选出异常值,

如何对异常值做处理能有效提升分数;

3、如何分析训练集和测试集的特征分布及影响;

4、对特征分布影响预测效果的分析,如何修正特征分布能提升预测分数,比如 log变

换等,如何使用。回归问题的标签列是否需要做变换。

5、类别变量的处理技巧

6.高维度如何降维?

二、特征工程

1、特征和特征之间、特征和标签之间的关系如何分析和利用,在竞赛中有效的方法有哪些?

2.有时用相关系数法对特征-标签进行分析,都是无相关性,这时要怎么利用特征呢?

3、特征数量较少时,是否需要构造新特征,常用的构造方法有哪些呢,如何评估构造的新特征好坏?实践中手动构造特征较为低效,特征构造的有哪些高效的工具可用?匿名特征如何构造分析?

4、特征数量较多时,是否需要特征选择,常用的选择方法有哪些,如何结合多方法综合评估,如何评估选择结果的好坏?

三、模型训练

1、怎么读取数据

2、怎么划分训练集和验证集

四、模型调参

1、在模型训练时要配置哪些参数?

2、逻辑回归,SVM,神经网络,XGBoost和 LightGBM等模型的调参参数及参数范围是多少?

3、模型自动化调参GridSearch 和 RandomSearch是什么?

五、模型验证

1.模型验证指标有哪些?

2.模型验证指标怎么选择?

3.accuracy是什么?

4.ks是什么指标?

5.AUC是什么指标?

6.混淆矩阵是什么?

7.PSI是什么?

8.模型区分能力指标有哪些?

9.模型稳定性指标有哪些?

六、融合模型

1.stacking融合模型在kaggle竞赛应用

2.stacking融合模型原理是?

3.融合模型可以提高accuracy准确率吗?

4.stacking融合模型可以提高AUC吗?

5.stacking融合模型可以提高f1分数吗?

6.stacking融合模型如何绘制决策域decision region?

7.如何用概率值作为元特征训练融合模型?

8.stacking融合模型和gridsearch网格调参

9.stacking融合模型和机器学习管道pipeline综合应用

10.stacking融合模型python脚本是?

七、非平衡数据

1.非平衡数据是什么?

2.非平衡数据对模型有什么坏处?

3.解决非平衡数据方法(欠采样,过采样,SMOTE)

4.SMOTE非平衡数据处理python脚本是?

八、异常样本检测

1、异常样本检测问题如何分析建模。

2、异常值检验方法有哪些?

欢迎各位同学了解<python机器学习-乳腺癌细胞挖掘>课程,解决上述问题,系统化学习机器学习建模知识:https://edu.csdn.net/course/detail/30768

机器学习建模的问题大全相关推荐

  1. Python 3 利用 Dlib 和 sklearn 人脸笑脸检测机器学习建模

    0. 引言 利用机器学习的方法训练微笑检测模型,输入一张人脸照片,判断是否微笑: 精度在 95% 左右( 使用的数据集中 69 张没笑脸,65 张有笑脸 ): 图1 测试图像与检测结果 项目实现的笑脸 ...

  2. 卡耐基梅隆大学CMU Brandon Amos博士论文《可微优化机器学习建模》

    Brandon Amos简介 Brandon Amos是卡耐基梅隆大学博士,主要研究机器学习和优化的基础问题和应用,包括强化学习.计算机视觉.语言.统计学和理论.导师是济科·科尔特(Zico Kolt ...

  3. 机器学习建模工具PyCaret详讲

    机器学习建模工具 PyCaret 1  PyCaret 1.0.0简介 2  PyCaret入门 3  获取数据 4  搭建环境 4.1  预处理介绍 4.2  采样与拆分 4.2.1  训练/测试数 ...

  4. 腾讯QQ大数据:机器学习建模问题中的特征构造方法

    转载:http://www.199it.com/archives/758115.html 腾讯QQ大数据:机器学习建模问题中的特征构造方法 2018年08月7日 作者 pdg Web分析 大数据 数据 ...

  5. Python机器学习建模的标准流程(特征工程+建模调参+模型评估+全流程可视化)

    作者CSDN:进击的西西弗斯 本文链接:https://blog.csdn.net/qq_42216093/article/details/116994199 版权声明:本文为作者原创文章,转载需征得 ...

  6. Titanic 泰坦尼克数据集 特征工程 机器学习建模

    以下内容为讲课时使用到的泰坦尼克数据集分析.建模过程,整体比较完整,分享出来,希望能帮助大家.部分内容由于版本问题,可能无法顺利运行. Table of Contents 1  经典又有趣的Titan ...

  7. 数学建模之减肥计划 matlab编程,数学建模matlab算法大全第02章整数规划.pdf

    数学建模matlab算法大全第02章整数规划 第二章 整数规划 §1 概论 1.1 定义 规划中的变量(部分或全部)限制为整数时,称为整数规划.若在线性规划模型中, 变量限制为整数,则称为整数线性规划 ...

  8. 机器学习建模中的Bagging思想!

    Datawhale干货 作者:小偶,来源:偶数科技 我们在生活中做出的许多决定都是基于其他人的意见,而通常情况下由一群人做出的决策比由该群体中的任何一个成员做出的决策会产生更好的结果,这被称为群体的智 ...

  9. 【机器学习】终于把机器学习建模的重要步骤讲清楚了

    把机器学习算法应用到实际问题中,需要遵守一定的流程以理解业务目的,了解数据的质量,合理地设计数据处理过程,并妥善安排模型的训练和生产端的部署等问题.按照通常的机器学习应用顺序,机器学习建模流程涉及几个 ...

  10. 机器学习建模基本过程

    机器学习建模基本过程 机器学习建模基本过程: 1. 实际问题抽象成数学问题 这里的抽象成数学问题,指的我们明确我们可以获得什么样的数据,目标是一个分类还是回归或者是聚类的问题,如果都不是的话,如果划归 ...

最新文章

  1. Open3d学习计划—高级篇 3(点云全局配准)
  2. wtl中显示html,用WTL构建HTML界面应用程序(1)
  3. bitnami-redmineserver迁移
  4. 嵌入式linux下如何尽快播放开机音乐
  5. VBox:增加虚拟磁盘空间上限(虚拟系统为Linux)
  6. 【数据】深度学习从“数据集”开始
  7. mysql安装教程8.0.21安装_mysql8.0.21安装教程图文详解
  8. 数字电路数据选择器及其应用实验报告_科普|说说大数据是什么,及其特点与应用...
  9. pfsense下的流量管理(转)
  10. 虚拟机和实体服务器怎样连接,服务器实体机与虚拟机
  11. idea引入外部jar,运行项目不报错,使用maven打war包install/package时报程序包不存在等
  12. zookeeper3.3.6 伪分布式安装
  13. 安全驾驶:上海科目二-全部科目-笔记整理-祝你考试一把过!
  14. 考研-英语经验贴2.0
  15. 深信服校园招聘c/c++ 软件开发A卷--菜鸡落泪
  16. 网络代理服务器的设计与实现
  17. javascript原型图了解
  18. 2021年上半年软件设计师下午真题试题(案例分析)及答案
  19. 传智播客就是牛人培养牛人的地方!
  20. ERP与CRM、OA等管理系统区别?

热门文章

  1. sequelize 连接2个数据库_Sequelize如何同步判断数据库连接及同步成功
  2. python获取读取文件的文件名_python文件名获取文件路径
  3. linux命令从哪里敲,Linux 笔记本基于“敲打”的命令
  4. wⅰndows办公软件2003,办公软件2003
  5. mysql使用总结(C#)
  6. element-ui中分页 跳转页面时出现刷新网站的问题
  7. exchange2003系列总结:-5邮件加密与签名的工作流程
  8. 一个简单的软件工程流程
  9. ubuntu 安装ssh 服务
  10. Nginx PageSpeed模块配置和使用