[中奖]第九届“泰迪杯”挑战赛A题
问题概述
题目1如下:
赛题有2个点,分别是:
确定数据指标
即确定哪些特征是决定财务造假与否的关键特征
预测造假公司
训练模型,然后跑测试数据即可
预处理
首先使用missingno2,对全局数据进行观测,看一看缺失值等情况
然后删去无用的特征列
删去缺失值占比过多的特征列
使用pd.interpolate()3对缺失值占比较小的特征列进行补充,也可以参考45
第一题
最开始的想法是直接跑树模型,然后看看谁的权重大就选谁,然而问题出在样本比例上。
首先对整体来看,正样本的数量远远大于负样本。不均衡的情况下,树模型虽然有所缓解,但估计还是够呛
更惨的是,第一题要求的是各行业的财务造假关键指标。数据一共几十个行业,有些行业没有造假,全是正样本。这样的情况无法用树模型处理,其他模型也不行。
后来查到了一个方法,Null Importances678。
其思路大概是,先用正确的标签计算一下各个特征对于分类的重要性,然后打乱标签,再计算特征的重要性。如果一个特征真的对分类有用,那么他应该在真实的标签下展示高重要性,而在错误的标签下展示低重要性。
对于第一题而言,我们分两类情况来考虑:
对于整个行业没有造假记录的数据来说:
先对各个数值特征(好像所有的特征都是数值特征?)计算方差,取方差较小的特征为重要特征。因为该行业没有造假,所以其与造假相关的特征应当表现出聚集的趋势,即都没有造假,也就是方差较小的特征。然后随机赋予标签,计算其互信息9(mutual_info_classif)。然后用前一个的特征集合减去后一个的特征集合,留下的即为关键特征。
对于整个行业有造假记录的数据来说
先对正确的标签计算互信息9,然后随机赋予标签,再计算其互信息9。取两者的差集为关键特征。
第二题
这一题将数据分成了2个行业,制造业和非制造业。虽然样本还是很不均衡,但至少,正负样本都有。
首先进行特征选择,使用LinearSVC10
然后将数据丢进模型训练,并使用网格调参11
最后走一遍stacking1213
后记
其实模型训练的结果并不乐观,因为样本分布的不均衡。后来有一些其他想法:
在模型融合的时候,加大树模型的权重,因为树模型对分布不均衡有所缓解
使用一些其他方法补充数据,例如SMOTE等14
啊,对了,我当时参考博文15,用pandas-profiling还跑崩了16,数据太多。
第九届“泰迪杯”数据挖掘挑战赛 ↩︎
数据探索分析之全局数据如何看? ↩︎
数据分析之Pandas缺失数据处理 ↩︎
独家 | 在机器学习中利用统计插补来处理缺失值(附代码) ↩︎
Kaggle知识点:缺失值处理 ↩︎
Feature Selection with Null Importances ↩︎
【数据挖掘比赛】之 Null Importances(特征选择) ↩︎
特征选择之tree的feature_importance的null importance part2 ↩︎
知识点-如何使用互信息进行单变量特征筛选? ↩︎ ↩︎ ↩︎
机器学习 特征选择(过滤法 封装法 嵌入法) ↩︎
第八届“泰迪杯”挑战赛A题优秀论文——基于数据挖掘的上市公司高送转预测(1) ↩︎
集成学习中的 stacking 以及python实现 ↩︎
详解 Stacking 的 python 实现 ↩︎
对"样本不均衡"一顿操作 ↩︎
2020泰迪杯数据挖掘挑战赛总结(A题) ↩︎
[未解决]pandas-profiling出现MemoryError ↩︎
[中奖]第九届“泰迪杯”挑战赛A题相关推荐
- 第七届泰迪杯挑战赛C题
第七届"泰迪杯"数据挖掘挑战赛C题赛题和数据 网盘链接: https://pan.baidu.com/s/1VRIHBLqaTsfOMLnVmibo5A 提取码:L6X6
- 第十届“泰迪杯”比赛B题解题思路及代码论文
今年大二,因为对编程感兴趣入坑,算下来自学编程快要一年了,了解了关于计算机的很多方向,暑假偶然间了解到数据分析和挖掘,觉得挺有趣的就想深入学习以下,于是开始学习pandas,然后机器学习,并在天池上做 ...
- 第九届泰迪杯A题(1)
分析:统计出造假和非造假的个数并作图 正负样本可视化 import pandas as pd import matplotlib.pyplot as plt import numpy as np# 查 ...
- 基于数据挖掘的上市公司财务数据分析——第九届“泰迪杯”挑战赛A题优秀作品
1 问题重述 1.1 问题背景 这是一个信息增长速度飞快的时代,人们获取信息的方式也更加多样化.随着网络和计算机技术的快速发展,如何对各种重要资料进行数据分析是应对变化发展的主要途径.公司在经营过程中 ...
- 基于深度学习的岩石样本智能识别研究——第九届“泰迪杯”挑战赛B题优秀作品
1 前言 1.1 研究背景 岩石是现代建筑业和制造业的重要原材料,除了作为原材料使用以外,还可以对其进行勘探开发挖掘岩油气藏,若能智能且准确地识别岩石岩性.计算岩石含油量,这将会是一笔巨大的社会财富. ...
- 【第十届“泰迪杯”数据挖掘挑战赛】B题:电力系统负荷预测分析 31页省一等奖论文及代码
相关链接 (1)[第十届"泰迪杯"数据挖掘挑战赛]B题:电力系统负荷预测分析 问题一Baseline方案 (2)[第十届"泰迪杯"数据挖掘挑战赛]B题:电力系统 ...
- 分享篇:第十届“泰迪杯”数据挖掘挑战赛-农田害虫图像识别(特等奖)
第十届"泰迪杯" 数据挖掘挑战赛优秀作品-农田害虫图像识别--特等奖 实验结果分析 4.1.1 实验配置 本篇论文的实验都是基于 Ubuntu 系统下进行,使用 GPU 和 CPU ...
- 【第十届“泰迪杯”数据挖掘挑战赛】B题:电力系统负荷预测分析 问题二 时间突变分析 Python实现
目录 相关链接 完整代码下载链接 1 定义绘图函数 2 通过对原始测量应用阈值来查找异常值 3 手动设置阈值 4 使用分位数设置阈值 5 3Sigma原则(IQR) 6 设定分位数 6.1 导入数据 ...
- 泰迪杯|第十一届“泰迪杯”挑战赛作品提交仅剩2天了!
提交作品截止时间: 2023年4月28日 16:00:00 距离第十一届"泰迪杯"数据挖掘挑战赛提交作品结束时间只剩2天了,相信大家都在做着最后的更改.小编为大家整理了一些提交的步 ...
- 第十一届“泰迪杯”挑战赛作品提交仅剩2天了!!!
提交作品截止时间: 2023年4月28日 16:00:00 距离第十一届"泰迪杯"数据挖掘挑战赛提交作品结束时间只剩2天了,相信大家都在做着最后的更改.小编为大家整理了一些提交的步 ...
最新文章
- 色彩(颜色)空间原理(上)
- fiddler 在火狐(firefox)下无效的问题 ——Fiddler监听Firefox、Chrome中的http请求
- PAT甲级1062 Talent and Virtue:[C++题解]结构体、哈希表
- KubeVela:标准化的云原生平台构建引擎
- react打包后图片丢失_如何快速构建React组件库
- oracle函数lp,Oracle 执行计划的查看方式
- python删除txt指定内容_正则表达式使用python从文件中过滤和删除特定的多行文本...
- 关于用隐藏文字(图片替换文字)的更好的可用性方法
- 原型磨刀 开源一样的_晚餐也可以像开源一样
- VS 2022 SVN 插件
- VMware虚拟机 centos8 解决全屏问题
- Kiosk模式是什么?win10如何启用Kiosk模式?
- Android视频监控!!!随时随地监控你的家庭
- 10大最受欢迎的国外业务流程管理(BPM)软件
- 【网络】网络层协议——IP
- Qt边框border概述
- python 将PDF 转成 图片的几种方法
- 安装配置nagios+nrpe+nconf
- thymeleaf: th:src=@{}
- 企业管理者的基本操作