天池O2O优惠券预测之后的一些个人思考
背景:
我本身是从事过python的开发工作,接触过pandas,numpy等机器学习相关的库。但是,并没有实际意义上做过机器学习相关的项目。做此课题的目的也是为了熟悉一下机器学习的流程。
错误
先说说自己的错误吧,认识自己犯下的错误往往会更重要一些。
未去解读每个特征的含义。
在刚拿到这个题目时,我起初并没有仔细的去阅读题目的具体含义。这是是我认为最严重的做错。不清楚需求的情况下盲目的去下手。在遇到缺省值的情况下,未加思考的进行了缺省值的填补。在后期读懂题意之后重新做了一些特征工程上的调整,也借鉴了别人优秀的思路,算是磕磕绊绊的把特征工程完成了。
在使用pandas中merge函数时,出现了样本呈笛卡尔积增长的问题
总结
这里想跟大家先分享一下自己做完这个题目之后的一些感想。
关于特征工程:
算法决定了模型的下限,特征工程决定了模型的是上限。这是在研究过第一名的解题思路之后给我的感觉,我发现他们的成功在于他们对于一个问题的分解。
面对O2O优惠券这样的问题,(他们在提取特征时的思路让我想到了传统编程面向对象中类的概念。)他们将一个大问题分解成三个类:用户,商家,优惠券分别为一个类。同时,彼此之间还有些一些联系,在提取特征中,先分别提取没个类自身的特征,最后在提取他们的组和特征,最后提取出了50+的特征。在我看来,这是他们能取得第一名的一个重要因素。
关于特征提取:
为什么知道这道题需要去衍生新得特征,而taitannic那道题不需要??
特征的提取还是需要去结合实际业务为准,特征的提取是为了打造一个更加优秀的模型。关于正负样本不均衡:
在我做完特征工程之后发现了自己处理后的数据集出现了正负样本严重失调的问题,碰巧的是我这里采用的xgboost这个算法,也很幸运的避开了这个问题。但是,在选择模型之前,我依旧对自己的特征工程报以一个怀疑的态度。我分析了原始数据集,进行了对比,发现原始数据集中也存在样本不均衡的问题,但是并没有我处理之后那么严重,我第一想法是不是因为我在进行了大量的特征提取,合并之后导致的?还是对于缺省值处理不当导致的?这个问题我目前还在思考,也在尝试一些别的思路。但是总的来说,在训练模型之前,需要去考虑正负样本均衡的问题,通常也需要做的正负样本均衡。
不足
这里说说自己的不足,希望你看到我犯下的错误之后能避开这些问题,也希望我的自省能给你带来一些帮助
基础很重要。
特征工程方面知识的薄弱导致了我前期处理数据的过程中磕磕绊绊,主要体现在做了很多的无用功,需要更多的系统化的知识为自己以后的路做一个铺垫。
思考问题角度需要更宽广
这是我看到第一名他们的解题思路之后对自己的一个省视。当我拿到这个题目去分析时,并不如他们那般思路清晰,宽广。我觉得这是知识+经验不如别人的一种体现, 多看,多做,多想。
低级的错误
对于这个问题,我觉得是不可原谅的。时间浪费在一些自己的粗心造成的错误上对于任何一个开发人员来说都是最不想看到的。往后在写代码过程中切记注释的重要性以及debug的使用。
经验的不足
天池O2O优惠券预测之后的一些个人思考相关推荐
- 【机器学习】天池O2O优惠券使用预测_系统性总结与心得
Preface:上半年参加天池的O2O优惠券预测赛排名第二,同时参加了学校数据仓库老师的课程改革建设团队,于是把参赛经验总结成文,准备分享给该课程的学弟学妹.现在我把总结的参赛教程文章也发到CSDN上 ...
- 天池 O2O 优惠券使用预测思路解析与代码实战
个人网站:redstonewill.com 前阵子因为机器学习训练营的任务安排,需要打一场 AI 比赛.然后就了解到最近热度很高且非常适合新人入门的一场比赛:天池新人实战赛o2o优惠券使用预测.今天, ...
- Xgboost实践 | 第一名天池o2o优惠券的使用预测思路完整版
前言 本篇我们来分享一个天池上面的机器学习比赛:o2o优惠券的使用预测(目前第一名auc:0.81,本篇:0.786, 待优化),看完本篇希望大家掌握xgboost的用法以及提取特征的思路. 这篇文章 ...
- 天池o2o优惠券使用预测(入门)
一.前言 近期学习了一下天池中o2o优惠券使用预测的学习赛,主要任务是通过分析建模,精准预测用户是否会在规定时间内使用相应优惠券.这次的参与主要是学习为主,牛刀小试. 二.解决方案 数据分析:对于给定 ...
- 天池O2O优惠券使用预测
参考文献: 题目简介: https://tianchi.aliyun.com/getStart/information.htm?raceId=231593 https://blog.csdn.net/ ...
- 阿里云天池大赛赛题(机器学习)——O2O优惠券预测(完整代码)
目录 赛题背景 全代码 算法包及全局变量 工具函数 训练及结果输出 算法分析 调参 整合及输出结果 赛题实践 结果生成 绘制学习曲线 参数调优 赛题背景 O2O行业天然关联着数亿消费者,各类App每天 ...
- 天池比赛:o2o优惠券使用预测
一.比赛背景 O2O:全称Online To Offline,线上线下电子商务,是把线上的消费者带到现实的商店中去:在线支付线下商品.服务,再到线下去享受服务.通过打折(例如团购).提供信息.服务(例 ...
- O2O优惠券使用预测项目总结
O2O优惠券使用预测笔记 前言 项目介绍 数据 评价方式 赛题分析 基本思路 数据集划分 特征工程 模型选取 过程及代码 导入python库 导入与划分数据集 特征工程 模型训练与调参 预测测试集 总 ...
- Sklearn:天池新人实战赛o2o优惠券使用预测 part1
日萌社 人工智能AI:Keras PyTorch MXNet TensorFlow PaddlePaddle 深度学习实战(不定时更新) 阿里云官网:天池新人实战赛o2o优惠券使用预测 数据集下载链接 ...
最新文章
- hdu6989 (莫队+单调栈+ST表)
- NetXMS 1.2.6 发布,系统监控工具
- DevExpress v17.2新版亮点—ASP.NET篇(二)
- 牛客 - 共鸣问题(贪心+思维)
- java中的%nf_java中DecimalFormat四舍五入用法详解
- android studio python_android studio的安装信息
- android AsyncTask 只能在线程池里单个运行的问题
- Eclipse如何使用Git完成代码比对并提交操作
- linux 环境命令行导出dmp文件
- 销售数据的多维度交叉分析
- RK3399平台开发系列讲解(内核设备树篇)3.25、WIFI设备树的解析
- 【open3d】安装open3d.whl之后,import报错ModuleNotFoundError: No module named ‘open3d.cpu‘
- 决策树-ID3与C4.5
- ns的安装与使用及tcl的入门学习
- 狠补基础-数学+算法角度讲解卷积层,激活函数,池化层,Dropout层,BN层,全链接层
- SMTP判断邮箱是否存在 检查email地址是否真实存在
- 子域名查询、DNS记录查询
- 阿尔法python课程答案_阿尔法编程python答案
- 开源项目扮演的角色_适用于Linux的5种开源角色扮演游戏
- Ae:文本图层操作基础
热门文章
- vue 仿写微信公众号自定义菜单
- 实践▍用大数据扒一扒蔡徐坤的真假流量粉 | Alfred数据室
- 鲁大师便捷查看硬盘参数
- 没学历,当程序员还有机会吗?
- 这个简笔画很值得学,哄小孩必备
- 深度学习视频压缩3——M-LVC: Multiple Frames Prediction for Learned Video Compression
- 如何解决运行Spark-shell,出现报错Unable to load native-hadoop library for your platform的问题
- 马云:我不为996辩护,我向奋斗者致敬
- latex大括号 多行公式_如何快速入门 LaTeX,在 XMind 2020 中轻松输入方程。
- 关于H5页面在iPhoneX刘海屏适配(转)