1. 前言

本题相对来说比较适合新手,包括针对数据的预处理,数据分析,特征提取以及模型训练等多个步骤,完整的做下来是可以学到很多东西的。

2.问题一思路分析

本题要求利用附件中的训练数据进行深入的分析,由于本题的主要研究目的是分析订单数据并且根据分析结果建立数学模型来预测产品的具体订单需求量。因此本题需要训练样本分析数据特征,通过有效的可视化数据分析来获取不同因素对于产品需求量的影响,从而方便实现后续预测模型的建立。
对于训练数据的深入分析之前,首先对数据进行预处理,具体包括数据缺失值填充,异常值分析,箱线图处理异常值以及数据分布状态的可视化处理。进一步利用预处理之后的数据进行深入分析。本题给出了8个主题,本文尽可能多的分析多种因素对于订单需求量的影响。

3.问题一数据预处理

首先对原始数据变量进行箱线图分析,可以发现订单价格以及订单需求量均包括大量的异常离散点,因此需要针对这些离散异常点进行处理。

利用3σ准则清理异常值,
基于3σ原则中的σ是代表标准差,3σ也就是标准差,如果数据与均值之间的绝对距离大于3倍标准差,即下图中[-∞,μ-3σ]和[μ+3σ,+∞]部分,我们把这一部分值称为是异常值。

在用3σ原则时,数据要尽可能的服从正态分布,因为只有满足正态分布时,才认为出现3倍标准差以外数据的可能性很小,所以才会把这一部分当作异常值。

利用异常值剔除之后的数据进行箱线图绘制,可以发现数据平缓了很多。

进一步绘制数据分布直方图,可以发现数据基本上是符合正态分布

最后在对异常值处理之后的数据进行数据分析来分析订单预测的特征,以及分析与订单需求有强相关的影响因素,从而方便提取有效训练特征。文章待续。。。

4.源码分享

附上2023年泰迪杯数据挖掘挑战赛B题全部数据+完整源码(包括机器学习+深度学习)连接如下:
有任何问题都可以私信我讨论
2023泰迪杯完整数据的源码和结果

2023年泰迪杯数据挖掘挑战赛B题--产品订单数据分析与需求预测(1.数据处理)相关推荐

  1. 2023年泰迪杯数据挖掘挑战赛B题--产品订单数据分析与需求预测(2.数据探索性分析)

    前言 继续上一片数据预处理进行续写,利用预处理之后的数据进行数据分析并且解决问题一相关的问题.问题一主要目的是让研究各种因素对于需求量的影响,然后找到确定影响需求量的主要因素并且进行数据分析和主要特征 ...

  2. 泰迪杯数据挖掘挑战赛C题 通用论坛正文提取

    参与第五届泰迪杯,侥幸获得二等奖,简单记录一下. 一.问题的背景 在当今的大数据时代里,伴随着互联网和移动互联网的高速发展,人们产生的数据总量呈现急剧增长的趋势,当前大约每六个月互联网中产生的数据总量 ...

  3. 第八届“泰迪杯”数据挖掘挑战赛C题“泰迪杯”奖论文(基于卷积神经网络及集成学习的网络问政平台留言文本挖掘与分析)

    目 录 第一章 引言 1.1挖掘背景 1.2挖掘意义 1.3问题描述 第二章 群众留言分类 2.1数据准备 2.1.1数据描述 2.1.2数据预处理 2.2特征提取 2.3建立模型 2.3.1卷积神经 ...

  4. 【第十一届“泰迪杯”数据挖掘挑战赛】泰迪杯c题爬虫采集数据(源码+数据)

    ["第十一届"泰迪杯"数据挖掘挑战赛-- C 题:泰迪内推平台招聘与求职双向推荐系统构建(采集数据)] 问题: 数据详情: 根据工作id获取详细数据(1571条).csv ...

  5. 【2023年第十一届泰迪杯数据挖掘挑战赛】B题:产品订单的数据分析与需求预测 23页论文及实现代码

    [2023年第十一届泰迪杯数据挖掘挑战赛]B题:产品订单的数据分析与需求预测 23页论文及实现代码 相关链接 (1)建模方案 [2023年第十一届泰迪杯数据挖掘挑战赛]B题:产品订单的数据分析与需求预 ...

  6. 【2023年第十一届泰迪杯数据挖掘挑战赛】B题:产品订单的数据分析与需求预测 建模及python代码详解 问题一

    相关链接 [2023年第十一届泰迪杯数据挖掘挑战赛]B题:产品订单的数据分析与需求预测 建模及python代码详解 问题一 [2023年第十一届泰迪杯数据挖掘挑战赛]B题:产品订单的数据分析与需求预测 ...

  7. 【2023年第十一届泰迪杯数据挖掘挑战赛】C题:泰迪内推平台招聘与求职双向推荐系统构建 建模及python代码详解 问题一

    相关链接 [2023年第十一届泰迪杯数据挖掘挑战赛]C题泰迪内推平台招聘与求职双向推荐系统构建 建模及python代码详解 问题一 [2023年第十一届泰迪杯数据挖掘挑战赛]C题泰迪内推平台招聘与求职 ...

  8. 【2023年第十一届泰迪杯数据挖掘挑战赛】B题:产品订单的数据分析与需求预测 建模及python代码详解 问题二

    相关链接 [2023年第十一届泰迪杯数据挖掘挑战赛]B题:产品订单的数据分析与需求预测 建模及python代码详解 问题一 [2023年第十一届泰迪杯数据挖掘挑战赛]B题:产品订单的数据分析与需求预测 ...

  9. 【2023年第十一届泰迪杯数据挖掘挑战赛】A题:新冠疫情防控数据的分析 32页和40页论文及实现代码

    [2023年第十一届泰迪杯数据挖掘挑战赛]A题:新冠疫情防控数据的分析 32页和40页论文及实现代码 相关链接 (1)建模方案 [2023年第十一届泰迪杯数据挖掘挑战赛]A题:新冠疫情防控数据的分析 ...

最新文章

  1. 如何优化才能赢得搜索引擎“欢心”,提升抓取量?
  2. Servlet服务器搭建过程中一些经验 Tomcat+Mysql数据库+http传输
  3. 一些常见的HTTP的请求状态码
  4. [ES6] 细化ES6之 -- 键值对集合
  5. poj1182食物链(种类并查集)
  6. Mock Serverj
  7. oracle 10G表空间创建的步骤
  8. java多线程都有几种方式实现
  9. 【筛法】第十万零二个素数
  10. 基于JAVA+SpringBoot+Mybatis+MYSQL的应急值班值守管理系统
  11. win10的自带ie浏览器打不开,点击无反应解决方法 网上提供的重置ie浏览器、卸载ie重装、安装多播协议都没管用
  12. dell5580bios恢复出厂_戴尔笔记本如何恢复Bios出厂设置?
  13. MT6573芯片资料集锦芯片MTK6573_环境搭建
  14. 数据库——实体联系模型
  15. SQL Server 2008 SP3简体中文版官方下载
  16. html文件怎么在wps打开是乱码,wps上打开Excel文件是乱码
  17. 新手学Python之学习官网教程(二: Using the Python Interpreter)
  18. rep论文阅读2:ResRep_Lossless CNN Pruning via Decoupling Remembering and Forgetting
  19. 存储那些事儿(三):OpenStack的块存储Cinder与商业存储的融合
  20. Android 网络图片,gif 下载并保存到相册

热门文章

  1. mysql 安顺寻_16名被拐宝贝到安顺寻亲 6个“贵州娃”与家人团圆
  2. nginx的反向代理
  3. java 过滤掉 v_Javav中危险字符过滤工具类
  4. 单片机按键检测程序c语言,单片机检测按键短击,连击c程序
  5. 我和CSDN的那些事
  6. restTemplate请求重发的相关设置-通过配置
  7. java编写铝材公式_铝材的重量和单价的计算公式
  8. 蓝桥杯备赛 | 官方题库基础练习(含VIP试题)试题+答案(共33题)
  9. 3.5 讲一讲关于小红书的搜索引流技巧【玩赚小红书】
  10. mybatis中常用配置文件