1. 简介

        对于这类的建模,类似kaggle数据科学比赛,首先要对数据做好分析,一般数据处理分析大约占到60%,模型的选择40%包括调参。所以,参赛的选手们要做好数据的分析和处理。

竞赛题目地址。

2. 问题一:

2.1数据分析

ID         : 乘车人的ID

LASTTIME   :上次乘车时间;

UPTIME     :本次乘车时间;

PAYTYPE    :付款方式(类别型数据,在做模型预测前要做One-hot编码)

METRONUM   :当月地铁乘车次数;

BUSNUM     :当月乘公交车次数;(类别型数据,有时候也要做One-hot编码)

BUSMETRONUM:当月公交地铁乘车总次数;

2.2数据清洗

2.2.1 对于0001-1-1上次乘车时间跟,本次乘车时间都没有的乘客,进行剔除掉或者运用这个月的数据进行汇总,求平均值进行填充;

2.2.2 对每个人(ID)这个月乘地铁的次数,乘公交车的次数,以及全部的总次数,对这三个进行排序,对于次数太少的人的数据进行剔除,因为这些人可能是偶尔来出差一次,不是这个城市的人,对于这类的数据可以剔除掉(注意:题目是要分析这个城市人,要审好题);

2.2.3 对整个月乘车间隔进行排序,对于间隔太长的数据剔除掉,因为这类人员只是偶尔成公交或者地铁一次,可以剔除掉;

2.2.4  付款方式:0表示公交移动支付,1表示公交卡支付,对于其他的付款方式进行剔除,不然在分析中很产生干扰;

2.3数据处理

2.3.1 0001-1-1表示没有刷卡记录,原因是刷卡故障,但仍会显示刷卡方式:所以把这部分的数据当做刷卡的方式;

2.3.2 缺损值处理(null):当做没刷卡方式,把数据进行填充;

2.3.3 对各个特征进行归一化,这个可以到准备训练模型的时候做;

2.4 特征分析

(注意:题目要求是支付的特征,要根据支付来进行统计)

2.4.1 对每天的支付方式进行统计、整个月支付方式进行统计、对这一天乘坐地铁或者公交和整个月的乘坐地铁或者公交的支付方式进行统计,绘制出饼状图或者装状态,分析说明占比情况;

2.4.2 对每天时间段进行划分,统计每个时间段支付方式进行统计,并进行分析,每天不同的试点进行统计,并绘制出图形;

2.4.3 对乘车时间的长短进行划分,对某个区间乘车的时间支付方式进行统计;

2.4.4 对乘车时间长短进行划分,然后对乘车的方式不同来对支付方式进行统计,分别绘制出支付方式的比较图形;

2.4.5  对每个人的每天乘车次数,这个月的乘车次数,做排序后以乘车次数进行划分,分别统计他们的支付方式;

2.4.6  对每个人使用的支付方式进行统计,每个人这一天是使用两种支付方式还是一种支付方式,对每个人整个月使用的支付方式进行统计,可以得出某个人使用支付的习惯;

2.4.7 对周末和节假日(看日历是否有)进行统计。

最后,统计完后,对于各个时间段、乘车次数、选择乘车的方式(地铁、公交)等进行说明,完成第一问。对于这部分还可以做更细致的划分,来对支付方式做统计,但目前就想到这些;刚才又看了一下数据,分析有点错误,对于附件一只有一个月的数据,我是把一天的数据看成一个月了,对于一个月的数据做统计那就更加简单了。

3. 问题二:

3.1 问题分析

第二问的目标是建立一个商业盈利的数学模型,然后根据模型分析一下第三方平台的收支和盈利状况。而在第三附件中也提到了主要的盈利影响因素,手续费、广告费、沉淀资金的利息收入、服务费等因素,对于这些数据官方是没有给我们的,我们需要网上爬取我们想要的数据,对于影响因素可以根据具体情况考虑。

所以对于这种类型,运用线性回归模型是最简单不过了。对于线性回归模型最简单的理解是对输入数据x然后输出y。这个可以是个多维的影响因素,输出y就是盈利。然后通过训练,获取到最优的参数,这个参数就是某些因素的权重,但这些参数是有限定的,所以在训练的时候要记得进行限制,以防止超出实际情况。

3.2 模型简介

通过以上的分析我们首先使用线性回归模型。模型的理论我这里不过多解释,网上大把。但要学会使用sklearn机器学习框架,包含了机器学习大部分的模型,对于为什么使用这个模型,是有解释性的。对于这类问题是属于有监督学习。对于获取到数据后我们可以通过训练得到模型,然后就可以根据模型进行预测等,但这里应该用不到预测。通过训练最后得到最优的参数,得到最优的模型。

3.3 模型的训练与调参

这部分是机器学习的内容,可以在网上搜。

3.4 收支和盈利状况分析

通过以上得到最优的模型以后,通过输入得到输出,然后与各个影响因素相乘即可得到各个因素的情况下得到的盈利,已经跟收支的关系等。

4. 问题三:

4.1 问题分析

问题三要求根据问题一种的数据,估计该是全部公交车实现第三方平台支付后的盈利情况。这就需要两部分的数据进行对比,一部分数据是第一问通过数据清洗后的数据;第二个部分就是把第一部分数据的非移动支付改为移动支付。

4.2 问题实现

对于这个问题,我们还需要乘车的价格,这个可以到网上对某个城市公交跟地铁的价格查询,获取数据。应该具体到乘坐多久价格多少的问题。获取到乘车的价格后,我们可以根据问题二的模型进行求解。得到全部公交实现第三方支付平台前后的数据,进行比较。即可完成问题三。

5. 问题四:

到这问可以说是结束了。对于这个问题可以根据前面得到的数据进行讨论,怎么样得到最优的方案。完成最后建模。

以上是我个人的一些思路,希望对于哪里不对或者有更好的思路可以一起讨论,共同进步。

2018MathorCup D题——公交移动支付问题分析相关推荐

  1. 第2次作业:支付宝快捷支付模块分析

    有关支付宝快捷支付的分析 1.介绍产品相关信息 1.1我选择的产品是支付宝[1]. 1.2选择支付宝作为产品来分析主要有以下三个原因: 1.2.1  相对于其他的产品,支付宝在我生活中使用的频率会相对 ...

  2. java在线支付---09,10,11,12_在线支付_分析易宝支付网关的应答协议与处理代码,完成用于处理支付响应的Servlet的初步编写和调试,完成处理支付网关响应结果的Servlet,支付实现

    09_在线支付_分析易宝支付网关的应答协议与处理代码 创梦综合技术qq交流群:CreDream:251572072 对支付结果返回的数据加密生成md5-hmac public static boole ...

  3. 2022 高教杯数学建模C题古代玻璃制品的成分分析与鉴别回顾及总结

    2022 高教杯数学建模C题古代玻璃制品的成分分析与鉴别回顾及总结 Paper & Code:https://github.com/Fly-Pluche/2022-mathematical-m ...

  4. 题库小程序盈利点分析

    题库小程序盈利点分析 ~ 很多搭建答题小程序的同学用途有很多种,比如以下几个 1)纯粹是为了盈利: 2)公司内部刷题需要: 3)完善业务生态,比如运营者本身出书,买书送刷题小程序,也就是说买书,小程序 ...

  5. 微服务商城系统(十三)订单、支付流程分析

    文章目录 一.订单 1.登录页面配置 2.用户收件地址查询 3. 下单 (1)表结构介绍 (2)下单实现 (3)库存变更 (4)增加积分 二. 支付流程分析 1. 二维码创建 2.微信扫码支付简介 ( ...

  6. 2020年数维杯数学建模A题舆情监测情感倾向分析建模求解全过程文档及程序

    2020年数维杯数学建模 A题 舆情监测情感倾向分析建模 原题再现:   公共危机事件爆发时,如拍石击水,相关信息在短时间内迅速传播,引起群众的广泛关注.其中负面报道或者主观片面的一些失实评判常常在一 ...

  7. 微信支付:支付流程分析、微信扫码支付(HttpClient)、微信支付二维码生成、检测支付状态、订单状态操作准备工作、支付信息回调、MQ处理支付回调状态、定时处理订单状态

    微信支付 微信支付开发的整体思路 生成支付二维码 查询支付状态(微信的服务器) 实现订单状态的修改.删除订单 支付状态回查->微信服务器将支付状态返回给支付微服务 MQ处理支付回调状态 Rabb ...

  8. 【第十届“泰迪杯”数据挖掘挑战赛】B题:电力系统负荷预测分析 31页省一等奖论文及代码

    相关链接 (1)[第十届"泰迪杯"数据挖掘挑战赛]B题:电力系统负荷预测分析 问题一Baseline方案 (2)[第十届"泰迪杯"数据挖掘挑战赛]B题:电力系统 ...

  9. 【软考系统架构设计师】复盘架构设计师真题知识点第一章---安全分析与设计

    [软考系统架构设计师]复盘架构设计师真题知识点第一章-安全分析与设计 复盘架构设计师真题知识点第一章---安全分析与设计 [软考系统架构设计师]复盘架构设计师真题知识点第一章---安全分析与设计 第一 ...

最新文章

  1. 用户进程与内核进程通信netlink实例
  2. 洛谷 P1070 道路游戏(noip 2009 普及组 第四题)
  3. Sun公司因为不懂销售和运营,导致陨落,最终软件还是打败了硬件
  4. POJ 3104 Drying 二分
  5. 无法扩展该卷 因为群集的数量将超过文件系统_浏览器将支持Python项目!Mozilla发布Pyodide...
  6. 关于CRM库存初始化的一点小总结
  7. 第一百六十天 how can I 坚持
  8. CSDN下载码怎么使用
  9. Mybatis开启日志
  10. [流体力学][NS方程]关于质量、动量、能量的控制方程的推导
  11. linux+硬盘rd5,BackTrack5(BT5)硬盘安装完美教程 亲测可用
  12. html外联式怎么设置,笔记《三》-html引用css的三种方式-内联,嵌入,外联
  13. 大数据运维工程师 base 上海
  14. 聊聊程序员如何用技术变现?
  15. thrift 技术分享待续
  16. 857. 雇佣 K 名工人的最低成本
  17. 假阳率(第一类错误)、假阴率,召回率、精确率
  18. Eclipse的代码原封不动复制到word,WPS等文档中去
  19. Maven-04传递性依赖和依赖范围
  20. 如何找计算机配置文件,怎么查看电脑系统配置

热门文章

  1. 超级狗--让软件加密举重若轻
  2. java pdfbox_java利用pdfbox处理pdf
  3. 身份证号合法性验证、电话手机验证、邮箱验证、银行卡验证、车牌验证
  4. 软件测试人员如何阐述跳槽原因
  5. 3D建模是什么?3D建模涉及哪些专业?
  6. uoj52逃跑(最短路)
  7. SAP中采购订单状态标准查询配置
  8. 即时通讯开发用什么语言开发_如何开始开发者通讯
  9. 图像边缘检测——一阶微分算子 Roberts、Sobel、Prewitt、Kirsch、Robinson
  10. Apriori与FP-Growth算法对比