2022 第二届中国移动“梧桐杯”大数据应用创新大赛-基于移动大数据的网约车司机识别 线上0.95+ 方案
大家好,我是轶扬,本文给大家分享一下最近半个多月参加的一个机器学习数据挖掘类比赛,移动主办的2022年梧桐杯——基于移动大数据的网约车司机识别,这是一个结构化表格类比赛,提供的数据不仅包含用户的基本信息,还包含了由通信网采集到的信令分析而得的用户位置移动轨迹信息。本文从数据探索、数据预处理、特征工程、模型训练与融合等多个方面,具体介绍了我提出的解决方案,前期只使用基于常规信息构造的特征,模型线上分数在0.94+,加入基于移动轨迹信息构造的特征后,线上分数为0.95+,线上排名top 3%。
目录
- 赛题背景
- 任务目标
- 初步了解数据
- 解决方案
- 改进方向
赛题背景
随着社会的进步和经济的发展,在交通领域,诞生一系列“互联网+“的出行方式,慢慢的,网上打车的习惯已经成为人们的日常,网约车的数量也在与日俱增。
如何从普通用户中有效鉴别出网约车司机,为内部流量推广和外部第三方企业合作扩展提供助力,在实际商业应用中有着重要的意义。
本届竞赛将从真实场景和实际应用出发,在智慧交通领域新增了更具挑战性、更加务实的任务,期待参赛选手们能在这些任务上相互切磋、共同进步。
任务目标
从普通用户中有效鉴别出网约车司机(01分类问题)
- 评分标准: Score = 0.5 * AUC+0.5 * F1(Macro F1)
初步了解数据
查看官方的数据集介绍,了解数据集由几个表组成、主键是什么、表之间有什么关系,每个字段是什么含义
数据样本分为两份,第一份包含基础信息,通话信息,行为信息等常规数据集,第二份为位置数据集(用户位移的详细数据),相关数据集如下:
常规基础数据集(提供三个月数据)
位置数据集(近三天的唯一数据,经纬度取自WGS84坐标系)
汇总两张数据表所提供的字段,并按照具体字段对应的业务类型进行分类:
从以上数据介绍中,可以看到对于每个用户都有对应的基础信息,例如个人身份信息、手机通话信息和各类app使用情况,因此确定第一张表的数据是直接可以用于建模的。
第二张表是用户的位置轨迹信息,提供了每个用户三天的路程信息,主要包括进出每个基站的时间、基站所在的经纬度,以及表明是哪一天的信息,实时的反应了一个用户的行为轨迹信息,如驻留地、驻留时长、位移距离、位移速度等,这张表的信息不能直接用于建模,因此需要做进一步特征挖掘。
解决方案
- 代码github链接:待整理后上传
改进方向
- 从实际业务角度出发,结合网约车的行驶特点和运营过程中的手机使用特点,进一步挖掘位置轨迹类特征和常规信息类特征。
- 对数据集中的某些干扰样本进行甄别、去除。
- 二分类阈值在线上和线下数据集不一致,需要测榜调整阈值。
欢迎各位一起交流学习~
2022 第二届中国移动“梧桐杯”大数据应用创新大赛-基于移动大数据的网约车司机识别 线上0.95+ 方案相关推荐
- 报名开始!第二届中国移动“梧桐杯”大数据应用创新大赛邀你夺52w大奖!
为进一步落实中国移动战略,助力公司数字化转型发展,推动高校人才创新培养,由中国移动通信集团有限公司主办,中国移动通信集团北京有限公司.中国移动通信集团湖北有限公司.中国移动通信集团广东有限公司.中国移 ...
- 【报名开始】第二届中国移动“梧桐杯”大数据应用创新大赛邀你夺52w大奖
为进一步落实中国移动战略,助力公司数字化转型发展,推动高校人才创新培养,由中国移动通信集团有限公司主办,中国移动通信集团北京有限公司.中国移动通信集团湖北有限公司.中国移动通信集团广东有限公司.中国移 ...
- 三城演义!第二届中国移动“梧桐杯”大数据应用创新大赛复赛完美收官
8月19日至26日,第二届中国移动"梧桐杯"大数据应用创新大赛暨大数据创客马拉松大赛的三场复赛路演暨颁奖典礼在杭州.武汉.广州三地成功举办.35支队伍在数智乡村.数智城市.数智交通 ...
- 报名即将截止,中国移动“梧桐杯”大数据应用创新大赛,寻找大数据敢想者!...
↑↑↑关注后"星标"Datawhale 每日干货 & 每月组队学习,不错过 Datawhale赛事 主办方:中国移动信息技术中心 也许,你在大数据分析路上踽踽独行 来这里, ...
- 网约车风云再起:“小窗口”和“大窗口”齐开
文|智能相对论 作者|陈壹 由于众所周知的原因,近来网约车格局出现新突破口,行业发展迎来"窗口期". 看到机会的各大网约车平台,纷纷摩拳擦掌,直奔战场. 有的原地"满血复 ...
- DCIC巡游车与网约车运营特征对比分析-数据读取
读取代码 由于赛题给定的数据集文件都比较大,文件行数都比较多,如果完全进行读取可会让电脑卡死,内存爆炸: 可以只读取部分文件,读取单个文件完成数分析: 修改字段类型节约空间: 接下来看单个文件和部分文 ...
- 基于QT的滴滴网约车订单数据可视化分析
全套资料下载地址:https://download.csdn.net/download/sheziqiong/85584944?spm=1001.2014.3001.5503 [摘要]在万物联网的当下 ...
- PPT|交通·未来第4期 《利用新兴交通数据进行大规模路网交通管理-以无人车和网约车数据为例》...
一.讲座信息 主题:利用新兴交通数据进行大规模路网交通管理-以无人车和网约车数据为例 主讲人:香港理工大学 马玮 助理教授 直播回放地址:https://www.bilibili.com/video/ ...
- 顾大松:对北京市出租车、网约车、顺风车文件征求意见稿的六项建议
一.建议取消出租车数量动态调控规划要求 首先,国务院指导意见对出租车改革目标定位为逐步实现市场调节,特许的出租车管制应调整为无数量控制的一般许可,且现有出租车数量因网约车许可工作启动,许可申请已趋于市 ...
- 报名即将截止,“梧桐杯”大数据应用创新大赛,邀你进入大数据先锋阵营
大数据建模不是孤独寂寞的路,面对无数的数字,一定要有人作伴 大数据建模不是望不到头的路,步履坚实的历程,要用成绩来证明 大数据建模不是沉闷无声的路,凝结心血的方案,值得大声说出来 路上的人 或许在电脑 ...
最新文章
- 一文看尽谷歌AI全年重大研究突破,Jeff Dean执笔,全程干货
- C 语言编程 — 头文件
- bootstrap中点击左边展开
- 读书笔记-JavaScript高级程序设计(1)
- 肝!精心整理了 50 个数据源网站!
- linux 对象管理器,Linux多安全策略和动态安全策略框架模块详细分析之函数实现机制中文件对象管理器分析(3)...
- 自动生成sqlserver增删改成_如何批量生成证书证件-可变条码-可变图片-可变数据-快速教程...
- c mysql安装教程视频_MySQL安装教程 - Windows安装MySQL教程 - 小白式安装MySQL教程 - 青衫慧博客...
- DICOMDIR结构
- C语言的关键字 详解
- 数据治理的好处有哪些
- Python web爬虫
- freebsd mysql utf8_FreeBSD环境下Mysql问题解决方法集锦
- 圣思园的随堂视频发布了
- 【阿卡乐谱】【日常分享】超级强大的简谱-《茉莉花》
- GPT分区规划与各分区作用解析
- t6服务器的系统数据库不存在,用友T6软件出纳管理系统数据库质疑用任何方法无法恢复时解决方法-用友T6...
- Flutter for ble 之set_notification_error, could not locate CCCD descriptor for characteristic分析(原生角度)
- Apple三里屯景泰蓝壁纸(mac版)
- excel 设置隔行变色功能