新网银行金融科技挑战赛 AI算法赛道 亚军方案
比赛链接:https://www.kesci.com/home/competition/5ee1f35f73aef4002c76ef3b
代码获取方式:关注公众号 ChallengeHub 回复“新网杯”
1 赛事背景
2020年“创青春·交子杯”新网银行金融科技挑战赛-AI算法赛道,旨在鼓励选手运用前沿的人工智能技术解决金融科技等领域中的实际问题,激发选手创新能力,增强其动手能力。比赛挑战题目为“看见你的呼吸”,该项技术可应用于金融在线业务的生物识别、智能家居感应、智慧健康监控管理、健身训练助手等多个领域,期待挑战者利用机器学习和人工智能的最新成果,根据手机传感器的时间序列数据,设计出区分能力强、稳定性高的行为识别模型
2 题目描述
本次行为预测任务,参赛者需要利用从手机传感器采集的时间序列数据,建立模型识别对应时间段手机使用者的行为。该算法可应用于生活场景中走路、玩游戏等日常行为的识别,也可以应用于金融领域的客户异常行为实时识别,尤其是在在线信贷产品的申请、提现等关键服务环节。此类技术能进一步提升在电信诈骗、中介骗贷等金融场景中的欺诈风险识别和防范能力。
3 数据说明
数据总体概述:新网银行提供的手机行为数据集由多个采集对象使用安卓手机采集而成。样本采集对象包含多名男性和女性,年龄跨度在20-55岁,采集时要求采集对象在指定时间内按照其使用习惯完成指定动作。
- 采集场景分为3类:行走、站立、坐卧;
- 3个场景中各采集了:玩游戏、刷抖音或快手等短视频、看影视剧或综艺节目等长视频、网页浏览、编辑文字、其他动作(如拍照、语音通话、视频通话、发语音、图片PS)6类动作;
- 此外,还单独设计了“递手机”的行为,此行为不区分场景。我们将“行为”定义为动作+场景的组合,因此共19种不同行为;
- 训练集中已将行为预处理为0-18的编号(behavior_id)。
- 数据集中每个行为片段(fragment_id)对应为5s的加速计读数:包含重力加速度(acc_xg, acc_yg, acc_zg)和不含重力加速度(acc_x, acc_y, acc_z);数据集每行对应fragment_id下某个时间点的加速计数据。
- 数据分为训练集和测试集,分别用于训练模型和测试模型效果。
字段说明
序列 | 字段名称 | 格式 | 解释说明 |
---|---|---|---|
字段1 | fragment_id | int | 行为片段id |
字段2 | time_point | int 采 | 集时间点(ms) |
字段3 | acc_x | float | 不含重力加速度的x轴分量(m/s^2) |
字段4 | acc_y | float | 不含重力加速度的y轴分量(m/s^2) |
字段5 | acc_z | float | 不含重力加速度的z轴分量(m/s^2) |
字段6 | acc_xg | float | 包含重力加速度的x轴分量(m/s^2) |
字段7 | acc_yg | float | 包含重力加速度的y轴分量(m/s^2) |
字段8 | acc_zg | float | 包含重力加速度的z轴分量(m/s^2) |
字段9 | behavior_id | int | 编号的行为id |
用户行为片段时长统计:
4 解决方案
团队介绍:
- 致Great:中科院计算所算法工程师,擅长极限操作
- lrhao:腾讯数据分析师,有着丰富比赛经验,多项比赛大满贯
- SJF:大一新生,充满无限创意与活力
- pumpkin:同济大学,腾讯微信算法工程师,深度洞察数据
4.1 特征工程
每个fragment_id对应多条序列数据,然后可以对fragment_id进行聚合构建统计量特征、坐标轴夹角、空间向量平面等特征。
4.2 数据增强
在比赛实验中,我们尝试了以下四种不同方式的数据增强,
构建双向序列输入
构建方向输入的想法由“视频倒放也能表示一副画面”启发,但是反向输入有两种使用方式,第一种是作为输入,通过深度网络得到片段表示;另外一个是直接作为数据增强,当做训练数据,反向序列的标签和原始正向序列标签一致。实验发现,第二种方式线下分数较高,相比第一种但是线上提升有限。
三次样条插值
噪声增强
Mixup
其中“构建双向输入”对我们模型效果有不小幅度的提升,“噪声增强”抑制了模型过拟合,具体使用可以详见代码
4.3 核心模型1:基于多输入的CNN-MLP模型
在比赛进行到一定阶段,由初期的l基于特征工程的gb模型开始转向CNN等深度学习模型,在实验模型中我们尝试将前期工程的特征工程工作通过全连接学习得到高阶特征向量表示,之后与正向、反向输入的深度二维卷积网络的学习表示拼接,最后通过Dense进行分类概率预测。其中只基于原始输入的Deep Conv2d可以取得一个不错的基线成绩,加上Feature的深度特征表示以及反向输入对模型提升较大。
4.4 核心模型2:基于多尺度双向序列的CNN-DNN模型
在复赛阶段,大家会发现复赛数据的行为序列片段长度明显短于初赛的片段长度,导致Conv2D模型效果下降,随后我们调整了部分初赛模型的模块
- 对于输入部分,由于存在各种尺度的行为序列片段,导致不能使用一个单一的填充长度,并且对于过长或者过短片段 ,截取或者填充来带来很大噪声,所以我们构建了多尺度的输入,以丰富模型学习能力
- 对于数据填充部分,我们尝试了多种采样方式,最后使用了效果最佳的周期采样的方式
- 由于存在过短数据,导致Conv2D学习能力下降,随之将Conv2D替换成了Conv1D,并且线上效果Conv1D明显由于Conv2D
4.5 核心模型3:基于多尺度的LSTM-FCN模型
来源:LSTM Fully Convolutional Networks for Time Series Classification
在比赛实验方案中,我们尝试了LSTM-FCN模型,并且采用多尺度输入,在复赛中也取得了不错的得分,对后续我们模型融合提升帮助不小。
5 比赛总结
- 结合手动设计特征帮助自动提取特征实现更丰富的特征信息提取
- 双向序列的信息输入增强了模型学习能力
- 针对序列不平衡的对尺度输入变换
- 我们图案段敢于尝试与创新,坚持不懈,不到最后一刻永不放弃,协调好了团队之间的分工与配合
- 不足之处:没有尝试stakcing融合;没有继续优化ML模型
http://www.taodudu.cc/news/show-4551967.html
相关文章:
- (转)我所经历的大数据平台发展史(四):互联网时代 • 下篇
- 基于MATLAB 2021b的机器学习、深度学习实践应用
- 微信支付信用卡还款将收费;小米宣布进军西欧市场;Uber筹备第二代自动驾驶汽车丨价值早报
- 数据规模超大,分布密集,数据存储难
- Discuz! X2.5数据库字典【转载】
- DiscuzX2.5数据库字典
- DiscuzX2.5数据库字典 值得学习
- ecstore2.0数据库词典
- H5智能内核-基于MVC架构的全新Zoomla!逐浪CMS2 x3.8发布
- 前端复习笔记--1.html标签复习速查
- DiscuzX3.1数据库字典(含之前)
- DTcmsV4.0分析学习——(1)数据库结构分析
- opencart 3.0 版本数据库数据表字典(详细篇)
- SAP Other 技巧--通过报错信息找到程序对应的事务代码
- obsidian和zotero联动无法跳转zotero
- IntelXeon Gold 6240和IntelXeon Gold 5218有什么区别? 服务器CPU选型
- 避坑指南:Zotero的文件管理与同步zotfile、webdav
- 学习Ajax框架之dojo:第六节——dojo类的声明和继承(附源代码)
- 如何使用 Skopeo 做一个优雅的镜像搬运工
- java处理1927 12 31_java - 为什么将这两次相减(在1927年)会得出奇怪的结果? - 堆栈内存溢出...
- PHP 7.2禁止类名为Object的巨坑
- 【文献管理软件Zotero】Zotfile插件及云同步的使用技巧
- java处理1927 12 31_为什么减去这两次(在1927年)给出一个奇怪的结果?
- CLISP 实现记录:5.数据和控制流
- 干货收集和整理:Pytorch,Keras,数据分析
- java软件开发是做什么的,干货满满!
- Sencha的Eclipse插件提示和技巧
- kali中信息收集相关的命令
- CMake中option和cmake_dependent_option的使用
- Anaconda 与 Pycharm 间的安装和链接
新网银行金融科技挑战赛 AI算法赛道 亚军方案相关推荐
- “2020创青春·交子杯” 新网银行金融科技挑战赛
"2020创青春·交子杯" 新网银行金融科技挑战赛 AI算法赛道 https://www.kesci.com/custom_landing/xwbank 赛事背景 2020年&qu ...
- 2021新网银行金融科技挑战赛 Baseline
基于TensorFlowTTS的新网语音合成baseline Github: https://github.com/TensorSpeech/TensorflowTTS 2021"创青春·交 ...
- 2019年“创青春.交子杯”新网银行高校金融科技挑战赛-AI算法赛道比赛总结
比赛已经结束,很荣幸能和队友一起拿到这个冠军,非常感谢队友的付出,写个总结,算是对这几个月付出的一个交代. 一.简述 队名:学学没完 队伍成绩: 初赛榜 0.85245 排名第一 (a榜第二,b榜重回 ...
- ‘数字人体’视觉挑战赛 - 算法赛道亚军比赛攻略_LLLLC
'数字人体'视觉挑战赛 - 算法赛道亚军比赛攻略_LLLLC 比赛主页:数字人体"视觉挑战赛--宫颈癌风险智能诊断 相关代码:github 0 赛题内容 本次比赛分为初赛和复赛两个阶段,比赛 ...
- 芯唐语音识别_大联大品佳推出基于新唐科技ISD9160+Cyberon算法的语音识别方案
致力于亚太地区市场的领先半导体元器件分销商---大联大控股宣布,其旗下品佳推出基于新唐科技(Nuvoton)ISD9160+Cyberon算法的语音识别方案,此方案可支持20条本地的语音命令,还可外挂 ...
- 笃行致远 不负芳华!新荣耀终端公司招聘AI算法专家和工程师
关注公众号,获取更多AI领域发展机会 新年寻找新机会,请关注AIoffer! 公司介绍 新的荣耀公司秉持"创新.高级.自由.可信赖"的理念,将寻求更大的突破.攀登更高的高峰.加入一 ...
- 北京寻酷科技招 AI 算法实习生
点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达 点击进入->[AI求职]微信技术交流群 北京寻酷科技 (SeeKoo) 成立于 2022 年 11 月 ...
- CVPR2021 图像匹配挑战赛,双赛道冠亚军方案
来源:腾讯优图 近日,腾讯优图实验室在CVPR2021举办的Image Matching Workshop比赛中,提出的图像匹配技术 (SS-Fusing)荣获双赛道冠亚军.IMW2021是Googl ...
- AI算法连载22:统计之边际概率推断
导语:在人工智能AI如火如荼的大潮下,越来越多的工程师们意识到算法是AI的核心.而面对落地的应用,不懂算法的AI产品经理将是空谈,不仅无法与工程师沟通,更无法深刻理解应用的性能与方式.所以业界逐渐形成 ...
最新文章
- 微信如何实施微服务?
- 如何重新安装TCP/IP协议
- 【计算机网络】网络层 : OSPF 协议 ( 协议简介 | 链路状态路由算法 | OSPF 区域 | OSPF 特点 )
- Python之compiler:compiler库的简介、安装、使用方法之详细攻略
- VS中安装DevExpress后在Winform的工具箱中不显示控件
- python登陆界面代码_python编辑用户登入界面的实现代码
- [书目20071127]图书 时间陷阱 目录
- php向下滑动,js如何判断鼠标滚轮是向下还是向上滚动
- 解释如何优化css选择器_购物车解释了CSS选择器
- 准确率创新高,北大开源中文分词工具包 pkuseg
- bzoj 1565 [NOI2009]植物大战僵尸【tarjan+最大权闭合子图】
- cmake编译多个文件夹_cmake多目录构建(二)
- excel在线_如何把pdf转excel将文档保持原有格式
- 安装Android SDK时无法识别JDK 10
- android 调用系统图片编辑,android 调用系统 裁剪 图片
- php wordpress 代码模板,wordpress模板代码详解
- 信息安全——安全威胁
- 【CSS】盒子模型内边距 ② ( 内边距复合写法 | 代码示例 )
- 矩阵篇(二)-- 线性变换的矩阵表示、常用变换及其矩阵、常见的特殊矩阵
- 遗传算法变异算子函数——mut
热门文章
- itunes一直显示正在验证iphone恢复_换新iPhone了,四个方法轻松解决新旧iPhone的资料迁移...
- 蓝桥杯真题python B试题 C: 纸张尺寸
- Win10Ubuntu双系统安装教程
- 无约束多维极值求解思路
- OmniPlan 3 Pro for Mac 3.14.4项目管理工具
- 分布式任务编排调度框架设计
- 高桥智隆:未来机器人将取代智能手机,并成为人类的朋友
- 解决Failed to open .ini file C:\Users\xxx\.android\emu-update-last-check.ini for writing.
- 布尔教育php分享视频,布尔教育jQuery实战视频资料分享
- 半导体器件物理【14】非平衡过剩载流子 —— 非平衡少数载流子浓度 、附加电导、扩散电流、漂移电流、总电流