背景

比赛的背景和介绍:百度点石、西安交大大数据竞赛,比赛具体的任务是给定遥感图片和每个地点的行人访问数据要求参赛者根据这两个数据集预测地点的标签,例如医院、学校等如下图所示:

数据集中图片数据为4万张100*100的jpg格式图片,下图所示:

行人访问数据为每一个地点的各个行人不同时间的访问信息,例如属于居民区的某一地点的行人访问记录:

思路一

数据集中有很多噪声比如全黑或者全白,全黑应该是切割时候将黑色位置也切割进去了,白色位置为云遮盖,将这些噪声全部过滤掉。图片数据集下了不少的功夫却收效甚微,实验了大量的模型VGG16、VGG19、ResNet系列、Inception系列、ResNeXt、NASNet、SE-ResNeXt等最好的结果是NASNet和SE-ResNeXt的Accuracy在0.4左右。也通过这几个表现较好的网络进行融合将结果投票、将各个网络输出的每个类别的概率相加等做法,有些类似于Bagging中随机森林的思想,但是效果还是不太好,没有明显的提升,

总体baseline思路是这样的(Inspired by https://github.com/czczup/UrbanRegionFunctionClassification) :

通过两个网络提取特征,通过网络的最后一层256和612后进行拼接成768再进行fully connected最后9个类别(而在我的团队中是预测出来9个位置的概率后集成在一起),激活函数设成soft max即可可以达到0.5左右。这里的Visit Network如果是卷积网络等比较容易集成到一起训练,如果使用XGBoost、LigntGBM等就得分开训练了。这里值得注意的一点是使用了DPN卷积网络来处理序列数据,具体的做法是把visit数据转换为7x26x24的矩阵(7天26周24小时),将这个矩阵看作图片的格式7个通道,26*24的大小输入DPN卷积网络进行训练,使用了处理图片的思想来处理序列数据,非常值得参考,记得2018年北邮有一个大数据竞赛就是给定了行人访问数据判断地点的标签,便可以使用这个模型。

思路二

下面的这个思路是将行人数据和图片数据训练的不同模型的结果输入到XGBoost模型进行融合能达到0.6左右成绩。Inspired by(https://blog.csdn.net/qq_34919792/article/details/93976813) ,与上一个架构不同点在于最后一层不再使用全连接作为融合,而是使用XGBoost融合。架构如下图所示,使用了XGBoost取代了DPN网络,这提高了模型的准确率,这里值得指出的是我们团队使用的是LightGBM准确率却低百分之零点几的百分点,可见LigntGBM提高了训练的速度却牺牲了模型的精度为代价。

思路三

接下来的思路在上一版的基础上进行迭代,使用如下的架构,作者因为时间原因并没有实现其中的分割网络,只使用了其余的三个网络,准确率最终也达到了0.7左右,这个思路结合了第一个和第二个思路中处理序列的网络,将SE-ResNeXt、XGBoost、DPN分别训练预测出各个位置的概率后输入到XGBoost中。

第五届百度西安交大大数据竞赛总结相关推荐

  1. 数据分析初探——以2020百度西安交大大数据竞赛:传染病感染人数预测为例

    文章目录 数据分析初探--以2020百度&西安交大大数据竞赛:传染病感染人数预测为例 比赛的大致情况 环境配置与相关包的配置 anaconda和pytorch(顺带tensorflow)的配置 ...

  2. 全世界都在说中国话?2022国际大数据竞赛首次以“中文”命题

    8月10日, IKCEST第四届"一带一路"国际大数据竞赛暨第八届百度&西安交大大数据竞赛(以下简称"国际大数据竞赛")正式启动,本届赛题聚焦" ...

  3. 2020百度大数据竞赛-Top3 故事分享(开源连接)新手入门

    IKCEST第二届"一带一路"国际大数据竞赛" 历时三个月的百度大数据竞赛伴随着夏末的阵阵蛙声终于也迎来了尾声,从初赛16名到复赛第3名,从大数据"小白&quo ...

  4. 【数据竞赛】2020年11月国内大数据竞赛信息-奖池5000万

    2020年11月:下面是截止到2020年11月国内还在进行中的大数据比赛题目,非常丰富,大家选择性参加,初学者可以作为入门练手,大佬收割奖金,平时项目不多的,比赛是知识非常好的实践方式,本号会定期发布 ...

  5. 回忆录 - IKCEST首届“一带一路”国际大数据竞赛(2019)获奖经历

    中文版 摘要 作为队长,我在2019年5月20日-2019年8月1日,共计两个半月的时间里率团队(几个本校的研究生)参加了百度大数据竞赛,并获得了18/2312(top0.78%)的好成绩.此次比赛的 ...

  6. 在Kaggle上赢得大数据竞赛的技巧和窍门

    在Kaggle上赢得大数据竞赛的技巧和窍门 解决方案 平台 数据 应用 方法 阅读1906  原文:The tips and tricks I used to succeed on Kaggle  作 ...

  7. 阿里巴巴天池大数据竞赛黄金联赛全面开战,全球同步报名,只为寻找最聪明的你!...

    阿里巴巴天池大数据竞赛黄金联赛全面开战,全球同步报名,只为寻找最聪明的你!          天池大数据竞赛是由阿里巴巴集团主办,面向全球新生代力量的高端算法竞赛.通过开放海量数据和"天池& ...

  8. 赛后总结:第四届工业大数据竞赛注塑成型

    赛后总结:第四届工业大数据竞赛注塑成型 原文首发于我的公众号 前言 以第四届工业大数据竞赛虚拟量测任务为例,介绍大家的思路.自己代码乱写,导致不知道最后要复现的是哪个,加上工作上各种人员优化,就没有进 ...

  9. 比赛报名 | 第二届ChineseCSCW恒电杯大数据竞赛

    第二届ChineseCSCW Cup大数据竞赛(恒电杯)将于2021年09月16日至18日与第16届全国计算机支持的协同工作与社会计算学术会议 (Chinese Conference on Compu ...

最新文章

  1. 用seaborn 画出唯美的论文专用图片,自己定制python画图的数据集
  2. TEE综述:植物—土壤反馈(PSF):自然和农业科学间的桥梁
  3. 文治者必有武备不然长大了挨欺负_“有文事者必有武备,有武备者必有文事。”出自司马迁的《史记》。...
  4. Apache Rewrite的主要功能
  5. Java static initialization研究
  6. java 匿名类型_Java之匿名类讲解
  7. 软件项目管理工具简介
  8. 高数+信号与系统的公式大全,文末附赠有数字信号处理的复习资料哦
  9. 数字信号第二章freqz函数作业
  10. 非中文正则表达式 php,php判断是不是为中文正则表达式大全(转)
  11. Python截屏工具,识别屏幕中的二维码
  12. WINCC报表 VBS脚本链接SQL Server数据库 日报月报 导出EXCEL PDF
  13. python人工智能算法的方式_Python与人工智能
  14. 使用iText读取PDF文件
  15. As3.0 中影片剪辑调用
  16. 架构思维成长系列教程
  17. java中equals方法重写详解(彻底搞定)
  18. Redis概述、安装、可视化访问
  19. Handler dispatch failed; nested exception is java.lang.OutOfMemoryError: Java heap space
  20. Stegsolve使用方法-图像隐写

热门文章

  1. 【调剂】拟接收调剂——安徽工业大学冶金工程学院炼铁新技术研究所
  2. 机房监控系统的功能特点以及工作原理!
  3. 后氧传感器正常数据_氧传感器电压多少正常?氧传感器数据流分析介绍
  4. [小红猪]算法:人工智能的新曙光
  5. Spsice仿真实验 例B-1
  6. 大佬们当年是怎样熬过资本寒冬的?
  7. Kafka知识体系总结【附大厂高频面试题】
  8. 车辆运动学模型到动力学模型推导
  9. 揪心的问题-f2py
  10. java 生成纯色图片_java实现切图并且判断图片是不是纯色/彩色图片