中文版

摘要

作为队长,我在2019年5月20日-2019年8月1日,共计两个半月的时间里率团队(几个本校的研究生)参加了百度大数据竞赛,并获得了18/2312top0.78%)的好成绩。此次比赛的主要内容是城市区域功能分类,是个多模态分类任务,内容包括图像识别和文本特征挖掘。

在参与这次比赛的过程中,我们队经历了不少挫折,也获得了不少收获。我们最终提出了图像-文本融合网络识别模型基于文本特征的投票器,拿到了初赛17,复赛18的成绩。

实现经历

我们首先从图片入手,用ResNeXt作为模型喂入图片,最后发现准确率保持在50%左右,效果不是很理想。

随后,我们仔细地检查了一遍图片,发现大约20%的遥感图片中雾霾严重,甚至存在大面积黑块,于是我们进行了一遍图片清洗,把含有黑块的图片从数据集中去除,同时对剩余的图片进行dehaze,这样一来,纯图片的准确率达到了55%

之后,我们把文本的时间序列信息提取出来,转化成128×24的图片,用DPN26进行训练。把图片和文本的识别器输出结果concat后喂入fc层,这也就是Net1的结构,此时的综合识别准确率为64%

接着,我们开始用stacking集成学习的方法来训练数据。通过对图片进行 TTA缩放上下采样加权,以及对文本进行特征提取等各种操作,我们获得了其他六个网络模型:Net2~Net7。同时我们把训练集数据分成5份进行交叉训练和识别,并把第一步网络获得的结果加权平均后用Xgboost进行二次训练。这一步之后识别的准确率提高到了76%

此时,我们发现自己和排名靠前的其他队伍在准确率上还有一定差距,同时结合bbs的信息。我们发现:用户对于不同地区的访问记录间存在一些关联,而这种关联是通过用户ID产生的,而此类信息通过时间序列模型是挖掘不到的

于是我们创造性地提出了基于单个用户在某地区出现次数的投票器,用于进一步挖掘文本特征,最终将准确率提高到了81.62%。虽然此后我们又提出了一个基于小时数的更强的投票器,但由于算力和时间的限制,没能实现。

通过人为对结果进行一定调整,我们队最终拿到了82.18%,也就是第18名的成绩。没能获得更好的名次,还是有一些遗憾

结语

这次比赛经历不仅提高了我的动手能力,促进了我的自学能力,培养了我对机器学习相关领域的兴趣。也让我学会了不少理论知识和实践技巧:在此期间,我对神经网络调参的相关技巧常用的集成学习方法主流的CNN网络框架、和文本特征工程的一般流程有了较为深刻的了解和掌握。这为我未来从事相关领域的学术研究打下了坚实的和实践基础。

English Version

Summary

My best research experience during undergraduate studies is about a big data competition I participated in last year.

Last year, I led several postgraduates taking part in the IKCEST first “Belt and Road” big data competition. The competition lasted from May to August, about two and a half months. Finally we ranked 18th of all 2312 teams. The main content of the competition is functional classification of urban areas, which is a multi-modal classification task, including image recognition and text feature mining.

During the competition, our team experienced lots of setbacks but also gained a lot. We finally put forward the image-text fusion network recognition model and the text-feature-based voter, and ranked 17th in preliminary,18th in semi-final.

Implementation Details

Here’s some detailed process:

First, we started with the images, used ResNeXt as the model and fed images into the network, but found that the accuracy is kept at about 50%. The effect was not very ideal.

After examining the images carefully, we found that about 20% of remote sensing images had serious haze and even large black blocks, so we cleaned the images, removed those pictures containing black blocks from data set, and dehazed the remaining images, so that the accuracy of our model reached 55%.

Then we extracted time-series information from text and transformed each text file’s time-series features into a matrix of 128 by 24 and trained with DPN26. We concatenated the output 1D vectors of image recognizer and text recognizer and fed it into full-connected layer. That is the structure of the Net1. At this time, our comprehensive recognition accuracy is 64%.

Afterwards, we began to train data using stacking and some integrated learning methods. We constructed another six network models Net2~Net7 by adding some extra operations to the data, including TTA, scaling, up and down-sampling, weighting, and feature extraction. At the same time, we divided the training data set into 5 parts for 5-folds stacking, weighted the results obtained by our first-step network and then used the Xgboost for secondary training. After these steps, recognition accuracy increased to 76%.

Unfortunately, we found there were still some gaps between ourselves and other top teams.  Combining with information in BBS, we realized that there were some associations between users' access records in different regions, and these associations took effect through user ID, while such information could not be mined by our previous time series model.

So we creatively proposed a voter based on the number of times a single user appeared in a certain area to further mine the text features and finally improved the accuracy to 81.62%. Shortly afterwards, we proposed another stronger voter based on the number of hours, but due to our limited computational power and time, the later idea wasn’t successfully implemented.

After some manual adjustment to the results, our team finally got 82.18%, that is, 18th place in the rank list. There is still some pity for not getting a higher rank.

Conclusion

During this competition, I not only improved my self-study ability and hands-on ability, cultivated my interest in machine learning and AI research, but also learned a lot of theoretical knowledge and practical skills, including neural network tuning, integrated learning, customize CNN network framework, feature engineering. This experience laid a solid practical foundation for my future academic research in related fields.

But I also found that I was inexperienced in data science, and that I couldn't quickly find or construct an effective model when I got a specific machine learning project, and it took a lot of experimentation with existing models. Besides, I'm not very good at writing papers, and I’m not very familiar with how to do academic research in a particular field, and these are the deficiencies that I intend to get exercise and improvement in my later research career.

相关信息

  • 我们队队名:浑南摸鱼队
  • 竞赛官网:http://www.ikcest.org/bigdata2019/
  • 赛题描述:https://dianshi.bce.baidu.com/competition/30/rule
  • 复赛名次:https://dianshi.bce.baidu.com/competition/30/rank
  • 复赛实现思路:https://blog.csdn.net/Flying_Dutch/article/details/106134801
  • 复赛源代码及代码说明:GitHub - SeaEagleI/BaiduXJTU_BigData_2019_Semi-Final: BigData Contest 2019 Semi-Final

回忆录 - IKCEST首届“一带一路”国际大数据竞赛(2019)获奖经历相关推荐

  1. 全世界都在说中国话?2022国际大数据竞赛首次以“中文”命题

    8月10日, IKCEST第四届"一带一路"国际大数据竞赛暨第八届百度&西安交大大数据竞赛(以下简称"国际大数据竞赛")正式启动,本届赛题聚焦" ...

  2. 非科班生如何浑水摸鱼在省级大数据竞赛中获奖

    以各种竞赛为线索的回忆录/经验贴,没写算法啥的,就是记比赛过程,本科除了看的那几本书,打的那十几场竞赛,寝室那几个人,几位恩师的脸,很多都记不清了. 这次记录的比赛是:2017年安徽省大数据技术与应用 ...

  3. 2020百度大数据竞赛-Top3 故事分享(开源连接)新手入门

    IKCEST第二届"一带一路"国际大数据竞赛" 历时三个月的百度大数据竞赛伴随着夏末的阵阵蛙声终于也迎来了尾声,从初赛16名到复赛第3名,从大数据"小白&quo ...

  4. ​阿里云天池工业AI大赛暨中国“印象盐城,数创未来”大数据竞赛正式启动

    记者 | 张俊潇 官网 | www.datayuan.cn 微信公众号ID | datayuancn 10月11日,"2017杭州·云栖大会"在万众期待中盛大召开,会上马云宣布组建 ...

  5. 【数据竞赛】2020年11月国内大数据竞赛信息-奖池5000万

    2020年11月:下面是截止到2020年11月国内还在进行中的大数据比赛题目,非常丰富,大家选择性参加,初学者可以作为入门练手,大佬收割奖金,平时项目不多的,比赛是知识非常好的实践方式,本号会定期发布 ...

  6. 大数据竞赛平台——Kaggle 入门

    大数据竞赛平台--Kaggle 入门篇 这篇文章适合那些刚接触Kaggle.想尽快熟悉Kaggle并且独立完成一个竞赛项目的网友,对于已经在Kaggle上参赛过的网友来说,大可不必耗费时间阅读本文.本 ...

  7. 在Kaggle上赢得大数据竞赛的技巧和窍门

    在Kaggle上赢得大数据竞赛的技巧和窍门 解决方案 平台 数据 应用 方法 阅读1906  原文:The tips and tricks I used to succeed on Kaggle  作 ...

  8. 阿里巴巴天池大数据竞赛黄金联赛全面开战,全球同步报名,只为寻找最聪明的你!...

    阿里巴巴天池大数据竞赛黄金联赛全面开战,全球同步报名,只为寻找最聪明的你!          天池大数据竞赛是由阿里巴巴集团主办,面向全球新生代力量的高端算法竞赛.通过开放海量数据和"天池& ...

  9. 赛后总结:第四届工业大数据竞赛注塑成型

    赛后总结:第四届工业大数据竞赛注塑成型 原文首发于我的公众号 前言 以第四届工业大数据竞赛虚拟量测任务为例,介绍大家的思路.自己代码乱写,导致不知道最后要复现的是哪个,加上工作上各种人员优化,就没有进 ...

最新文章

  1. sql实现random sample_web验证码的简单实现
  2. modelandview跳转页面404_Thinkphp制作404跳转页
  3. 设置dialog显示,自定义时间到后dialog消失
  4. VC++ 给选项卡控件添加不同图标
  5. 16款新品发布,数据揭秘小米MIX荣归背后逻辑
  6. 最终篇!AAAI 2022值得读的NLP论文盘点
  7. C++中public protected private的区别
  8. 白盒测试方法静态分析_静态分析的教育方面
  9. 腾讯IVWEB前端工程化工具feflow思考与实践
  10. Oracle Ravello的学习资料
  11. 计算机控制技术第二版答案于微波,微波技术基础课后参考答案 (田加胜版)
  12. multisim红绿灯元器件在哪里_实验二Multisim交通灯仿真.ppt
  13. const注意点(对象赋值)
  14. 使用uiautomatorviewer.bat抓取页面是显示Error obtaining Ul hierarchy Reason
  15. Unity SKFramework框架(二十四)、Avatar Controller 第三人称控制
  16. 【Office软件使用】Word往框里打勾
  17. submit()和onsubmit()的区别
  18. [BUU刷题记录]day01-起步
  19. 什么是3D摄影机,与普通摄影机有什么不同?
  20. C Primer Plus 读书笔记(二)

热门文章

  1. 抖音xlog算法 bqq 以及各个参数的解释以及如何突破风控注册账号和点赞关注
  2. 黑马c++学习笔记提高篇1
  3. 数学建模(一)对变化进行建模及其解
  4. 这个传奇大佬,自杀了!
  5. 人脸美妆之唇色检测算法研究
  6. 《卷积网络》深度卷积网络实例
  7. Fe原子辐照轰击多层石墨烯模拟代码
  8. 七月在线笔记之推荐系统
  9. Feign的hystrix熔断器不起作用
  10. Zookeeper实例创建和会话建立的异步特性