写在前面的话

作者说:我是来自京东数科的朱翔宇,也是此次大赛 Champion Chasing Boy 团队的 DOTA(常用ID),在与队友 鱼遇雨欲语与余(京东零售)、 尘沙杰少、林有夕、嗯哼哼唧的共同努力下,最终在“2020数字中国创新大赛——数字政府赛道”智能算法赛中拿到了冠军。下面分享一下我们团队在大赛A、B、C榜各阶段的解决方案。

一、大赛背景?

2020数字中国创新大赛(Digital China Innovation Contest, DCIC 2020),由“数字中国建设峰会组委会”主办,以“培育数字经济新动能,助推数字中国新发展”为主题。数字政府赛道作为数字中国创新大赛的主要赛道之一,本次赛事以推动福建省政务数字化升级为契机,围绕政务大数据展开,聚焦智慧海洋、政务服务、智慧社区、城市管理四大领域,以应用为导向,聚集全球顶级技术创新人才,发掘先进的人工智能与政务融合的创新应用成果。利用大数据提升政府治理能力和水平,加速福州乃至福建全省数字经济新业态的形成,持续诠释“数字中国”国家战略。

1.赛题背景

本赛题基于位置数据对海上目标进行智能识别和作业行为分析,要求选手通过分析渔船北斗设备位置数据,得出该船的生产作业行为,具体判断出是拖网作业、围网作业还是流刺网作业。初赛将提供11000条(其中7000条训练数据、2000条testA、2000条testB)渔船轨迹北斗数据。

复赛考虑以往渔船在海上作业时主要依赖AIS数据,北斗相比AIS数据,数据上报频率和数据质量均低于AIS数据,因此复赛拟加入AIS轨迹数据辅助北斗数据更好的做渔船类型识别,其中AIS数据与北斗数据的匹配需选手自行实现,具体细节复赛开赛时更新。同时,希望选手通过数据可视化与分析,挖掘更多海洋通信导航设备的应用价值。

2.数据示例


渔船ID:渔船的唯一识别,结果文件以此ID为标示

x:渔船在平面坐标系的x轴坐标

y:渔船在平面坐标系的y轴坐标

速度:渔船当前时刻航速,单位节

方向:渔船当前时刻航首向,单位度

time:数据上报时刻,单位月日 时:分

type:渔船label,作业类型

原始数据经过脱敏处理,渔船信息被隐去,坐标等信息精度和位置被转换偏移。

选手可通过学习围网、刺网、拖网等专业知识辅助大赛数据处理。

3.AIS数据


ais_id:AIS设备的唯一识别ID

4.评估指标

其中P为某类别的准确率,R为某类别的召回率,评测程序f1函数为sklearn.metrics.f1_score,average='macro&apos。

二、方案整体框架设计

首先,我们在构思整个方案时,沿着“人工海事、数字海事、智慧海事”的时间线。秉承快速建设、多次迭代、小步快跑的模式,强调数据的多渠道采集,同时注重形成以海事、渔业场景为核心的智能化体系。


基于此,我们在可视化的业务场景上,思考了由海洋到陆地,由水下到水上的全方位立体化的可视化应用渠道。比如海洋空间领域的灾害预警、船只实时定位、事故救援。陆地水产品冷链物流、渔船政务管理等。

同时数据层面,注重标准化和服务能力的建设。
系统架构层面,自下而上,由数据驱动智慧化、多场景、多模型的建设。
数据分析层面,包含了多维度数据概况,方便由全局把控整个海洋的船只状况。
数据深度挖掘层面,船只热力图从流量预测、碰撞预警等方向给予智能化管理支持。
人工智能层面,北斗和AIS数据的轨迹匹配算法,为渔船作业识别、渔船监控等任务提供了有效支撑。

三、A&B榜方案分享(算法篇)

1.数据探索&信息挖掘


从数据中挖掘信息是辅助识别作业类型的关键,不同作业的渔船,其行驶轨迹、速度、经纬度变化等都存在一定的差异。

拖网变化情况

  • 拖网的坐标看上去有些乱,lon 的移动相较于lat 要大一些。
  • 可能因为拖网的关系,会明显出现几段直线;

    围网变化情况
  • 围网很多都有明显的画圆或者半圆的痕迹;
  • 有些围网看上去像是快速转圈的情况;

    刺网变化情况
  • 刺网的线段看上去很多较为规范,很多看上去像是在很多地方放了很多网,然后船去收网的样子。

2.特征工程框架


单属性特征,从速度、方向、经纬度等方面,由全局和局部两个方向,从分位数特征、分桶统计特征刻画渔船的基本画像。


多属性特征,采用速度相关的交叉特征为主。

3.算法框架


本次比赛依旧使用了“倚天屠龙”之一的LightGBM模型。


很多样本经纬度几乎不变,速度方向信息受波浪影响波动,可能是停泊等原因,分开建模。

4.设备匹配算法


TWS和SWS

  • 当两个轨迹在长时间和长距离内相似,那么它们就应该是相似的,则称其为同源轨迹。
  • 这里通过时间加权相似(TWS)和空间加权相似度(SWS)两种路径匹配算法来匹配北斗数据和AIS数据,同时帮助挖掘AIS数据的价值。

    基于对抗验证的匹配算法(杰少尘沙)
    本赛题杰少提出了 基于对抗验证的匹配算法,将无监督问题转为有监督问题,同时易于加入多种不同的信息,将多种不同的因素信息一起进行考虑。
    我们根据两种设备轨迹匹配出相似度得分,反向丰富渔船的画像部分。丰富的渔船图谱构建完成后,结合对渔船作业类型的挖掘,可以很好的识别违规捕捞等行为,同时在安全角度,对作业类型的准确识别可以采取正确的避让措施,避免事故的发生。结合AIS和北斗数据在对轨迹进行深度挖掘时我们发现,不同作业的渔船,其行驶轨迹、速度、经纬度变化等都存在一定的差异。

四、C榜方案分享(可视化篇)

1.系统架构

可视化方案部分,由首席全栈搬砖师 林有夕 实现了系统的搭建。主要包含:

  • Angular.js前端框架 + echarts可视化,完成前后端分离设计,保证代码和数据安全;
  • Nginx + Flask 实现web接口 ,灵活部署。利用数据预计算+缓存+索引优化技术,提高效率。

2.应用案例

2.1 海洋画像与知识图谱

渔船作业种类繁多,分布差异巨大,对渔船进行大数据画像,描绘知识图谱,以便于政府部门掌握渔船的 基本信息、状态监控和行为特点等。


比如,我们在渔船画像部分,可以直接根据渔船ID,查看不同时间段内查看渔船的速度、航行稳定性、掉线情况、常驻港口等,并根据当前数据给出渔船和渔船所处海域的安全等级。同时由历史数据构成的渔船动态画像,可以清晰的了解船只的作业习惯、设备稳定性等。


渔船知识图谱作为渔船画像的基础建设,帮助掌握了渔船基本情况,当进行了多源轨迹匹配后,我们对船只的了解将由点到面的扩展开来。

2.2 多源时空轨迹数据匹配


船舶避碰终端(AIS)、北斗定位终端等通信导航设备的应用,给海上交通和作业带来了极大便利,但也产生了新的问题,即设备信息不规范导致目标信息失真,进而使得商船误入养殖区、渔船碰撞商船等事故时有发生,每年都会巨大的人身和财产损失,给海上安全治理带来了极大挑战。通过分析AIS设备位置数据,得出是哪一类目标在使用该设备;同时能够通过分析渔船北斗设备位置数据(船号清楚)和AIS设备位置数据(船号不清),得出是哪一艘船在使用该AIS设备,成为更好的使用北斗数据和AIS数据的关键。

2.3 流量监控与预测

使用时序模型预测渔船未来30分钟所在的位置,并结合风控画像计算碰撞指数。综合考量船速、渔船密度、设备掉线时常、定位漂移率等指标。


流量预测方面,结合船只运行轨迹以及历史行为对未来24小时区域进行流量预测。

海洋渔船流量预测可以向安全监控进行赋能,帮助渔船调度、防碰撞预警、合理资源的安排等。通过动态分布图刻画渔船行为迁移规律。

2.4 安全引导与碰撞预警

于2014年至2019年期间发生百余起渔船相撞事故,不仅导致经济损失,还有多起对水域造成极大的污染,能够进行实时安全监控和碰撞预警成为关键。


安全生产一直是我们关心的一个方向,在经过前面图谱的构建、可视化数据的深度分析和挖掘之后,我们有了一定的基础,通过机器学习、人工智能的方式对海洋渔船流量进行预测,向安全监控进行赋能,帮助渔船调度、防碰撞预警、资源的合理安排等。通过动态分布图刻画渔船行为迁移规律。


通过热力图展示区域碰撞系数,对碰撞做出有效的提前预警。

  • 按速度划分危险等级。如果渔船周围存在较多航速较快的渔船,则触发安全警告。
  • 检测渔船直径内船只个数。检测渔船直径N公里内不同速度的渔船个数,超过某个数量则预警。

以上是我们团队Champion Chasing Boy 在本次“数字中国创新大赛——数字政府赛道”智能算法赛道中的方案。

写在最后的话

团队介绍

Champion Chasing Boy团队成员:鱼遇雨欲语与余、 尘沙杰少、林有夕、嗯哼哼唧、DOTA。我们是一群来自不同地域的算法从业者和爱好者组成的团队,在一个奋斗的年纪,内心向往着一个可以亮剑的舞台。同时也欢迎志同道合的小伙伴一起交流成长。

本文作者:京东数科 朱翔宇
文章来源:“京东数科技术说”微信公众号
原文链接: https://mp.weixin.qq.com/s/bXnu78T12Rs1TrfDJIA6nQ
更多好文欢迎关注“京东数科技术说”微信公众号,我们只凭技术说话!

2020数字中国创新大赛 • 算法赛道冠军技术方案分享相关推荐

  1. 4373支队伍报名2020数字中国创新大赛-数字政府赛道 数字战“疫”彰显社会责任...

    2月25日,2020数字中国创新大赛-数字政府赛道进入复赛阶段.根据本赛道承办方--阿里云天池竞赛平台的数据显示,自1月1日赛事报名通道上线至今,共吸引了全球16个国家和地区共计4373支队伍参赛. ...

  2. 【算法实战篇】时序多分类赛题-2020数字中国创新大赛-智慧海洋建设top5方案(含源码)

        Hi,大家好!这里是AILIGHT!AI light the world!这次给大家带来的是2020数字中国创新大赛-数字政府赛道-智能算法赛:智慧海洋建设的算法赛复赛赛道B top5的方案以 ...

  3. 【时序多分类赛题】2020数字中国创新大赛-智慧海洋建设top5方案(含源码)

       这次给大家带来的是2020数字中国创新大赛-数字政府赛道-智能算法赛:智慧海洋建设的算法赛复赛赛道B top5的方案以及代码开源.比赛传送门:https://tianchi.aliyun.com ...

  4. 2020数字中国创新大赛—算法赛开源方案复盘笔记

    DCIC 2020:智慧海洋建设 开源方案复盘笔记 一.赛题介绍 1.1 赛题背景 本赛题基于位置数据对海上目标进行智能识别和作业行为分析,要求选手通过分析渔船北斗设备位置数据,得出该船的生产作业行为 ...

  5. 天池算法赛:数据挖掘经典赛事!DCIC 2020 数字中国创新大赛启动!

    2020数字中国创新大赛(Digital China Innovation Contest, DCIC2020),以"培育数字经济新动能,助推数字中国新发展"为主题,采取多赛道并行 ...

  6. 2020数字中国创新大赛-智能算法赛-冠军方案

    写在前面的话 大家好,我是 Champion Chasing Boy 的 DOTA,在队友 鱼遇雨欲语与余. 尘沙杰少.林有夕.嗯哼哼唧 的Carry下,最终在本届智能算法赛拿到了复赛总榜单Top1的 ...

  7. 2020数字中国创新大赛-智能算法赛-冠军方案分享

    写在前面的话 大家好,我是 Champion Chasing Boy 的 DOTA,在队友 鱼遇雨欲语与余. 尘沙杰少.林有夕.嗯哼哼唧 的Carry下,最终在本届智能算法赛拿到了复赛总榜单Top1的 ...

  8. 捷报!快商通斩获数字中国创新大赛2大重量级奖项

    10月12日,2020数字中国创新大赛·鲲鹏赛道年度总决赛在福州收官,快商通Kriston AI携"猎擎"声纹识别系统平台,从千支队伍中一路过关斩将,荣获"AI技术比赛二 ...

  9. 【算法竞赛学习】数字中国创新大赛智慧海洋建设-Task2数据分析

    智慧海洋建设-Task2 数据分析 此部分为智慧海洋建设竞赛的数据分析模块,通过数据分析,可以熟悉数据,为后面的特征工程做准备,欢迎大家后续多多交流. 赛题:智慧海洋建设 数据分析的目的: EDA的主 ...

最新文章

  1. Machine Learning Techniques -6-Support Vector Regression
  2. JavaScript数据类型
  3. mysql使用命令提示符创建库表
  4. java.util.list 赋值_java.util(ArrayList)
  5. pyspark 通过list 构建rdd
  6. python重命名文件源码
  7. WEB前端学习一 JS预解释
  8. Ubuntu 10.10, 11.04, 11.10这三个版本无法从优盘启动
  9. python multiprocessing 和tcp
  10. MyBatis 在xml文件中处理大于号小于号的方法
  11. 04_使用Influxdb自带函数查询
  12. 通过jQuery获取Select选中的值或文本
  13. leetcode 367 Valid Perfect Square
  14. 机器人关节伺服电机PID串级控制
  15. 获取字符串的md5sum值——分别使用shell、python、c++实现
  16. 经验模态分解股票波动matlab,LMD经验模态分解matlab程序——原味的
  17. 使用计算机辅助翻译的基本流程,计算机辅助翻译不同于机器翻译,计算机辅助翻译的原理和流程...
  18. cyberduck 源代码学习记录一,编译源代码 build for window
  19. handsontable 给单元格设置下拉 菜单
  20. linux中时间转换date

热门文章

  1. 修改远程桌面默认端口
  2. TS3180打印机喷头堵塞以及打印照片颜色偏暗完美解决
  3. 无意苦争春,一任群芳妒!M1 Mac book(Apple Silicon)能否支撑全栈工程师的日常?(Python3/虚拟机/Docker/Redis)
  4. 如何获取维普免费账号--在校外下载维普万方等全文
  5. 正点原子STM32F4探索者开发板HAL库触摸屏例程移植到STM32CubeMX+CLion
  6. H5DU1262GTR-E3C特征
  7. GIS标准分幅工具——制作图幅接合表
  8. doc转docx文件会乱吗_docx怎么转换成doc?docx转doc方法汇总
  9. 计算机病毒占内存吗,蠕虫病毒占多少内存
  10. 编译64位Detours(其他vs版本同理)