参加佛山互联网协会建模大赛,主题为植被类型预测,数据量分3个阶段,10/15/15万左右的放出,暨大教授在里面加了噪音,但我EDA没做得很好;因此只拿到26名;

训练环境:WIN7,16G内存,Rstudio,xgboost,CV交叉验证;耗时比较久,因为用for语句;

最高成绩加权F1值只有0.69,Kaggle实测成绩0.72;

脚本和训练过程见下面notebook;

链接描述

去听前11名理论赛演讲,其实大家用的都差不多,还有人会用并行结构;用spss做更多eda;

大赛规则:

“数创岭南”职工技能赛赛题介绍与数据下载下载数据

1

赛题介绍

随着计算能力、存储空间、网络的高速发展,人类所积累的数据量正在快速增长,而对特定数据的分类算法就显得尤为重要。分类是一项非常有应用价值的技术之一,它的应用遍及了社会中的各个领域,尤其是对多标签分类问题的解决方法,是机器学习中一个重要的研究领域。

2

数据集描述

本次大赛提供数据集反映的是不同地块的植被类型情况。通过海拔、坡度、到水源的距离、地块位置等特征项,对地块植被的类型进行预测(7个类型)。数据集中共有 13个特征,由 55 列数据组成。

如下图所示:

字段名称 数据类型 量度单位 描述

Elevation 定量数据 米 海拔高度

Aspect 定量数据 度 方位角

Slope 定量数据 度 坡度

Horizontal_Distance_To_Hydrology 定量数据 米 与最近水文特征的水平距离

Vertical_Distance_To_Hydrology 定量数据 米 与最近水文特征的垂直距离

Horizontal_Distance_To_Roadways 定量数据 米 与最近道路的水平距离

Ground position 定性数据 a-l 地块位置

Hillshade_9am 定量数据 0至255的索引 早上9:00光的投射度(夏至)

Hillshade_Noon 定量数据 0至255的索引 正午光的投射度(夏至)

Hillshade_3pm 定量数据 0至255的索引 下午3:00光的投射度(夏至)

Horizontal_Distance_To_Fire_Points 定量数据 米 与最近燃火点的距离

Wilderness_Area (4个二元列) 定性数据 0或1(缺失/存在) 荒野地区等级

Soil_Type (40个二元列) 定性数据 0或1(缺失/存在) 土壤类型等级

Cover_Type (7种) 整数 0至7 地表覆盖类型

3

数据集提供方式

这是一个模拟真实情况的过程,数据是分阶段提供的,并且包含约1‰~2‰的噪声值。每个阶段,会提供不等数量的训练和预测数据集,选手通过训练数据进行建模、优化算法,并在测试集进行预测,每个阶段的预测准确率都将计入第一轮实操赛的总成绩。

· 第一阶段提供10万条训练数据,预测2万条。时间:8月20日00:00—9月5日23:59;

· 第二阶段提供12~15万条训练数据,预测3万条。时间:9月6日00:00—9月21日23:59;

· 第三阶段提供12~15万条训练数据,预测3万条。时间:9月22日00:00—10月8日23:59。

建议选手在考虑准确率的同时,需要考虑计算效率(运算时间),计算效率将作为第三轮答辩赛的其中一个评分指标。最终总决赛评委会根据实操赛、理论赛成绩以及现场答辩的表现对选手进行综合评分。

4

评分标准

大赛平台将自动计算每一个阶段测试数据集中预测分类的准确率。

本次采用宏平均值(Macro-averaging)作为各阶段的评价指标。

宏平均(Macro-averaging),是先对每一个类统计指标值(F1-Score),然后再对所有类求加权(Qi=各类型样本量占比)平均值。

在第一轮实操赛的三个阶段,将依据参赛队伍的预测准确率(宏平均值)进行排名,准确率越高,则排名越靠前。参赛选手可以不断优化模型,通过平台提交结果,每天最多提交3次。

· 第一轮实操赛最终总得分规则如下:

实操赛总排名按照如下公式计算:

(第一阶段预测准确率30%+第二阶段预测准确率35%+第三阶段预测准确率*35%)

实操赛标准分 = 100-(100*P1-50)/N1,P1为选手在实操赛的综合排名,N1为参加实操赛的选手人数。

5

竞赛结果提交

请选手利用建立的模型对每阶段提供的预测数据集中的地块植被类型(BD列)

进行预测(7类),预测结果按如下格式保存成CSV格式提交。

预测结果(1/2/3/4/5/6/7)

预测结果(1/2/3/4/5/6/7)

预测结果(1/2/3/4/5/6/7)

......

预测结果(1/2/3/4/5/6/7)

python是一种什么类型的植物_植被类型预测相关推荐

  1. python是一种什么类型的植物_「蕨类植物」是一种什么类型的植物?

    传统上,植物学中将高等植物分为苔藓植物和维管植物.维管植物,就是通过维管束(木质部和韧皮部)在植物体内运输水分和养料的植物.蕨类就是维管植物中除去种子植物的部分,也就是说,不以种子繁殖的维管植物都是蕨 ...

  2. python 是什么类型的语言-python是一种什么类型的语言

    小时不识月,呼作白玉盘.很多人习惯地说Python不过是一种脚本语言而已,实际上这种说法是非常不准确的,完全不能体现出Python的强大. 严格来说,Python是一门跨平台.开源.免费的解释型高级动 ...

  3. python是什么类型的编程语言-python是一种什么类型的语言

    小时不识月,呼作白玉盘.很多人习惯地说Python不过是一种脚本语言而已,实际上这种说法是非常不准确的,完全不能体现出Python的强大. 严格来说,Python是一门跨平台.开源.免费的解释型高级动 ...

  4. python是什么类型的编程语言-python是一种什么类型的编程语言

    Python(英国发音:/ˈpaɪθən/ 美国发音:/ˈpaɪθɑːn/)是一种广泛使用的解释型.高级编程.通用型编程语言,由吉多·范罗苏姆创造,第一版发布于1991年.可以视之为一种改良(加入一些 ...

  5. python是一种语言吗-python是一种什么类型的语言

    小时不识月,呼作白玉盘.很多人习惯地说Python不过是一种脚本语言而已,实际上这种说法是非常不准确的,完全不能体现出Python的强大. 严格来说,Python是一门跨平台.开源.免费的解释型高级动 ...

  6. python中内置的四种数值类型为_浅谈python语言四种数值类型

    Python语言支持四种不同的数值类型,包括int(整数)long(长整数)float(浮点实际值)complex (复数),本文章向码农介绍python 四种数值类型,需要的朋友可以参考一下.希望对 ...

  7. python是一种什么类型语言-Python还是一种

    [判断题]Python不允许使用关键字作为变量名,允许使用内置函数名作为变量名,但这会改变函数名的含义 [填空题]Python还是一种 类型语言, 变量的类型也是可以随时变化的. [填空题]Pytho ...

  8. python mysql驱动写入datetime类型的数据_解决python写入mysql中datetime类型遇到的问题...

    刚开始使用python,还不太熟练,遇到一个datetime数据类型的问题: 在mysql数据库中,有一个datetime类型的字段用于存储记录的日期时间值.python程序中有对应的一个dateti ...

  9. 你属于哪种个性类型的人_四种基本的个性类型

    纵观历史.人物,我们可以把人的个性类型分为四种:指导者.社会活动者.亲善者.智觉者. 总的来说,指导者最关注的是要把事情达成:社会活动者最关注的是炫耀自己的辉煌历史:亲善者最关注的是让身边的每个人都高 ...

  10. python是一种解释类型的编程语言-Python入门你要懂哪些?这篇文章总算讲清楚了...

    原标题:Python入门你要懂哪些?这篇文章总算讲清楚了 作者 | 小土豆Yuki 来源 | 洁癖是一只狗(ID: rookie-dog) 从今天开始学习Python,今后会不定期更新Python的相 ...

最新文章

  1. app图标圆角角度_?APP图标造型分析
  2. [Js]删除数组指定元素
  3. Nginx源码研究之nginx限流模块详解
  4. 「Python」queue库简易教程
  5. CGCTF-Web-签到2
  6. vb趣味编程弹球小游戏_最好玩的微信小游戏集合,总有一款是你没玩过的
  7. pointcut 切面表达式 切入点表达式
  8. linux常用命令.txt
  9. Linux—shell脚本化工具模板
  10. Oracle 多表查询
  11. vue2.0 实现导航守卫(路由守卫)
  12. 一种简单的睡眠评分规则
  13. python怎么下载panda包_pandas python下载
  14. (四)AR Foundation实现坐标、图片检测(上)
  15. 判定两颗二叉树是否相同
  16. 罗丹明 PEG 巯基,Rhodamine PEG Thiol,荧光染料标记巯基/硫醇
  17. 推荐系统入门(七):新闻推荐实践2(附代码)
  18. micropython入门 stm32_micropython(1):芯片 STM32 开发,也可以使用micropython开发,都很方便...
  19. 阿里云计算工程师ACP考题归类解析
  20. 高德地图搜索以后生成的marker的点击事件

热门文章

  1. linux qt编译器设置,Qt使用教程:添加编译器(一)
  2. termux目录_Termux 入门教程:架设手机 Server 下载文件
  3. 深度学习中的激活函数
  4. 计算机算法应用状况,详解机器学习中的现状,算法,应用
  5. 电磁流量计应用的局限性
  6. 单机:Oracle 19C 数据库一键安装
  7. 用Radeon RAMDisk在Windows 10中创建关机或重新启动不消失的内存虚拟盘
  8. IT项目画原型图工具介绍
  9. c#将byte转为int_C# int转byte[],byte[]转int
  10. 自动化测试平台(七):头像展示、下拉菜单及用户管理模块增删改功能实现