Covertype 简介

植被覆盖类型数据集,包括位于美国科罗拉多州北部罗斯福国家森林的四个荒野区域。样本总数为581012,在kaggle中,样本划分为训练集(training set):15120,以及测试集 (test set) :565892 。
每个样本来自一块30m x 30m 的区域采样。每个样本有54个特征,且有7种类型, 这七种类型是:

1 - 云杉/冷杉
2 - 洛奇波尔松
3 - 黄松
4 - 三叶杨/柳树
5 - 阿斯彭
6 - 花旗松
7 - 克鲁姆霍尔茨

除了前10个特征是浮点数外,其余特征都是one-hot变量。这54个特征分别是:
Elevation 1
Aspect 2
Slope 3
Horizontal_Distance_To_Hydrology 4
Vertical_Distance_To_Hydrology 5
Horizontal_Distance_To_Roadways 6
Hillshade_9am 7
Hillshade_Noon 8
Hillshade_3pm 9
Horizontal_Distance_To_Fire_Points 10

#以下都是不同类型植物:值为 0 or 1
Wilderness_Area1 11 Rawah Wilderness Area
Wilderness_Area2 12 Neota Wilderness Area
Wilderness_Area3 13 Comanche Peak Wilderness Area
Wilderness_Area4 14 Cache la Poudre Wilderness Area
Soil_Type1 15 Cathedral family - Rock outcrop complex, extremely stony.
Soil_Type2 16 Vanet - Ratake families complex, very stony.
Soil_Type3 17 Haploborolis - Rock outcrop complex, rubbly.
Soil_Type4 18 Ratake family - Rock outcrop complex, rubbly.
Soil_Type5 19 Vanet family - Rock outcrop complex complex, rubbly.
Soil_Type6 20 Vanet - Wetmore families - Rock outcrop complex, stony.
Soil_Type7 21 Gothic family.
Soil_Type8 22 Supervisor - Limber families complex.
Soil_Type9 23 Troutville family, very stony.
Soil_Type10 24 Bullwark - Catamount families - Rock outcrop complex, rubbly.
Soil_Type11 25 Bullwark - Catamount families - Rock land complex, rubbly.
Soil_Type12 26 Legault family - Rock land complex, stony.
Soil_Type13 27 Catamount family - Rock land - Bullwark family complex, rubbly.
Soil_Type14 28 Pachic Argiborolis - Aquolis complex.
Soil_Type15 29 unspecified in the USFS Soil and ELU Survey.
Soil_Type16 30 Cryaquolis - Cryoborolis complex.
Soil_Type17 31 Gateview family - Cryaquolis complex.
Soil_Type18 32 Rogert family, very stony.
Soil_Type19 33 Typic Cryaquolis - Borohemists complex.
Soil_Type20 34 Typic Cryaquepts - Typic Cryaquolls complex.
Soil_Type21 35 Typic Cryaquolls - Leighcan family, till substratum complex.
Soil_Type22 36 Leighcan family, till substratum, extremely bouldery.
Soil_Type23 37 Leighcan family, till substratum - Typic Cryaquolls complex.
Soil_Type24 38 Leighcan family, extremely stony.
Soil_Type25 39 Leighcan family, warm, extremely stony.
Soil_Type26 40 Granile - Catamount families complex, very stony.
Soil_Type27 41 Leighcan family, warm - Rock outcrop complex, extremely stony.
Soil_Type28 42 Leighcan family - Rock outcrop complex, extremely stony.
Soil_Type29 43 Como - Legault families complex, extremely stony.
Soil_Type30 44 Como family - Rock land - Legault family complex, extremely stony.
Soil_Type31 45 Leighcan - Catamount families complex, extremely stony.
Soil_Type32 46 Catamount family - Rock outcrop - Leighcan family complex, extremely stony.
Soil_Type33 47 Leighcan - Catamount families - Rock outcrop complex, extremely stony.
Soil_Type34 48 Cryorthents - Rock land complex, extremely stony.
Soil_Type35 49 Cryumbrepts - Rock outcrop - Cryaquepts complex.
Soil_Type36 50 Bross family - Rock land - Cryumbrepts complex, extremely stony.
Soil_Type37 51 Rock outcrop - Cryumbrepts - Cryorthents complex, extremely stony.
Soil_Type38 52 Leighcan - Moran families - Cryaquolls complex, extremely stony.
Soil_Type39 53 Moran family - Cryorthents - Leighcan family complex, extremely stony.
Soil_Type40 54 Moran family - Cryorthents - Rock land complex, extremely stony.

测试

from sklearn.datasets import fetch_covtype
X, y = fetch_covtype(return_X_y=True) #第一次会下载数据约90M CVS
print(X.shape) #(581012, 54)
print(y.shape) # (581012,)

Ref

1.https://archive.ics.uci.edu/ml/datasets/covertype
2.https://datahub.io/machine-learning/covertype
3.https://www.kaggle.com/c/forest-cover-type-prediction/data
4.https://scikit-learn.org/stable/auto_examples/kernel_approximation/plot_scalable_poly_kernels.html#sphx-glr-auto-examples-kernel-approximation-plot-scalable-poly-kernels-py

sklearn中的数据集2 (Covertype 一个关于植被的数据集)相关推荐

  1. 【ML】机器学习数据集:sklearn中回归数据集介绍

    目录 1. Boston房价预测数据集 2. California房价预测数据集 3. 糖尿病预测数据集 在机器学习的教程中,我们会看到很多的demo,这些demo都是基于python中自带的数据集. ...

  2. sklearn中的数据集1 (toy_datasets)

    sklearn中的 toy datasets sklearn中的玩具数据库(toy datasets),数据量较小,方便使用 tips: 安装 : pip install scikit-learn 1 ...

  3. 一个例子来使用sklearn中的TfidfVectorizer

    TfidfVectorizer 作用 将文本进行向量化表示. 原理 这里的tf(term frequency)是词的频数,idf(inverse document frequency)是这个词的逆文档 ...

  4. 【机器学习实战】利用sklearn中的随机森林对红酒数据集进行分类预测

    1. sklearn中的集成算法 sklearn中的集成算法模块ensemble 2.预测代码及结果 %matplotlib inline from sklearn.tree import Decis ...

  5. 【ML】机器学习数据集:sklearn中分类数据集介绍

    目录 1.乳腺癌分类数据集(二分类) 2.鸢尾花分类数据集(三分类) 3.葡萄酒分类数据集(三分类) 4.手写数字分类数据集(十分类) 5.其他数据集 参考资料 在机器学习的教程中,我们会看到很多的d ...

  6. 切分数据集(train_test_split),思路分享及手打代码和介绍sklearn中train_test_split,适合小白入门

    本篇博客介绍train_test_split,步骤1-4是自己手打代码和思路分享,步骤5介绍如何使用sklearn中的train_test_split,步骤3有介绍随机种子哦,简单易懂,适合小白入门 ...

  7. 【机器学习实战】使用sklearn中的决策树对红酒数据集进行分类(Jupyter)

    1. sklearn中的决策树 2. sklearn基本建模流程 3.决策树的基本流程 4.代码实现 4.1 数据集 -- 红酒 特征值(前13列) 目标值(3类) 4.2 代码及结果 4.2.1 预 ...

  8. sklearn中的xgboost_xgboost来了

    一.xgboost前奏 1,介绍一下啥是xgboost XGBoost全称是eXtreme Gradient Boosting,即极限梯度提升算法.它由陈天奇所设计,致力于让提升树突破自身的计算极限, ...

  9. sklearn中的交叉验证(Cross-Validation)

    sklearn中的交叉验证(Cross-Validation) cross validation大概的意思是:对于原始数据我们要将其一部分分为traindata,一部分分为test data.trai ...

最新文章

  1. SQLserver安全设置攻略
  2. RIP 数据包类型 路由中毒
  3. Nature今年首次撤稿给了微软:研究团队成员自曝删改不利数据,量子计算重大进展是假的...
  4. 服务器系统都是64位的吗,云服务器32位跟64位的区别吗
  5. Java NIO:IO与NIO的区别
  6. 信息安全系统设计基础第十五周总结
  7. 用神经网络构造一个基于分类的多体系统
  8. maven2学习总结(3,maven2在淘宝项目的应用)
  9. 前端学习(615):变量
  10. oracle type is varray,oracle – 使用TYPE属性检索VARRAY元素类型
  11. sqlserver2008R2下载安装教程
  12. 节约服务器成本50%以上,独角兽完美日记电商系统容器化改造历程
  13. velocity 语法
  14. ExtJS6-项目创建
  15. day01语法、变量、标识符、强制转换笔记
  16. 码农:一次项目经历改掉了我代码洁癖,由4年小兵升为技术leader
  17. linux忘记git库密码,忘记gitlab的root密码
  18. 如何学习云计算这一文就够了!
  19. 如何在本地搭建FTP服务器以及搭建后的用途
  20. 一种结合基于股债利差的A股估值百分位、有限价值策略定投和股债组合投资的创新型低回撤高收益稳健理财方法

热门文章

  1. 迅雷启动慢 解决方法
  2. 404 Not Found [IP: 91.189.91.39 80] 解决办法:换源,还是换源 !!
  3. 《Java核心技术》学习笔记——第8章 泛型程序设计
  4. 微信“商家转账到零钱“功能接入以及如何获得转账结果?
  5. 基于小鼠的基因集数据库资源(人鼠基因集比较)
  6. 二十六、多线程练习题
  7. 朱子治家格言(清朝·朱柏庐)
  8. 02. 禁止修改 IP 上网 ❀ 飞塔 (Fortinet5.4) 防火墙
  9. 安卓证书免费在线制作工具
  10. iOS 获取设备类型和系统信息