盘点 | Python自带的那些数据集
01
Seaborn自带数据集
在学习Pandas透视表的时候,大家应该注意到,我们使用的案例数据"泰坦尼克号"来自于seaborn自带的在线数据库,我们可以通过seaborn提供的函数load_dataset("数据集名称")
来获取线上相应的数据,返回给我们的是一个pandas的DataFrame对象。
import seaborn as sns
df = sns.load_dataset('titanic')
df.sample(5)
返回的DataFrame对象非常便于我们更加深入地了解数据,示例代码:
df = sns.load_dataset("tips")
print("
[数据集基本信息]
")
print(df.info())
print("
[数值变量信息]
")
print(df.describe())
print("
[离散变量信息]
")
for name in df.dtypes[(df.dtypes == "category") | (df.dtypes == "object")].index:
print("{} 特征值 : {}".format(name, str(df[name].unique())))
数据集描述信息如下:
RangeIndex: 244 entries, 0 to 243
Data columns (total 7 columns):
total_bill 244 non-null float64
tip 244 non-null float64
sex 244 non-null category
smoker 244 non-null category
day 244 non-null category
time 244 non-null category
size 244 non-null int64
dtypes: category(4), float64(2), int64(1)
[数值变量信息]
total_bill tip size
count 244.000000 244.000000 244.000000
mean 19.785943 2.998279 2.569672
std 8.902412 1.383638 0.951100
min 3.070000 1.000000 1.000000
25% 13.347500 2.000000 2.000000
50% 17.795000 2.900000 2.000000
75% 24.127500 3.562500 3.000000
max 50.810000 10.000000 6.000000
[离散变量信息]
sex 特征值 : [Female, Male]
smoker 特征值 : [No, Yes]
day 特征值 : [Sun, Sat, Thur, Fri]
time 特征值 : [Dinner, Lunch]
seaborn自带的全量数据集,如下所示:
seaborn示例数据集链接:https://github.com/mwaskom/seaborn-data
02
Sklearn自带数据集
1. 小型数据集
数据加载、观察示例:
import pandas as pd, numpy as np
dataset = datasets.load_iris()
print("数据集包含的信息项:")
print(" ".join(dataset.keys()))
print("
数据集描述信息:
")
print(dataset["DESCR"])
data = dataset["data"]
target = dataset["target"]
df = pd.DataFrame(data, columns=dataset["feature_names"])
df["target"] = target
df.sample(10)
df.info()
df.describe()
sklearn小型数据集详细介绍:https://scikit-learn.org/stable/datasets/index.html#toy-datasets
2. 较大型数据集(在线下载)
20个新闻组数据集加载示例:
from sklearn.datasets import fetch_20newsgroups
from pprint import pprint
newsgroups_train = fetch_20newsgroups(subset='train')
pprint(list(newsgroups_train.targernames))
print(newsgroups_train.filenames.shape) # (11314,)
print(newsgroups_train.target.shape) # (11314,)
print(newsgroups_train.target[:10]) # [ 7 4 4 1 14 16 13 3 2 4]
print(newsgroups_train['data'][:2]) # 前三篇文章["From: lerxst@wam.umd.edu (where's my thin...
sklearn大型数据集详细介绍:https://scikit-learn.org/stable/datasets/index.html#real-world-datasetssklearn
新闻数据文本分类实战:https://www.jianshu.com/p/244180c064cf
03
其他数据源
1. UCL机器学习知识库
UCL机器学习数据库,包括了多个不同大小和类型的数据集,可用于分类、回归、聚类和推荐系统任务。
链接:https://archive.ics.uci.edu/ml/index.php
2. weka数据集
链接:https://www.cs.waikato.ac.nz/ml/weka/datasets.html
3. KD-nuggets数据集
链接:https://www.kdnuggets.com/datasets/index.html
4. UCI KDD Archive数据集
链接:http://kdd.ics.uci.edu/
请扫码关注:
盘点 | Python自带的那些数据集相关推荐
- pandas的自带数据集_盘点 | Python自带的那些数据集
01 Seaborn自带数据集 在学习Pandas透视表的时候,大家应该注意到,我们使用的案例数据"泰坦尼克号"来自于seaborn自带的在线数据库,我们可以通过seaborn提 ...
- python的自带数据集_盘点 | Python自带的那些数据集
01 Seaborn自带数据集 在学习Pandas透视表的时候,大家应该注意到,我们使用的案例数据"泰坦尼克号"来自于seaborn自带的在线数据库,我们可以通过seaborn提供 ...
- 导入python自带的一系列数据集等操作
#通过matplotlib实现数据的可视化 #sklearn库自带数据集,加载的方式是固定的,站在巨人的肩膀上 ''' #导入数据集 from sklearn.datasets import load ...
- 利用Python对MNIST手写数据集进行数字识别(初学者入门级)
利用Python对MNIST手写数据集进行数字识别 一.编程环境Jupyter Notebook Jupyter Notebook,之前被称为IPython notebook,是一个交互式的Web应用 ...
- python 自带虚拟环境
python 自带虚拟环境 文章目录 python 自带虚拟环境 进入项目 创建虚拟环境 windows激活虚拟环境 liunx激活虚拟环境 退出虚拟环境 进入项目 cd 项目路径 创建虚拟环境 py ...
- Python游戏开发,Pygame模块,Python从零开始带大家实现一个魔塔小游戏
开发工具 Python版本: 3.7.4 相关模块: pygame模块: 以及一些python自带的模块. 环境搭建 安装Python并添加到环境变量,pip安装需要的相关模块即可. 原理简介 首先, ...
- Python游戏开发,Pygame模块,Python从零开始带大家实现魔塔小游戏
前言 这一期我们会带大家进一步复现我们的魔塔小游戏,主要内容包括英雄类的定义与其基础行动的实现,行动过程中触发不同层的切换等功能. 废话不多说,让我们愉快地开始吧~ 开发工具 Python版本: 3. ...
- Google更新最大的带注释图像数据集,添加本地化叙述
导语:对注释进行了极大的扩展 近日,Google AI 宣布发布 Open Images V6,和 V5 版本相比,它极大地扩展了 Open Images 数据集的注释,增加了大量新的视觉关系(例如, ...
- 解决Python自带的json序列化工具不能序列化datetime类型数据问题
解决Python自带的json序列化工具不能序列化datetime类型数据问题 参考文章: (1)解决Python自带的json序列化工具不能序列化datetime类型数据问题 (2)https:// ...
最新文章
- 别把你的目光停留在周围
- fullpage 单屏高度超过屏幕高度,实现单屏内可以滚动并解决手机端单屏高度不正确的问题
- PyCharm与git/GitHub取消关联
- poj 1338 优先队列
- SQLServer中的数据类型
- mysql 数据迁移_mysql实验--不同字符集数据库迁移步骤演示
- android jdk环境的配置
- 面试一口气说出Spring的声明式事务@Transactional注解的6种失效场景
- linux脚本ls输出到变量中,bash – 将命令输出的错误消息存储到shell变量中
- 下找到vue变量_Vue:npm run serve 到底做了什么?
- 信息学奥赛C++语言:行李托运
- 数据集蒸馏 by Matching Training Trajectories
- python的高阶函数
- 2018杭电多校第六场1009(DFS,思维)
- BZOJ2425: [HAOI2010]计数
- Python版:实现双十一秒杀,防止超限
- 解决Linux下路径过长一行无法显示的问题
- 反向传播神经网络(Back propagation neural network ,BPNN)
- 判断手机横屏竖屏,切换时刷新一次页面
- 天池风控算法大赛来了!
热门文章
- 160个crakeme之cracking4all.1.exe
- FTP客户端如何判断FTP服务端的编码(解决中文乱码)
- 嗯,倒数日,开发了一个多月的倒数日 桌面应用 上线啦,简单暴力的显示方式,专注于显眼
- ELO rating system
- [echarts] 设置折线图中折线线条颜色和折线点颜色
- 阿里巴巴卖家如何修改html,阿里巴巴店铺装修之全屏广告轮换特效代码分享及说明...
- python emit_PyQT5 emit 和 connect的用法详解
- Eclipse反编译插件--Jode Decompiler
- VC++ CallStack调用堆栈应用(调试篇)
- UML图:类图 --详细介绍