01

 Seaborn自带数据集

在学习Pandas透视表的时候,大家应该注意到,我们使用的案例数据"泰坦尼克号"来自于seaborn自带的在线数据库,我们可以通过seaborn提供的函数load_dataset("数据集名称")来获取线上相应的数据,返回给我们的是一个pandas的DataFrame对象。

import seaborn as sns
df = sns.load_dataset('titanic')
df.sample(5)

返回的DataFrame对象非常便于我们更加深入地了解数据,示例代码:

df = sns.load_dataset("tips")
print("
[数据集基本信息]
")
print(df.info())
print("
[数值变量信息]
")
print(df.describe())
print("
[离散变量信息]
")
for name in df.dtypes[(df.dtypes == "category") | (df.dtypes == "object")].index:
    print("{} 特征值 :  {}".format(name, str(df[name].unique())))

数据集描述信息如下:

[数据集基本信息]

RangeIndex: 244 entries, 0 to 243
Data columns (total 7 columns):
total_bill    244 non-null float64
tip           244 non-null float64
sex           244 non-null category
smoker        244 non-null category
day           244 non-null category
time          244 non-null category
size          244 non-null int64
dtypes: category(4), float64(2), int64(1)

[数值变量信息]

total_bill         tip        size
count   244.000000  244.000000  244.000000
mean   19.785943    2.998279    2.569672
std       8.902412    1.383638    0.951100
min      3.070000    1.000000    1.000000
25%     13.347500    2.000000    2.000000
50%     17.795000    2.900000    2.000000
75%     24.127500    3.562500    3.000000
max     50.810000   10.000000    6.000000

[离散变量信息]

sex 特征值 :  [Female, Male]
smoker 特征值 :  [No, Yes]
day 特征值 :  [Sun, Sat, Thur, Fri]
time 特征值 :  [Dinner, Lunch]

seaborn自带的全量数据集,如下所示:

seaborn示例数据集链接:https://github.com/mwaskom/seaborn-data

02

 Sklearn自带数据集

1. 小型数据集

数据加载、观察示例:

from sklearn import datasets
import pandas as pd, numpy as np

dataset = datasets.load_iris()

print("数据集包含的信息项:")
print("  ".join(dataset.keys()))

print("
数据集描述信息:
")
print(dataset["DESCR"])

data = dataset["data"]
target = dataset["target"]
df = pd.DataFrame(data, columns=dataset["feature_names"])
df["target"] = target

df.sample(10)
df.info()
df.describe()

sklearn小型数据集详细介绍:https://scikit-learn.org/stable/datasets/index.html#toy-datasets

2. 较大型数据集(在线下载)

20个新闻组数据集加载示例:

from sklearn.datasets import fetch_20newsgroups
from pprint import pprint
newsgroups_train = fetch_20newsgroups(subset='train')
pprint(list(newsgroups_train.targernames))

print(newsgroups_train.filenames.shape) # (11314,)
print(newsgroups_train.target.shape) # (11314,)

print(newsgroups_train.target[:10]) # [ 7  4  4  1 14 16 13  3  2  4]
print(newsgroups_train['data'][:2]) # 前三篇文章["From: lerxst@wam.umd.edu (where's my thin...

sklearn大型数据集详细介绍:https://scikit-learn.org/stable/datasets/index.html#real-world-datasetssklearn

新闻数据文本分类实战:https://www.jianshu.com/p/244180c064cf

03

 其他数据源

1. UCL机器学习知识库

UCL机器学习数据库,包括了多个不同大小和类型的数据集,可用于分类、回归、聚类和推荐系统任务。

链接:https://archive.ics.uci.edu/ml/index.php

2. weka数据集

链接:https://www.cs.waikato.ac.nz/ml/weka/datasets.html

3. KD-nuggets数据集

链接:https://www.kdnuggets.com/datasets/index.html

4. UCI KDD Archive数据集

链接:http://kdd.ics.uci.edu/

请扫码关注:

盘点 | Python自带的那些数据集相关推荐

  1. pandas的自带数据集_盘点 | Python自带的那些数据集

    01  Seaborn自带数据集 在学习Pandas透视表的时候,大家应该注意到,我们使用的案例数据"泰坦尼克号"来自于seaborn自带的在线数据库,我们可以通过seaborn提 ...

  2. python的自带数据集_盘点 | Python自带的那些数据集

    01 Seaborn自带数据集 在学习Pandas透视表的时候,大家应该注意到,我们使用的案例数据"泰坦尼克号"来自于seaborn自带的在线数据库,我们可以通过seaborn提供 ...

  3. 导入python自带的一系列数据集等操作

    #通过matplotlib实现数据的可视化 #sklearn库自带数据集,加载的方式是固定的,站在巨人的肩膀上 ''' #导入数据集 from sklearn.datasets import load ...

  4. 利用Python对MNIST手写数据集进行数字识别(初学者入门级)

    利用Python对MNIST手写数据集进行数字识别 一.编程环境Jupyter Notebook Jupyter Notebook,之前被称为IPython notebook,是一个交互式的Web应用 ...

  5. python 自带虚拟环境

    python 自带虚拟环境 文章目录 python 自带虚拟环境 进入项目 创建虚拟环境 windows激活虚拟环境 liunx激活虚拟环境 退出虚拟环境 进入项目 cd 项目路径 创建虚拟环境 py ...

  6. Python游戏开发,Pygame模块,Python从零开始带大家实现一个魔塔小游戏

    开发工具 Python版本: 3.7.4 相关模块: pygame模块: 以及一些python自带的模块. 环境搭建 安装Python并添加到环境变量,pip安装需要的相关模块即可. 原理简介 首先, ...

  7. Python游戏开发,Pygame模块,Python从零开始带大家实现魔塔小游戏

    前言 这一期我们会带大家进一步复现我们的魔塔小游戏,主要内容包括英雄类的定义与其基础行动的实现,行动过程中触发不同层的切换等功能. 废话不多说,让我们愉快地开始吧~ 开发工具 Python版本: 3. ...

  8. Google更新最大的带注释图像数据集,添加本地化叙述

    导语:对注释进行了极大的扩展 近日,Google AI 宣布发布 Open Images V6,和 V5 版本相比,它极大地扩展了 Open Images 数据集的注释,增加了大量新的视觉关系(例如, ...

  9. 解决Python自带的json序列化工具不能序列化datetime类型数据问题

    解决Python自带的json序列化工具不能序列化datetime类型数据问题 参考文章: (1)解决Python自带的json序列化工具不能序列化datetime类型数据问题 (2)https:// ...

最新文章

  1. 别把你的目光停留在周围
  2. fullpage 单屏高度超过屏幕高度,实现单屏内可以滚动并解决手机端单屏高度不正确的问题
  3. PyCharm与git/GitHub取消关联
  4. poj 1338 优先队列
  5. SQLServer中的数据类型
  6. mysql 数据迁移_mysql实验--不同字符集数据库迁移步骤演示
  7. android jdk环境的配置
  8. 面试一口气说出Spring的声明式事务@Transactional注解的6种失效场景
  9. linux脚本ls输出到变量中,bash – 将命令输出的错误消息存储到shell变量中
  10. 下找到vue变量_Vue:npm run serve 到底做了什么?
  11. 信息学奥赛C++语言:行李托运
  12. 数据集蒸馏 by Matching Training Trajectories
  13. python的高阶函数
  14. 2018杭电多校第六场1009(DFS,思维)
  15. BZOJ2425: [HAOI2010]计数
  16. Python版:实现双十一秒杀,防止超限
  17. 解决Linux下路径过长一行无法显示的问题
  18. 反向传播神经网络(Back propagation neural network ,BPNN)
  19. 判断手机横屏竖屏,切换时刷新一次页面
  20. 天池风控算法大赛来了!

热门文章

  1. 160个crakeme之cracking4all.1.exe
  2. FTP客户端如何判断FTP服务端的编码(解决中文乱码)
  3. 嗯,倒数日,开发了一个多月的倒数日 桌面应用 上线啦,简单暴力的显示方式,专注于显眼
  4. ELO rating system
  5. [echarts] 设置折线图中折线线条颜色和折线点颜色
  6. 阿里巴巴卖家如何修改html,阿里巴巴店铺装修之全屏广告轮换特效代码分享及说明...
  7. python emit_PyQT5 emit 和 connect的用法详解
  8. Eclipse反编译插件--Jode Decompiler
  9. VC++ CallStack调用堆栈应用(调试篇)
  10. UML图:类图 --详细介绍