• sklearn.datasets: Datasets¶

    • make_** ⇒ generator
    • load_** ⇒ loader

0. 可用数据集

  • iris(三个类别)digits(10个类别)

    from sklearn.datasets import load_iris# from sklearn.datasets import load_digits
    iris_data = load_iris()
    >> type(iris_data)
    sklearn.datasets.base.Bunch
    >> dir(iris_data)
    ['DESCR', 'data', 'feature_names', 'target', 'target_names']
    >> type(iris_data.data)
    numpy.ndarray
    >> type(iris_data.target)
    numpy.ndarray
  • california_housing(在线下载)(回归问题)

    from sklearn.datasets import fetch_california_housing
    >> housing_data = fetch_california_housing()
    >> type(housing_data)
    sklearn.datasets.base.Bunch
    >> dir(housing_data)
    ['DESCR', 'data', 'feature_names', 'target']
    >> type(housing_data.data)
    numpy.ndarray
    >> type(housing_data.target)
    numpy.ndarray

1. nonlinear example datasets

  • 1.1 half_moon

    产生非线性数据集,比如用以测试核机制的性能;
    核方法最终的使命是:unfold the half-moons(展开)

    from sklearn.datasets import make_moons
    X, y = make_moons(n_samples=200, shuffle=True, random_state=123)
    plt.scatter(X[y==0, 0], X[y==0, 1], color='r', marker='^', alpha=.4)
    plt.scatter(X[y==1, 0], X[y==1, 1], color='r', marker='o', alpha=.4)
    plt.show()

  • 1.2 concentric circles

    from sklearn.datasets import make_circles
    X, y = make_circles(n_samples=1000, noise=.1, factor=.2, random_state=123)
    plt.scatter(X[y==0, 0], X[y==0, 1], color='r', marker='^', alpha=.4)
    plt.scatter(X[y==1, 0], X[y==1, 1], color='b', marker='o', alpha=.4)
    plt.show()

2. datasets in sklearn

from sklearn import datasets
  • iris

    >>> iris = datasets.load_iris()
    >>> dir(iris)
    >>> iris.features_names
    ['sepal length (cm)','sepal width (cm)','petal length (cm)','petal width (cm)']>>> iris.target_names
    array(['setosa', 'versicolor', 'virginica'],dtype='<U10')>>> iris.data.shape
    (150, 4)                    # 训练样本
    >>> iris.target.shape
    (150,)                      # 一维的训练样本
    
  • digits

    >> digits = datasets.load_digits()
    >> dir(digits)
    >> digits.data.target_names
    ...
  • make_blobs

    from sklearn.datasets import make_blobsX, y = make_blobs(n_samples=300, centers=4,random_state=0, cluster_std=1.0)
    plt.scatter(X[:, 0], X[:, 1], c=y, s=50, cmap='rainbow');

3. UCI 数据

  • Breast Cancer Wisconsin dataset

    which contains 569 samples of malignant(恶性的) and benign(良性的) tumor cells.

    The first two columns in the dataset store the unique ID numbers of the samples and the corresponding diagnoisi (M=malignant, B=benign), respectively.

    The columns 3-32 contains 30 real-value features that have been computed from digitized images of the cell nuclei, which can be used to build a model to predict whether a tumor is benign or malignant.

    import pandas as pd
    df = pd.read_csv('https://archive.ics.uci.edu/ml/machine-learning-databases/''breast-cancer-wisconsin/wdbc.data', header=None)
    X, y = df.values[:, 2:], df.values[:, 1]

example datasets in sklearn相关推荐

  1. 【Python学习】 - sklearn学习 - 自带数据集sklearn.datasets.x

    sklearn 的数据集有好多个种 自带的小数据集(packaged dataset):sklearn.datasets.load_ 可在线下载的数据集(Downloaded Dataset):skl ...

  2. Sklearn之datasets和训练

    2019独角兽企业重金招聘Python工程师标准>>> 数据集的操作 以iris数据集为例,首先导入数据集 iris = datasets.load_iris() 数据集是一个类词典 ...

  3. sklearn.datasets.make_blobs 生成符合高斯分布的点

    sklearn.datasets.make_blobs sklearn.datasets.make_blobs(n_samples=100, n_features=2, centers=None, c ...

  4. sklearn基础篇(一)-- datasets数据集

    sklearn的数据集库datasets提供很多不同的数据集,主要包含以下几大类:         1. 通用数据集         2. 真实世界中的数据集         3. 样本生成器     ...

  5. 机器学习-Sklearn

    Scikit learn 也简称 sklearn, 是机器学习领域当中最知名的 python 模块之一. Sklearn 包含了很多种机器学习的方式:Classification 分类 Regress ...

  6. 【模型评估与选择】sklearn.model_selection.train_test_split

    1. 描述 Split arrays or matrices into random train and test subsets 2. 语法 train_test_split(*arrays, ** ...

  7. sklearn基于make_scorer函数为Logistic模型构建自定义损失函数并可视化误差图(lambda selection)和系数图(trace plot)+代码实战

    sklearn基于make_scorer函数为Logistic模型构建自定义损失函数并可视化误差图(lambda selection)和系数图(trace plot)+代码实战 # 自定义损失函数 i ...

  8. sklearn基于make_scorer函数为Logistic模型构建自定义损失函数+代码实战(二元交叉熵损失 binary cross-entropy loss)

    sklearn基于make_scorer函数为Logistic模型构建自定义损失函数+代码实战(二元交叉熵损失 binary cross-entropy loss) # 广义线性模型中的各种连接函数: ...

  9. 机器学习(MACHINE LEARNING)Sklearn通用学习模式

    文章目录 1 选择学习方法 2 通用学习模式 2.1 要点 2.2 代码实现 2.3 重要代码讲解 3 sklearn数据库 3.1 要点 3.2 代码实现 3.3 代码解释 4 sklearn常用属 ...

最新文章

  1. 灵活管理Hadoop各发行版的运维利器 - vSphere Big Data Extensions
  2. 机器学习基础专题:感知机
  3. easypoi 多sheet导入_程序员接私活利器 玩转excel导入导出
  4. 西华大学计算机学院陈鹏,中国计算机学会CCF服务计算专委会走进西华大学
  5. 北京林业大学计算机技术复试,北京林业大学计算机应用技术04年考研复试办法...
  6. 深度学习第二课--图像识别与KNN
  7. 软件测试计划和测试报告
  8. 存档:命令行程序的路径参数不能有空格
  9. Django日志模块logging的配置详解
  10. 大数 Buy the tickey玄学
  11. 2.5亿!华为成立新公司!
  12. 2022 Java IDEA 安装导入JDBC驱动
  13. Calendar打印日历
  14. SSO单点登录之用户认证实践
  15. 基于 Openocd 和 FT2232H 的 ARMv8(Coretex-A53)调试
  16. Exp4 恶意代码分析 20164323段钊阳
  17. css less 不要作用到子对象_CSS的亲儿子,居然不是Less??
  18. 【spring】切入点(Pointcut)、方面/切面(Aspect、Advisor)详解
  19. 联想台式电脑硬盘分区失败数据恢复
  20. PE 格式详解与试验

热门文章

  1. ue4蓝图运行顺序_UE4蓝图解析(四)
  2. 深入了解vue中slot和slot-scope
  3. spring配置数据源错误记录
  4. Git教程——回到从前 (checkout 针对单个文件)
  5. Qt总结之十四:uint8_t / uint16_t / uint32_t /uint64_t数据类型详解
  6. 微信开发之(四)获取关注后的图文推送信息
  7. 在ps中画两个同心圆并且把两个同心圆进行任意角度切割
  8. 动态(静态)加载DLL注意
  9. HDU2010 水仙花数【进制】
  10. UVA10125 POJ2549 Sumsets【暴力+二分】