example datasets in sklearn

sklearn.datasets: Datasets¶
- make_** ⇒ generator
- load_** ⇒ loader

0. 可用数据集

iris（三个类别）digits（10个类别）

from sklearn.datasets import load_iris# from sklearn.datasets import load_digits
iris_data = load_iris()
>> type(iris_data)
sklearn.datasets.base.Bunch
>> dir(iris_data)
['DESCR', 'data', 'feature_names', 'target', 'target_names']
>> type(iris_data.data)
numpy.ndarray
>> type(iris_data.target)
numpy.ndarray

california_housing（在线下载）（回归问题）

from sklearn.datasets import fetch_california_housing
>> housing_data = fetch_california_housing()
>> type(housing_data)
sklearn.datasets.base.Bunch
>> dir(housing_data)
['DESCR', 'data', 'feature_names', 'target']
>> type(housing_data.data)
numpy.ndarray
>> type(housing_data.target)
numpy.ndarray

1. nonlinear example datasets

1.1 half_moon

产生非线性数据集，比如用以测试核机制的性能；
核方法最终的使命是：unfold the half-moons（展开）

from sklearn.datasets import make_moons
X, y = make_moons(n_samples=200, shuffle=True, random_state=123)
plt.scatter(X[y==0, 0], X[y==0, 1], color='r', marker='^', alpha=.4)
plt.scatter(X[y==1, 0], X[y==1, 1], color='r', marker='o', alpha=.4)
plt.show()

1.2 concentric circles

from sklearn.datasets import make_circles
X, y = make_circles(n_samples=1000, noise=.1, factor=.2, random_state=123)
plt.scatter(X[y==0, 0], X[y==0, 1], color='r', marker='^', alpha=.4)
plt.scatter(X[y==1, 0], X[y==1, 1], color='b', marker='o', alpha=.4)
plt.show()

2. datasets in sklearn

from sklearn import datasets

iris

>>> iris = datasets.load_iris()
>>> dir(iris)

>>> iris.features_names
['sepal length (cm)','sepal width (cm)','petal length (cm)','petal width (cm)']>>> iris.target_names
array(['setosa', 'versicolor', 'virginica'],dtype='<U10')>>> iris.data.shape
(150, 4)                    # 训练样本
>>> iris.target.shape
(150,)                      # 一维的训练样本

digits

>> digits = datasets.load_digits()
>> dir(digits)
>> digits.data.target_names
...

make_blobs

from sklearn.datasets import make_blobsX, y = make_blobs(n_samples=300, centers=4,random_state=0, cluster_std=1.0)
plt.scatter(X[:, 0], X[:, 1], c=y, s=50, cmap='rainbow');

3. UCI 数据

Breast Cancer Wisconsin dataset

which contains 569 samples of malignant（恶性的） and benign（良性的） tumor cells.

The first two columns in the dataset store the unique ID numbers of the samples and the corresponding diagnoisi (M=malignant, B=benign), respectively.

The columns 3-32 contains 30 real-value features that have been computed from digitized images of the cell nuclei, which can be used to build a model to predict whether a tumor is benign or malignant.
```
import pandas as pd
df = pd.read_csv('https://archive.ics.uci.edu/ml/machine-learning-databases/''breast-cancer-wisconsin/wdbc.data', header=None)
X, y = df.values[:, 2:], df.values[:, 1]
```

example datasets in sklearn相关推荐

【Python学习】 - sklearn学习 - 自带数据集sklearn.datasets.x
sklearn 的数据集有好多个种自带的小数据集(packaged dataset):sklearn.datasets.load_ 可在线下载的数据集(Downloaded Dataset):skl ...
Sklearn之datasets和训练
2019独角兽企业重金招聘Python工程师标准>>> 数据集的操作以iris数据集为例,首先导入数据集 iris = datasets.load_iris() 数据集是一个类词典 ...
sklearn.datasets.make_blobs 生成符合高斯分布的点
sklearn.datasets.make_blobs sklearn.datasets.make_blobs(n_samples=100, n_features=2, centers=None, c ...
sklearn基础篇（一）-- datasets数据集
sklearn的数据集库datasets提供很多不同的数据集,主要包含以下几大类: 1. 通用数据集 2. 真实世界中的数据集 3. 样本生成器 ...
机器学习-Sklearn
Scikit learn 也简称 sklearn, 是机器学习领域当中最知名的 python 模块之一. Sklearn 包含了很多种机器学习的方式:Classification 分类 Regress ...
【模型评估与选择】sklearn.model_selection.train_test_split
1. 描述 Split arrays or matrices into random train and test subsets 2. 语法 train_test_split(*arrays, ** ...
sklearn基于make_scorer函数为Logistic模型构建自定义损失函数并可视化误差图(lambda selection)和系数图（trace plot）+代码实战
sklearn基于make_scorer函数为Logistic模型构建自定义损失函数并可视化误差图(lambda selection)和系数图(trace plot)+代码实战 # 自定义损失函数 i ...
sklearn基于make_scorer函数为Logistic模型构建自定义损失函数+代码实战（二元交叉熵损失 binary cross-entropy loss）
sklearn基于make_scorer函数为Logistic模型构建自定义损失函数+代码实战(二元交叉熵损失 binary cross-entropy loss) # 广义线性模型中的各种连接函数: ...
机器学习（MACHINE LEARNING）Sklearn通用学习模式
文章目录 1 选择学习方法 2 通用学习模式 2.1 要点 2.2 代码实现 2.3 重要代码讲解 3 sklearn数据库 3.1 要点 3.2 代码实现 3.3 代码解释 4 sklearn常用属 ...

example datasets in sklearn

0. 可用数据集

1. nonlinear example datasets

2. datasets in sklearn

3. UCI 数据

example datasets in sklearn相关推荐

最新文章

热门文章