python 分类变量编码_深度学习编码分类变量的3种方法—

：数据科学、人工智能从业者的在线大学。

数据科学(Python/R/Julia)

作者 | CDA数据分析师

像Keras中的机器学习和深度学习模型一样，要求所有输入和输出变量均为数字。

这意味着，如果你的数据包含分类数据，则必须先将其编码为数字，然后才能拟合和评估模型。

两种最流行的技术是整数编码和一种热编码，尽管一种称为学习嵌入的较新技术可能在这两种方法之间提供了有用的中间立场。

在本教程中，您将发现在Keras中开发神经网络模型时如何编码分类数据。

完成本教程后，您将知道：使用机器学习和深度学习模型时使用分类数据的挑战。

如何对分类变量进行整数编码和一种热编码分类变量。

如何学习作为类别变量的神经网络的一部分的嵌入式分布式表示形式。

让我们开始吧。教程概述

本教程分为五个部分。分别是：分类数据的挑战

乳腺癌分类数据集

如何对分类数据进行序数编码

如何对分类数据进行热编码

如何将学习的嵌入用于分类数据

分类数据的挑战

类别变量是其值采用标签值的变量。

例如，变量可以是“ color ”，并且可以取值“ red ”，“ green ”和“ blue”。

有时，分类数据可能在类别之间具有排序的关系，例如“ 第一 ”，“ 第二 ”和“ 第三”。这种类型的分类数据称为序数，并且其他排序信息可能很有用。

机器学习算法和深度学习神经网络要求输入和输出变量是数字。

这意味着必须先将分类数据编码为数字，然后才能使用它来拟合和评估模型。

有多种编码分类变量以进行建模的方法，尽管最常见的三种方法如下：整数编码：每个唯一标签都映射到一个整数。

一种热编码：每个标签都映射到二进制矢量。

Learned Embedding：学习类别的分布式表示形式的地方。

我们将仔细研究如何使用以下每种方法对分类数据进行编码，以在Keras中训练深度学习神经网络。乳腺癌分类数据集

作为本教程的基础，我们将使用自1980年代以来在机器学习中广泛研究的所谓“ 乳腺癌 ”数据集。

该数据集将乳腺癌患者数据分类为癌症复发或无复发。有286个示例和9个输入变量。这是一个二进制分类问题。

该数据集上合理的分类准确性得分在68％到73％之间。我们将针对该区域，但请注意，本教程中的模型并未经过优化：它们旨在演示编码方案。

查看数据，我们可以看到所有九个输入变量都是分类的。

具体来说，所有变量都用引号引起来；有些是序数，有些不是。'40-49','premeno','15-19','0-2','yes','3','right','left_up','no','recurrence-events' '50-59','ge40','15-19','0-2','no','1','right','central','no','no-recurrence-events' '50-59','ge40','35-39','0-2','no','2','left','left_low','no','recurrence-events' '40-49','premeno','35-39','0-2','yes','3','right','left_low','yes','no-recurrence-events' '40-49','premeno','30-34','3-5','yes','2','left','right_up','no','recurrence-events'

我们可以使用Pandas库将该数据集加载到内存中。# load the dataset as a pandas DataFrame data = read_csv(filename, header=None) # retrieve numpy array dataset = data.values

加载后，我们可以将列分为输入(X)和输出(y)进行建模。# split into input (X) and output (y) variables X = dataset[:, :-1] y = dataset[:,-1]

最后，我们可以将输入数据中的所有字段都强制为字符串，以防万一熊猫试图将某些字段自动映射为数字(确实如此)。

我们还可以将输出变量整形为一列(例如2D形状)。# format all fields as string X = X.astype(str) # reshape target to be a 2d array y = y.reshape((len(y), 1))

我们可以将所有这些结合到一个有用的功能中，以备后用。# load the dataset def load_dataset(filename): # load the dataset as a pandas DataFrame data = read_csv(filename, header=None) # retrieve numpy array dataset = data.values # split into input (X) and output (y) variables X = dataset[:, :-1] y = dataset[:,-1] # format all fields as string X = X.astype(str) # reshape target to be a 2d array y = y.reshape((len(y), 1)) return X, y

加载后，我们可以将数据分为训练集和测试集，以便我们可以拟合和评估深度学习模型。

我们将使用scikit-learn中的train_test_split()函数，并将67％的数据用于训练，将33％的数据用于测试。# load the dataset X, y = load_dataset('breast-cancer.csv') # split into train and test sets X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.33, random_state=1)

将所有这些元素结合在一起，下面列出了加载，拆分和汇总原始分类数据集的完整示例。# load and summarize the dataset from pandas import read_csv from sklearn.model_selection import train_test_split # load the dataset def load_dataset(filename): # load the dataset as a pandas DataFrame data = read_csv(filename, header=None) # retrieve numpy array dataset = data.values # split into input (X) and output (y) variables X = dataset[:, :-1] y = dataset[:,-1] # format all fields as string X = X.astype(str) # reshape target to be a 2d array y = y.reshape((len(y), 1)) return X, y # load the dataset X, y = load_dataset('breast-cancer.csv') # split into train and test sets X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.33, random_state=1) # summarize print('Train', X_train.shape, y_train.shape) print('Test', X_test.shape, y_test.shape)

运行示例将报告训练和测试集的输入和输出元素的大小。

我们可以看到，我们有191个示例用于培训，而95个用于测试。Train (191, 9) (191, 1) Test (95, 9) (95, 1)

既然我们已经熟悉了数据集，那么让我们看一下如何对它进行编码以进行建模。

如何对分类数据进行序数编码

顺序编码涉及将每个唯一标签映射到整数值。

这样，有时将其简称为整数编码。

这种类型的编码实际上仅在类别之间存在已知关系时才适用。

数据集中的某些变量确实存在这种关系，理想情况下，在准备数据时应利用此关系。

在这种情况下，我们将忽略任何可能存在的序数关系，并假定所有变量都是类别变量。至少将序数编码用作其他编码方案的参考点仍然会有所帮助。

我们可以使用scikit-learn的scikit-learn将每个变量编码为整数。这是一个灵活的类，并且允许将类别的顺序指定为参数(如果已知这样的顺序)。

注意：我将作为练习来更新以下示例，以尝试为具有自然顺序的变量指定顺序，并查看其是否对模型性能产生影响。

对变量进行编码的最佳实践是使编码适合训练数据集，然后将其应用于训练和测试数据集。

下面的函数prepare_inputs()，获取训练和测试集的输入数据，并使用序数编码对其进行编码。# prepare input data def prepare_inputs(X_train, X_test): oe = OrdinalEncoder() oe.fit(X_train) X_train_enc = oe.transform(X_train) X_test_enc = oe.transform(X_test) return X_train_enc, X_test_enc

我们还需要准备目标变量。

这是一个二进制分类问题，因此我们需要将两个类标签映射到0和1。

这是一种序数编码，scikit-learn提供了为此专门设计的LabelEncoder类。尽管LabelEncoder设计用于编码单个变量，但我们可以轻松使用OrdinalEncoder并获得相同的结果。

在()prepare_targets整数编码的训练集和测试集的输出数据。# prepare target def prepare_targets(y_train, y_test): le = LabelEncoder() le.fit(y_train) y_train_enc = le.transform(y_train) y_test_enc = le.transform(y_test) return y_train_enc, y_test_enc

我们可以调用这些函数来准备我们的数据。# prepare input data X_train_enc, X_test_enc = prepare_inputs(X_train, X_test) # prepare output data y_train_enc, y_test_enc = prepare_targets(y_train, y_test)

现在我们可以定义一个神经网络模型。

在所有这些示例中，我们将使用相同的通用模型。具体来说，是一种多层感知器(MLP)神经网络，其中的一个隐藏层具有10个节点，而输出层中的一个节点用于进行二进制分类。

无需赘述，下面的代码定义了模型，将其拟合在训练数据集上，然后在测试数据集上对其进行了评估。# define the model model = Sequential() model.add(Dense(10, input_dim=X_train_enc.shape[1], activation='relu', kernel_initializer='he_normal')) model.add(Dense(1, activation='sigmoid')) # compile the keras model model.compile(loss='binary_crossentropy', optimizer='adam', metrics=['accuracy']) # fit the keras model on the dataset model.fit(X_train_enc, y_train_enc, epochs=100, batch_size=16, verbose=2) # evaluate the keras model _, accuracy = model.evaluate(X_test_enc, y_test_enc, verbose=0) print('Accuracy: %.2f' % (accuracy*100))

综合所有这些，下面列出了使用序数编码准备数据并拟合和评估数据上的神经网络的完整示例。# example of ordinal encoding for a neural network from pandas import read_csv from sklearn.model_selection import train_test_split from sklearn.preprocessing import LabelEncoder from sklearn.preprocessing import OrdinalEncoder from keras.models import Sequential from keras.layers import Dense # load the dataset def load_dataset(filename): # load the dataset as a pandas DataFrame data = read_csv(filename, header=None) # retrieve numpy array dataset = data.values # split into input (X) and output (y) variables X = dataset[:, :-1] y = dataset[:,-1] # format all fields as string X = X.astype(str) # reshape target to be a 2d array y = y.reshape((len(y), 1)) return X, y # prepare input data def prepare_inputs(X_train, X_test): oe = OrdinalEncoder() oe.fit(X_train) X_train_enc = oe.transform(X_train) X_test_enc = oe.transform(X_test) return X_train_enc, X_test_enc # prepare target def prepare_targets(y_train, y_test): le = LabelEncoder() le.fit(y_train) y_train_enc = le.transform(y_train) y_test_enc = le.transform(y_test) return y_train_enc, y_test_enc # load the dataset X, y = load_dataset('breast-cancer.csv') # split into train and test sets X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.33, random_state=1) # prepare input data X_train_enc, X_test_enc = prepare_inputs(X_train, X_test) # prepare output data y_train_enc, y_test_enc = prepare_targets(y_train, y_test) # define the model model = Sequential() model.add(Dense(10, input_dim=X_train_enc.shape[1], activation='relu', kernel_initializer='he_normal')) model.add(Dense(1, activation='sigmoid')) # compile the keras model model.compile(loss='binary_crossentropy', optimizer='adam', metrics=['accuracy']) # fit the keras model on the dataset model.fit(X_train_enc, y_train_enc, epochs=100, batch_size=16, verbose=2) # evaluate the keras model _, accuracy = model.evaluate(X_test_enc, y_test_enc, verbose=0) print('Accuracy: %.2f' % (accuracy*100))

在任何现代硬件(无需GPU)上运行示例，只需几秒钟即可使模型适应模型。

在每个训练时期结束时报告模型的损失和准确性，最后报告测试数据集上模型的准确性。

鉴于学习算法的随机性，您的具体结果会有所不同。尝试运行该示例几次。

在这种情况下，我们可以看到该模型在测试数据集上达到了约70％的精度。

不错，因为只有某些输入变量存在序数关系，对于某些输入变量才存在序数关系，因此在编码中不遵循序数关系。[size=1em]... Epoch 95/100 - 0s - loss: 0.5349 - acc: 0.7696 Epoch 96/100 - 0s - loss: 0.5330 - acc: 0.7539 Epoch 97/100 - 0s - loss: 0.5316 - acc: 0.7592 Epoch 98/100 - 0s - loss: 0.5302 - acc: 0.7696 Epoch 99/100 - 0s - loss: 0.5291 - acc: 0.7644 Epoch 100/

[size=1em]

2020-5-6 09:05:06 上传

下载附件 (14.11 KB)

关注“AIU人工智能实验室”，回复“录播”获取更多人工智能精选直播视频！

[size=1em]完谢谢观看

python 分类变量编码_深度学习编码分类变量的3种方法——AIU人工智能学院相关推荐

深度学习去燥学习编码_请学习编码
深度学习去燥学习编码 This morning I woke up to dozens of messages from students who had read an article titled ...
python模型训练框架_深度学习三大框架（对比）
人工智能的浪潮正席卷全球,诸多词汇时刻萦绕在我们的耳边,如人工智能,机器学习,深度学习等."人工智能"的概念早在1956年就被提出,顾名思义用计算机来构造复杂的,拥有与人类智慧同样 ...
python自动生成字幕_深度学习实现自动生成图片字幕
介绍本次项目使用深度学习自动生成图像字幕.如上图,模型自动生成"The person is riding a surfboard in the ocean"字幕.我们具体该如何实 ...
python实现胶囊网络_深度学习精要之CapsuleNets理论与实践（附Python代码）
摘要: 本文对胶囊网络进行了非技术性的简要概括,分析了其两个重要属性,之后针对MNIST手写体数据集上验证多层感知机.卷积神经网络以及胶囊网络的性能. 神经网络于上世纪50年代提出,直到最近十年里才得 ...
svn差异查看器编码_男女学习编码的9个差异
svn差异查看器编码 Technology jobs are primarily the domain of men. 技术工作主要是男人的领域. Although there has been a ...
python 多因素方差分析_多因素方差分析估计平方和的三种方法
在做多因素方差分析时,有三种方法计算平方和(以模型Y ~ A + B + A:B为例,即先输入A,再输入B,最后输入交互项A:B):Type Ⅰ Sums of Squares(Type1, sequ ...
python的基础命令_深度学习中python常用命令
1. print大法 test = Hello World print ("test:" + test) 2. math和numpy的区别:math只对单个元素,numpy会bro ...
python numpy array转置_详解Numpy数组转置的三种方法T、transpose、swapaxes
Numpy是高性能科学计算和数据分析的基础包,里面包含了许多对数组进行快速运算的标准数学函数,掌握这些方法,能摆脱数据处理时的循环. 1.首先数组转置(T) 创建二维数组data如下: 进行矩阵运算时 ...
获取分辨率函数是什么_深度学习应用“Zero Shot”超分辨率重构图像
超分辨率(SR)是一种提高图像分辨率的技术. 这些方法是从低分辨率(LR)图像中获得高分辨率(HR)输出.执行单图像超分辨率(SISR)的目的是在增加图像尺寸的同时使其质量下降的最小.应用范围很广,如 ...

python 分类变量编码_深度学习编码分类变量的3种方法——AIU人工智能学院

python 分类变量编码_深度学习编码分类变量的3种方法——AIU人工智能学院相关推荐

最新文章

热门文章