:数据科学、人工智能从业者的在线大学。

数据科学(Python/R/Julia)

作者 | CDA数据分析师

像Keras中的机器学习和深度学习模型一样,要求所有输入和输出变量均为数字。

这意味着,如果你的数据包含分类数据,则必须先将其编码为数字,然后才能拟合和评估模型。

两种最流行的技术是整数编码和一种热编码,尽管一种称为学习嵌入的较新技术可能在这两种方法之间提供了有用的中间立场。

在本教程中,您将发现在Keras中开发神经网络模型时如何编码分类数据。

完成本教程后,您将知道:使用机器学习和深度学习模型时使用分类数据的挑战。

如何对分类变量进行整数编码和一种热编码分类变量。

如何学习作为类别变量的神经网络的一部分的嵌入式分布式表示形式。

让我们开始吧。教程概述

本教程分为五个部分。分别是:分类数据的挑战

乳腺癌分类数据集

如何对分类数据进行序数编码

如何对分类数据进行热编码

如何将学习的嵌入用于分类数据

分类数据的挑战

类别变量是其值采用标签值的变量。

例如,变量可以是“ color ”,并且可以取值“ red ”,“ green ”和“ blue”。

有时,分类数据可能在类别之间具有排序的关系,例如“ 第一 ”,“ 第二 ”和“ 第三”。这种类型的分类数据称为序数,并且其他排序信息可能很有用。

机器学习算法和深度学习神经网络要求输入和输出变量是数字。

这意味着必须先将分类数据编码为数字,然后才能使用它来拟合和评估模型。

有多种编码分类变量以进行建模的方法,尽管最常见的三种方法如下:整数编码:每个唯一标签都映射到一个整数。

一种热编码:每个标签都映射到二进制矢量。

Learned Embedding:学习类别的分布式表示形式的地方。

我们将仔细研究如何使用以下每种方法对分类数据进行编码,以在Keras中训练深度学习神经网络。乳腺癌分类数据集

作为本教程的基础,我们将使用自1980年代以来在机器学习中广泛研究的所谓“ 乳腺癌 ”数据集。

该数据集将乳腺癌患者数据分类为癌症复发或无复发。有286个示例和9个输入变量。这是一个二进制分类问题。

该数据集上合理的分类准确性得分在68%到73%之间。我们将针对该区域,但请注意,本教程中的模型并未经过优化:它们旨在演示编码方案。

查看数据,我们可以看到所有九个输入变量都是分类的。

具体来说,所有变量都用引号引起来;有些是序数,有些不是。'40-49','premeno','15-19','0-2','yes','3','right','left_up','no','recurrence-events' '50-59','ge40','15-19','0-2','no','1','right','central','no','no-recurrence-events' '50-59','ge40','35-39','0-2','no','2','left','left_low','no','recurrence-events' '40-49','premeno','35-39','0-2','yes','3','right','left_low','yes','no-recurrence-events' '40-49','premeno','30-34','3-5','yes','2','left','right_up','no','recurrence-events'

我们可以使用Pandas库将该数据集加载到内存中。# load the dataset as a pandas DataFrame data = read_csv(filename, header=None) # retrieve numpy array dataset = data.values

加载后,我们可以将列分为输入(X)和输出(y)进行建模。# split into input (X) and output (y) variables X = dataset[:, :-1] y = dataset[:,-1]

最后,我们可以将输入数据中的所有字段都强制为字符串,以防万一熊猫试图将某些字段自动映射为数字(确实如此)。

我们还可以将输出变量整形为一列(例如2D形状)。# format all fields as string X = X.astype(str) # reshape target to be a 2d array y = y.reshape((len(y), 1))

我们可以将所有这些结合到一个有用的功能中,以备后用。# load the dataset def load_dataset(filename): # load the dataset as a pandas DataFrame data = read_csv(filename, header=None) # retrieve numpy array dataset = data.values # split into input (X) and output (y) variables X = dataset[:, :-1] y = dataset[:,-1] # format all fields as string X = X.astype(str) # reshape target to be a 2d array y = y.reshape((len(y), 1)) return X, y

加载后,我们可以将数据分为训练集和测试集,以便我们可以拟合和评估深度学习模型。

我们将使用scikit-learn中的train_test_split()函数,并将67%的数据用于训练,将33%的数据用于测试。# load the dataset X, y = load_dataset('breast-cancer.csv') # split into train and test sets X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.33, random_state=1)

将所有这些元素结合在一起,下面列出了加载,拆分和汇总原始分类数据集的完整示例。# load and summarize the dataset from pandas import read_csv from sklearn.model_selection import train_test_split # load the dataset def load_dataset(filename): # load the dataset as a pandas DataFrame data = read_csv(filename, header=None) # retrieve numpy array dataset = data.values # split into input (X) and output (y) variables X = dataset[:, :-1] y = dataset[:,-1] # format all fields as string X = X.astype(str) # reshape target to be a 2d array y = y.reshape((len(y), 1)) return X, y # load the dataset X, y = load_dataset('breast-cancer.csv') # split into train and test sets X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.33, random_state=1) # summarize print('Train', X_train.shape, y_train.shape) print('Test', X_test.shape, y_test.shape)

运行示例将报告训练和测试集的输入和输出元素的大小。

我们可以看到,我们有191个示例用于培训,而95个用于测试。Train (191, 9) (191, 1) Test (95, 9) (95, 1)

既然我们已经熟悉了数据集,那么让我们看一下如何对它进行编码以进行建模。

如何对分类数据进行序数编码

顺序编码涉及将每个唯一标签映射到整数值。

这样,有时将其简称为整数编码。

这种类型的编码实际上仅在类别之间存在已知关系时才适用。

数据集中的某些变量确实存在这种关系,理想情况下,在准备数据时应利用此关系。

在这种情况下,我们将忽略任何可能存在的序数关系,并假定所有变量都是类别变量。至少将序数编码用作其他编码方案的参考点仍然会有所帮助。

我们可以使用scikit-learn的scikit-learn将每个变量编码为整数。这是一个灵活的类,并且允许将类别的顺序指定为参数(如果已知这样的顺序)。

注意:我将作为练习来更新以下示例,以尝试为具有自然顺序的变量指定顺序,并查看其是否对模型性能产生影响。

对变量进行编码的最佳实践是使编码适合训练数据集,然后将其应用于训练和测试数据集。

下面的函数prepare_inputs(),获取训练和测试集的输入数据,并使用序数编码对其进行编码。# prepare input data def prepare_inputs(X_train, X_test): oe = OrdinalEncoder() oe.fit(X_train) X_train_enc = oe.transform(X_train) X_test_enc = oe.transform(X_test) return X_train_enc, X_test_enc

我们还需要准备目标变量。

这是一个二进制分类问题,因此我们需要将两个类标签映射到0和1。

这是一种序数编码,scikit-learn提供了为此专门设计的LabelEncoder类。尽管LabelEncoder设计用于编码单个变量,但我们可以轻松使用OrdinalEncoder并获得相同的结果。

在()prepare_targets整数编码的训练集和测试集的输出数据。# prepare target def prepare_targets(y_train, y_test): le = LabelEncoder() le.fit(y_train) y_train_enc = le.transform(y_train) y_test_enc = le.transform(y_test) return y_train_enc, y_test_enc

我们可以调用这些函数来准备我们的数据。# prepare input data X_train_enc, X_test_enc = prepare_inputs(X_train, X_test) # prepare output data y_train_enc, y_test_enc = prepare_targets(y_train, y_test)

现在我们可以定义一个神经网络模型。

在所有这些示例中,我们将使用相同的通用模型。具体来说,是一种多层感知器(MLP)神经网络,其中的一个隐藏层具有10个节点,而输出层中的一个节点用于进行二进制分类。

无需赘述,下面的代码定义了模型,将其拟合在训练数据集上,然后在测试数据集上对其进行了评估。# define the model model = Sequential() model.add(Dense(10, input_dim=X_train_enc.shape[1], activation='relu', kernel_initializer='he_normal')) model.add(Dense(1, activation='sigmoid')) # compile the keras model model.compile(loss='binary_crossentropy', optimizer='adam', metrics=['accuracy']) # fit the keras model on the dataset model.fit(X_train_enc, y_train_enc, epochs=100, batch_size=16, verbose=2) # evaluate the keras model _, accuracy = model.evaluate(X_test_enc, y_test_enc, verbose=0) print('Accuracy: %.2f' % (accuracy*100))

综合所有这些,下面列出了使用序数编码准备数据并拟合和评估数据上的神经网络的完整示例。# example of ordinal encoding for a neural network from pandas import read_csv from sklearn.model_selection import train_test_split from sklearn.preprocessing import LabelEncoder from sklearn.preprocessing import OrdinalEncoder from keras.models import Sequential from keras.layers import Dense # load the dataset def load_dataset(filename): # load the dataset as a pandas DataFrame data = read_csv(filename, header=None) # retrieve numpy array dataset = data.values # split into input (X) and output (y) variables X = dataset[:, :-1] y = dataset[:,-1] # format all fields as string X = X.astype(str) # reshape target to be a 2d array y = y.reshape((len(y), 1)) return X, y # prepare input data def prepare_inputs(X_train, X_test): oe = OrdinalEncoder() oe.fit(X_train) X_train_enc = oe.transform(X_train) X_test_enc = oe.transform(X_test) return X_train_enc, X_test_enc # prepare target def prepare_targets(y_train, y_test): le = LabelEncoder() le.fit(y_train) y_train_enc = le.transform(y_train) y_test_enc = le.transform(y_test) return y_train_enc, y_test_enc # load the dataset X, y = load_dataset('breast-cancer.csv') # split into train and test sets X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.33, random_state=1) # prepare input data X_train_enc, X_test_enc = prepare_inputs(X_train, X_test) # prepare output data y_train_enc, y_test_enc = prepare_targets(y_train, y_test) # define the  model model = Sequential() model.add(Dense(10, input_dim=X_train_enc.shape[1], activation='relu', kernel_initializer='he_normal')) model.add(Dense(1, activation='sigmoid')) # compile the keras model model.compile(loss='binary_crossentropy', optimizer='adam', metrics=['accuracy']) # fit the keras model on the dataset model.fit(X_train_enc, y_train_enc, epochs=100, batch_size=16, verbose=2) # evaluate the keras model _, accuracy = model.evaluate(X_test_enc, y_test_enc, verbose=0) print('Accuracy: %.2f' % (accuracy*100))

在任何现代硬件(无需GPU)上运行示例,只需几秒钟即可使模型适应模型。

在每个训练时期结束时报告模型的损失和准确性,最后报告测试数据集上模型的准确性。

鉴于学习算法的随机性,您的具体结果会有所不同。尝试运行该示例几次。

在这种情况下,我们可以看到该模型在测试数据集上达到了约70%的精度。

不错,因为只有某些输入变量存在序数关系,对于某些输入变量才存在序数关系,因此在编码中不遵循序数关系。[size=1em]... Epoch 95/100 - 0s - loss: 0.5349 - acc: 0.7696 Epoch 96/100 - 0s - loss: 0.5330 - acc: 0.7539 Epoch 97/100 - 0s - loss: 0.5316 - acc: 0.7592 Epoch 98/100 - 0s - loss: 0.5302 - acc: 0.7696 Epoch 99/100 - 0s - loss: 0.5291 - acc: 0.7644 Epoch 100/

[size=1em]

2020-5-6 09:05:06 上传

下载附件 (14.11 KB)

关注“AIU人工智能实验室”,回复“录播”获取更多人工智能精选直播视频!

[size=1em]完     谢谢观看

python 分类变量编码_深度学习编码分类变量的3种方法——AIU人工智能学院相关推荐

  1. 深度学习去燥学习编码_请学习编码

    深度学习去燥学习编码 This morning I woke up to dozens of messages from students who had read an article titled ...

  2. python模型训练框架_深度学习三大框架(对比)

    人工智能的浪潮正席卷全球,诸多词汇时刻萦绕在我们的耳边,如人工智能,机器学习,深度学习等."人工智能"的概念早在1956年就被提出,顾名思义用计算机来构造复杂的,拥有与人类智慧同样 ...

  3. python自动生成字幕_深度学习实现自动生成图片字幕

    介绍 本次项目使用深度学习自动生成图像字幕.如上图,模型自动生成"The person is riding a surfboard in the ocean"字幕.我们具体该如何实 ...

  4. python实现胶囊网络_深度学习精要之CapsuleNets理论与实践(附Python代码)

    摘要: 本文对胶囊网络进行了非技术性的简要概括,分析了其两个重要属性,之后针对MNIST手写体数据集上验证多层感知机.卷积神经网络以及胶囊网络的性能. 神经网络于上世纪50年代提出,直到最近十年里才得 ...

  5. svn差异查看器 编码_男女学习编码的9个差异

    svn差异查看器 编码 Technology jobs are primarily the domain of men. 技术工作主要是男人的领域. Although there has been a ...

  6. python 多因素方差分析_多因素方差分析估计平方和的三种方法

    在做多因素方差分析时,有三种方法计算平方和(以模型Y ~ A + B + A:B为例,即先输入A,再输入B,最后输入交互项A:B):Type Ⅰ Sums of Squares(Type1, sequ ...

  7. python的基础命令_深度学习中python常用命令

    1. print大法 test = Hello World print ("test:" + test) 2. math和numpy的区别:math只对单个元素,numpy会bro ...

  8. python numpy array转置_详解Numpy数组转置的三种方法T、transpose、swapaxes

    Numpy是高性能科学计算和数据分析的基础包,里面包含了许多对数组进行快速运算的标准数学函数,掌握这些方法,能摆脱数据处理时的循环. 1.首先数组转置(T) 创建二维数组data如下: 进行矩阵运算时 ...

  9. 获取分辨率函数是什么_深度学习应用“Zero Shot”超分辨率重构图像

    超分辨率(SR)是一种提高图像分辨率的技术. 这些方法是从低分辨率(LR)图像中获得高分辨率(HR)输出.执行单图像超分辨率(SISR)的目的是在增加图像尺寸的同时使其质量下降的最小.应用范围很广,如 ...

最新文章

  1. 01_创建一个新的activityactivity配置清单文件
  2. 卡耐基大学计算机专业分类,卡内基梅隆大学计算机专业
  3. mysql删除表中数据报错:[Err] 1206 - The total number of locks exceeds the lock table size
  4. run()方法和start()方法测试解析
  5. argparse模块_Argparse:一个具体案例教会你python命令行参数解析
  6. 2.1线性表的类型定义
  7. easymock使用方法_EasyMock最终方法– PowerMock,JUnit 4,TestNG
  8. Win10开启IPv6
  9. 动量梯度下降(Momentum、指数加权平均)、逐参数适应学习率方法(Adagrad、RMSprop、Adam)、学习率退火、归一化/标准化
  10. 解决chrome(谷歌)浏览器打开文件选择框响应速度慢的问题-小白实操记录
  11. 国科大在线android版app,国科大心理app
  12. 清华大学计算机吴教授,清华大学计算机系教授吴文虎到我校讲学
  13. 神武授权位置服务器,《神武3》X诸葛八卦村 多益网络第二个大型文创项目即将开启...
  14. (Java实现) 洛谷 P1200 你的飞碟在这儿
  15. 网络工程数据通信课程设计之--校园小型网络规划与设计
  16. 如何在远程工作中保持企业文化的凝聚力
  17. 北京市工作居住证只有电子版没有纸质版
  18. win10下安装java
  19. RT-Thread改变打印串口(在BSP的基础上添加其他功能)
  20. 政府信息网站模板源码应该包含哪些模块?

热门文章

  1. linux c语言 ppt,Linux下C语言编程.ppt
  2. web方向是.NET好还是java好_C#和.NET向JAVA好转吗?
  3. oracle10503事件,library cache: mutex X等待事件, blocker session on cpu
  4. 继牛津大学后,加大伯克利分校等多家美国高校终止与华为合作
  5. 植物大战僵尸2 服务器维护时间,植物大战僵尸2:老玩家给平民党的7点忠告,不氪金也能玩到通关!...
  6. 工业互联网在现阶段给制造业带来什么?
  7. 怎样将列表、数组中的每个数都保留两位有效数字
  8. 数据资源丨原始数据哪里找?这些网站要用好!(建议收藏)
  9. linux 安装redis以及配置redis开机自启
  10. 数学符号在论文中的格式规范