与StringIndexer相对应,IndexToString的作用是把标签索引的一列重新映射回原有的字符型标签。

其主要使用场景一般都是和StringIndexer配合,先用StringIndexer将标签转化成标签索引,进行模

型训练,然后在预测标签的时候再把标签索引转化成原有的字符标签。当然,你也可以另外定义其他

的标签。

首先,和StringIndexer的实验相同,我们用StringIndexer读取数据集中的“category”列,把字符

型标签转化成标签索引,然后输出到“categoryIndex”列上,构建出新的DataFrame。

#导入相关的类库

from pyspark.sql import SparkSession
from pyspark.ml.feature import IndexToString, StringIndexer
#创建SparkSession对象,配置spark
spark= SparkSession.builder.master('local').appName('IndexToStringDemo').getOrCreate()
#创建一个简单的DataFrame训练集
df = spark.createDataFrame(
[(0, "a"), (1, "b"),
(2, "c"), (3, "a"),
(4, "a"), (5, "c")],
["id", "category"])
#创建StringIndexer对象,设置输入输出对象
indexer = StringIndexer(inputCol='category', outputCol='categoryIndex')
#利用fit方法生成训练模型
model = indexer.fit(df)
#利用生成的模型对DataFrame进行转换
indexed = model.transform(df)
#创建IndexToString对象,设置输入输出参数,获得原有数据集的字符型标签,然后再输出到“originalCategory”
#列上。最后,通过输出“originalCategory”列,可以看到数据集中原有的字符标签。
converter = IndexToString(inputCol='categoryIndex',outputCol='orignalCategory')
converter =converter.transform(indexed)
converter.select("id","categoryIndex","orignalCategory").show()

转载于:https://www.cnblogs.com/SoftwareBuilding/p/9492298.html

特征抽取--标签与索引的转化: IndexToString相关推荐

  1. YOLO系列标注文件txt标签类别索引批量修改脚本

    在我们做YOLO类检测网络的自定义训练时,有时会将多个独立的数据集合并训练,但往往遇到一个问题,比如两个独立的数据集中有相同的一类,比如船.但是在一个数据集中船的标注文件(txt文件)的索引为0,在另 ...

  2. HTML——标签元素索引

    <!DOCTYPE>           指定了 HTML 文档遵循的文档类型定义(DTD). <!-- ... -->         批注 <a>       ...

  3. Spark MLlib机器学习 | 算法综合实战(一)(史上最详细)

    ==========                         ========= 8.1.1 什么是机器学习 机器学习可以看做是一门人工智能的科学,该领域的主要研究对象是人工智能.机器学习利用 ...

  4. 【Pyspark教程】SQL、MLlib、Core等模块基础使用

    文章目录 零.Spark基本原理 0.1 pyspark.sql 核心类 0.2 spark的基本概念 0.3 spark部署方式 0.4 RDD数据结构 (1)创建RDD的2种方式 (2)RDD操作 ...

  5. bmp调色板颜色信息重复_PASCAL VOC数据集-分割标签索引颜色对照及程序

    作者:陈洪瀚 /洪瀚笔记知乎专栏 摘要:介绍了PSACAL VOC分割标签的索引格式,用图表详细展示索引值和对应的颜色和类别:然后使用python程序分别调用opencv和pillow库如何快速读取索 ...

  6. 真实序号索引与标签索引的使用

    DataFrame索引分为两种,一种真实序号索引,0代表第一行,1代表第二行,依此类推:另一种是标签索引,行序号或列序号可以用标签,比如说'a','b'等等:分别对应iloc与loc函数:iloc是一 ...

  7. 怎么拿img标签的data_PASCAL VOC数据集-分割标签索引颜色对照及程序

    作者:陈洪瀚 /洪瀚笔记知乎专栏 摘要:介绍了PSACAL VOC分割标签的索引格式,用图表详细展示索引值和对应的颜色和类别:然后使用python程序分别调用opencv和pillow库如何快速读取索 ...

  8. 弘辽科技:如何把人群标签做好让流量精准的转化

    很多商家都遇到过这样一个问题:我的店铺sku预览图做了,价格降了,活动也报了为什么流量起来了转化却下降了,明明流量有那么多但就是不出单,那是因为你的人群标签紊乱了.人群标签乱了就导致产品该针对的人群出 ...

  9. 【XML文件数据预处理】获取xml文件中所有标签名称及数量||提取某个特定标签的数量||生成包含某个标签的图片索引txt并复制图片到指定文件夹

    目录 1.获取xml文件中所有标签名称及数量 2.提取某个特定标签的数量 3.生成包含某个标签的图片索引txt并复制图片到指定文件夹 1.获取xml文件中所有标签名称及数量 [需求]自己标注的数据集, ...

最新文章

  1. 基于Mozilla Thunderbird的扩展开发(四)---修改Thunderbird源代码实现自动保存附件...
  2. JQuery实现父级选择器(广告实现)
  3. android can为啥能发收不到数据_拼多多登录时手机收不到短信验证码怎么办
  4. python读写文件实例_python读写文件的简单示例
  5. Docker学习笔记 - Docker Compose
  6. 【第八周】回到起点,从头再来
  7. Windows平台下安装MongoDB(集群)
  8. 用Python编程语言来实现阿姆斯特朗数的检查
  9. Python OLS模型
  10. 【MATLAB】求复合函数
  11. 平均年薪50.8万,数据人拿下这个证书有多香?!
  12. postman 9.16 打不开怎么办
  13. Java创建对象的四种方法
  14. 如何拦截各种软件的广告弹窗?
  15. 04刘笑维-05刘洪雨-实训一
  16. 不积跬步无以至千里,不积小流无以成江海----SAX读取xml
  17. python单例模式的4种实现方法_Python单例模式的4种实现
  18. pdf转word需要密码怎么办?教你几个小妙招
  19. TD-LTE移动通信技术
  20. win10系统,必须要设置登陆密码的解决方法

热门文章

  1. 转:让 ThinkPad 的中键加小红帽模拟鼠标滚轮
  2. linux去重文件第一列,科学网—Linux实用命令 - 刘洪波的博文
  3. CocoaPods 的安装与卸载
  4. 变频器怎么设置_如何利用串口调试软件与变频器通信?
  5. oracle拆分字段为多行,一句话实现字段拆分成多行
  6. 家装灯线走线图_电工装修走线图_电工装饰走线图
  7. captura录屏没声音_电脑录屏有哪些好用的软件呢?
  8. javaweb开发后端常用技术_Web后端开发(11)——Session会话技术
  9. python守护多线程_Python多线程Threading、子线程与守护线程实例详解
  10. 计算两个数之间所有整数的和_汇编语言:输入2个0–99之间的整数,对其做乘法运算,在屏幕上显示出该乘积对应的二进制和十六进制数...