目录

一、基础理论

1、特征工程

2、过程

3、API

二、特征提取转化为二维矩阵

0、获取数据集

1、实例化转换器类

2、提取特征值

3、显示

三、特征值转化为稀疏矩阵

0、获取数据集

1、实例化转换器类

2、提取特征值

3、显示

总代码


一、基础理论

1、特征工程

特征工程是使用专业背景知识和技巧处理数据,使得特征能在机器学习算法上发挥更好的作用的过程。

文本类型  转化为  数值

类型  转化为  数值

2、过程

1、获取数据集

2、实例化转换器类

3、提取特征值

3、API

fit_transform()

拟合数据(fit),再将其转换成标准形式(transform)。

# 特征提取
sklearn.feature_extraction.DictVectorizer

二、特征提取转化为二维矩阵

转化的特征值若为汉字或字符,存在则为1,不存在则为0

0、获取数据集

# 数据集
data = [{'name':'小明', 'score':80}, {'name':'小红', 'score':100}, {'name':'张三', 'score':60}]

1、实例化转换器类

# 1、实例化转换器类transfer = DictVectorizer(sparse=False)

2、提取特征值

# 2、提取特征值feature_data = transfer.fit_transform(data)

3、显示

print('稀疏矩阵特征值:\n', feature_data)
print('特征名字:', transfer.get_feature_names())

前3列表示的都是name,分别是小明、小红、张三;

最后一列表示的是score。

全为字符的情况:

汉字及字符有则为1,没有则为0

三、特征值转化为稀疏矩阵

0、获取数据集

# 数据集
data = [{'name':'小明', 'score':80}, {'name':'小红', 'score':100}, {'name':'张三', 'score':60}]

1、实例化转换器类

# 1、实例化转换器类transfer = DictVectorizer(sparse=False)

2、提取特征值

# 2、提取特征值feature_data = transfer.fit_transform(data)

3、显示

print('稀疏矩阵特征值\n', feature_data)
print('特征名字:', transfer.get_feature_names())

 前两列是坐标,表示该关键字在二维数组中对应的位置

全为字符的情况:

总代码

# 字典特征提取
from sklearn.feature_extraction import DictVectorizer# 数据集
data = [{'name':'小明', 'score':80}, {'name':'小红', 'score':100}, {'name':'张三', 'score':60}]# 提取特征值,转化为稀疏矩阵
def Count_Sparse():# 1、实例化转换器类transfer = DictVectorizer(sparse=True)# 2、提取特征值feature_data = transfer.fit_transform(data)print('稀疏矩阵特征值\n', feature_data)print('特征名字:', transfer.get_feature_names())# 提取特征值,转化为二维矩阵
def Count_Matrix():# 1、实例化转换器类transfer = DictVectorizer(sparse=False)# 2、提取特征值feature_data = transfer.fit_transform(data)print('二维矩阵特征值:\n', feature_data)print('特征名字:', transfer.get_feature_names())if __name__ == '__main__':Count_Sparse()        #稀疏矩阵(特征值)Count_Matrix()        #二维矩阵(特征值)

机器学习(2)特征提取1 -- 字典特征提取相关推荐

  1. 字典特征提取,文本特征提取。

    文章目录 1 定义 2. 字典特征提取API 3. 字典特征提取案例: 1.实现效果: 2.实现代码 4. 文本特征提取 1. 方法 2. 英文案例 1. 实现效果 2.流程 3. 中文案例 使用到的 ...

  2. 机器学习 笔记05——特征工程之特征处理:字典特征提取、文本特征提取

    目录 1.类别型特征的处理-特征编码 1.1 处理少量特征 1.2 处理大量的类别特征 1.3 字典特征提取(特征离散化) ⭐ 1.4   文本特征提取(英文+中文)⭐ 1.4.1 英文数据演示 1. ...

  3. 字典特征提取DictVectorizer(特征工程之特征提取)

    文章目录 什么是特征工程 一.什么是特征提取? 二.字典特征抽取举例 1.DictVectorizer()使用默认参数会返回一个稀疏矩阵 2.DictVectorizer(sparse=False)会 ...

  4. 字典特征提取和文本特征抽取

    什么叫字典特征提取? 字典内容转化成计算机可以处理的数值 比如现在有个字典: data = [{"city":"北京", "tempeture&quo ...

  5. 机器学习——英文特征提取,中文特征提取

    环境:ubuntu20.10,python3.8 代码如下: #coding:utf-8 from sklearn.feature_extraction import DictVectorizer,  ...

  6. sklearn字典特征提取

    作用:对字典数据进行特征值化 sklearn.feature_extraction.DictVectorizer(sparse=True,-) DictVectorizer.fit_transform ...

  7. python音频特征提取_音频特征提取——librosa工具包使用

    作者:桂. 时间:2017-05-06  11:20:47 前言 本文主要记录librosa工具包的使用,librosa在音频.乐音信号的分析中经常用到,是python的一个工具包,这里主要记录它的相 ...

  8. python编程与特征提取_Python进行特征提取的示例代码

    #过滤式特征选择 #根据方差进行选择,方差越小,代表该属性识别能力很差,可以剔除 from sklearn.feature_selection import VarianceThreshold x=[ ...

  9. matlab颜色直方图特征提取,灰度直方图特征提取的Matlab实现

    Computer Knowledge and Technology 电脑知识 与技术第5卷第32期(2009年11月)本栏目责任编辑:唐一东人工智能及识别技术灰度直方图特征提取的Matlab 实现 刘 ...

最新文章

  1. 谈谈 Java 中自定义注解及使用场景
  2. Seata 新特性,APM 支持 SkyWalking
  3. 迷宫寻路系列常用算法逻辑探究
  4. 笨方法学python之import sys与from sys import argv的区别
  5. 配置apache支持PHP(win7)
  6. 风讯CMS常见问题锦集
  7. 【Spring】Spring 报错 AbstractMethodError hikari MicrometerMetricsTrackerFactory create
  8. Java二:计算机语言发展进程 以及 JAVA的发展、特性、版本介绍
  9. python的pyaudio教程入门_Python音频操作工具PyAudio上手教程详解
  10. 7-1 jmu-python-汇率兑换
  11. 为什么需要工作流调度系统?
  12. Android SurfaceView、TextureView区别
  13. su oracle是什么意思,su 命令 以及 su oracle 与su - oracle 命令区别
  14. 浅谈IT行业中的隐私泄露问题
  15. 多种方法解决计算机程序中出现.DLL文件丢失的问题
  16. 保研面试/考研复试:英语口语面试必备话题及常用句型句式整理(三)
  17. 【Java】计算机领域那些乱七八糟其实就是名字的名词[持续更新]
  18. HDU 6187 Destroy Walls
  19. AndroidStudio的下载、安装、第一个工程运行
  20. hacksudo FOG

热门文章

  1. 配置SSH是出现: sign_and_send_pubkey: signing failed: agent refused operation Permission denied
  2. 一步步玩pcDuino3--mmc下的裸机流水灯
  3. 2022-2028年中国消防报警行业市场前瞻与投资战略规划分析报告
  4. MySQL 学习笔记(2)— 通配符/正则表达/运算符
  5. ubuntu下安装 python 常用软件
  6. UVa 10051 Tower of Cubes(类似LIS)
  7. Code Reading -chap4
  8. NHibernate从入门到精通系列(7)——多对一关联映射
  9. k均值聚类图像分割matlab代码_用K均值聚类法为人类拍摄的首张黑洞照片进行分割...
  10. usaco Score Inflation