标称型数据和数值型数据_数据的来源与类型以及数据的特征抽取

数据的来源与类型

大部分的数据都来自已有的数据库，如果没有的话也可以交给很多爬虫工程师去采集，来提供。也可以来自平时的记录，反正数据无处不在，大都是可用的。

数据的类型

按照机器学习的数据分类我们可以将数据分成：标称型：标称型目标变量的结果只在有限目标集中取值，如真与假(标称型目标变量主要用于分类)

数值型：数值型目标变量则可以从无限的数值集合中取值，如0.100，42.001等 (数值型目标变量主要用于回归分析)

按照数据的本身分布特性离散型

连续型

那么什么是离散型和连续型数据呢？首先连续型数据是有规律的,离散型数据是没有规律的离散变量是指其数值只能用自然数或整数单位计算的则为离散变量.例如，班级人数、进球个数、是否是某个类别等等

连续型数据是指在指定区间内可以是任意一个数值,例如，票房数据、花瓣大小分布数据

数据的特征抽取

现实世界中多数特征都不是连续变量，比如分类、文字、图像等，为了对非连续变量做特征表述，需要对这些特征做数学化表述，因此就用到了特征提取. sklearn.feature_extraction提供了特征提取的很多方法

分类特征变量提取

我们将城市和环境作为字典数据，来进行特征的提取。

sklearn.feature_extraction.DictVectorizer(sparse = True)

将映射列表转换为Numpy数组或scipy.sparse矩阵sparse 是否转换为scipy.sparse矩阵表示，默认开启

方法

fit_transform(X,y)

应用并转化映射列表X，y为目标类型

inverse_transform(X[, dict_type])

将Numpy数组或scipy.sparse矩阵转换为映射列表

from sklearn.feature_extraction import DictVectorizer

onehot = DictVectorizer() # 如果结果不用toarray，请开启sparse=False

instances = [{'city': '北京','temperature':100},{'city': '上海','temperature':60}, {'city': '深圳','temperature':30}]

X = onehot.fit_transform(instances).toarray()

print(onehot.inverse_transform(X))

文本特征提取(只限于英文)

文本的特征提取应用于很多方面，比如说文档分类、垃圾邮件分类和新闻分类。那么文本分类是通过词是否存在、以及词的概率(重要性)来表示。

(1)文档的中词的出现

数值为1表示词表中的这个词出现，为0表示未出现

sklearn.feature_extraction.text.CountVectorizer()

将文本文档的集合转换为计数矩阵(scipy.sparse matrices)

方法

fit_transform(raw_documents,y)

学习词汇词典并返回词汇文档矩阵

from sklearn.feature_extraction.text import CountVectorizer

content = ["life is short,i like python","life is too long,i dislike python"]

vectorizer = CountVectorizer()

print(vectorizer.fit_transform(content).toarray())

需要toarray()方法转变为numpy的数组形式温馨提示：每个文档中的词，只是整个语料库中所有词，的很小的一部分，这样造成特征向量的稀疏性(很多值为0)为了解决存储和运算速度的问题，使用Python的scipy.sparse矩阵结构

(2)TF-IDF表示词的重要性

TfidfVectorizer会根据指定的公式将文档中的词转换为概率表示。(朴素贝叶斯介绍详细的用法)

class sklearn.feature_extraction.text.TfidfVectorizer()

方法

fit_transform(raw_documents,y)

学习词汇和idf，返回术语文档矩阵。

from sklearn.feature_extraction.text import TfidfVectorizer

content = ["life is short,i like python","life is too long,i dislike python"]

vectorizer = TfidfVectorizer(stop_words='english')

print(vectorizer.fit_transform(content).toarray())

print(vectorizer.vocabulary_)

标称型数据和数值型数据_数据的来源与类型以及数据的特征抽取相关推荐

标称型数据和数值型数据_统计信息中的数据类型-标称，有序，间隔和比率数据类型，并举例说明
标称型数据和数值型数据 If you're studying for a statistics exam and need to review your data types this article ...
机器学习中标称型数据和数值型数据的区别
这两种数据在监督学习的分类一章经常有说到标称型:一般在有限的数据中取,而且只存在'是'和'否'两种不同的结果(一般用于分类) 数值型:可以在无限的数据中取,而且数值比较具体化,例如4.02,6.23 ...
字符型数据与数值型数据之间的转换
(1)char字符型数据可以转换成任意一种数值类型,反之亦然.将整数转换成插入型数据时,只用到该数据的低十六位,其余部分被忽略.如:char ch=(char)0xAB0041;输出ch+'A'; ( ...
标称型数据和数值型数据_2017-12-9 机器学习(4)-标称型和数值型
[标称型数据和数值型数据] 监督学习一般使用两种类型的目标变量:标称型和数值型标称型:一般在有限的数据中取,而且只存在'是'和'否'两种不同的结果(一般用于分类) 数值型:可以在无限的数据中取,而且 ...
机器学习学习笔记 --- 标称型数据和数值型数据
[标称型数据和数值型数据] 监督学习一般使用两种类型的目标变量:标称型和数值型标称型:一般在有限的数据中取,而且只存在'是'和'否'两种不同的结果(一般用于分类) 数值型:可以在无限的数据中取,而且 ...
【20210805】【数据分析】标称型数据和数值型数据
(参考:两个基本概念标称型数据和数值型数据) 监督学习使用的目标变量一般有两种:标称型数据和数值型数据. 1. 标称型数据即离散值.只在有限目标集中取值,如:"真" 或 & ...
pandas数值型数据和非数值型数据统计
对单列数据进行统计加载数据 import pandas as pddetail = pd.read_excel('./meal_order_detail.xlsx') 常见的数值统计的方法如下: 统 ...
标称型数据和数值型数据
在学习机器学习的工程中,发现有一种名为标称型的数据,具体如下: 标称型:一般在有限的数据中取,而且只存在'是'和'否'两种不同的结果(一般用于分类) 数值型:可以在无限的数据中取,而且数值比较具体化, ...
数值型数据和标称型数据
在学习机器学习的工程中,发现有一种名为标称型的数据,具体如下: 标称型:一般在有限的数据中取,而且只存在'是'和'否'两种不同的结果(一般用于分类) 数值型:可以在无限的数据中取,而且数值比较具体化, ...

标称型数据和数值型数据_数据的来源与类型以及数据的特征抽取

标称型数据和数值型数据_数据的来源与类型以及数据的特征抽取相关推荐

最新文章

热门文章