数据的来源与类型

大部分的数据都来自已有的数据库,如果没有的话也可以交给很多爬虫工程师去采集,来提供。也可以来自平时的记录,反正数据无处不在,大都是可用的。

数据的类型

按照机器学习的数据分类我们可以将数据分成:标称型:标称型目标变量的结果只在有限目标集中取值,如真与假(标称型目标变量主要用于分类)

数值型:数值型目标变量则可以从无限的数值集合中取值,如0.100,42.001等 (数值型目标变量主要用于回归分析)

按照数据的本身分布特性离散型

连续型

那么什么是离散型和连续型数据呢?首先连续型数据是有规律的,离散型数据是没有规律的离散变量是指其数值只能用自然数或整数单位计算的则为离散变量.例如,班级人数、进球个数、是否是某个类别等等

连续型数据是指在指定区间内可以是任意一个数值,例如,票房数据、花瓣大小分布数据

数据的特征抽取

现实世界中多数特征都不是连续变量,比如分类、文字、图像等,为了对非连续变量做特征表述,需要对这些特征做数学化表述,因此就用到了特征提取. sklearn.feature_extraction提供了特征提取的很多方法

分类特征变量提取

我们将城市和环境作为字典数据,来进行特征的提取。

sklearn.feature_extraction.DictVectorizer(sparse = True)

将映射列表转换为Numpy数组或scipy.sparse矩阵sparse 是否转换为scipy.sparse矩阵表示,默认开启

方法

fit_transform(X,y)

应用并转化映射列表X,y为目标类型

inverse_transform(X[, dict_type])

将Numpy数组或scipy.sparse矩阵转换为映射列表

from sklearn.feature_extraction import DictVectorizer

onehot = DictVectorizer() # 如果结果不用toarray,请开启sparse=False

instances = [{'city': '北京','temperature':100},{'city': '上海','temperature':60}, {'city': '深圳','temperature':30}]

X = onehot.fit_transform(instances).toarray()

print(onehot.inverse_transform(X))

文本特征提取(只限于英文)

文本的特征提取应用于很多方面,比如说文档分类、垃圾邮件分类和新闻分类。那么文本分类是通过词是否存在、以及词的概率(重要性)来表示。

(1)文档的中词的出现

数值为1表示词表中的这个词出现,为0表示未出现

sklearn.feature_extraction.text.CountVectorizer()

将文本文档的集合转换为计数矩阵(scipy.sparse matrices)

方法

fit_transform(raw_documents,y)

学习词汇词典并返回词汇文档矩阵

from sklearn.feature_extraction.text import CountVectorizer

content = ["life is short,i like python","life is too long,i dislike python"]

vectorizer = CountVectorizer()

print(vectorizer.fit_transform(content).toarray())

需要toarray()方法转变为numpy的数组形式温馨提示:每个文档中的词,只是整个语料库中所有词,的很小的一部分,这样造成特征向量的稀疏性(很多值为0)为了解决存储和运算速度的问题,使用Python的scipy.sparse矩阵结构

(2)TF-IDF表示词的重要性

TfidfVectorizer会根据指定的公式将文档中的词转换为概率表示。(朴素贝叶斯介绍详细的用法)

class sklearn.feature_extraction.text.TfidfVectorizer()

方法

fit_transform(raw_documents,y)

学习词汇和idf,返回术语文档矩阵。

from sklearn.feature_extraction.text import TfidfVectorizer

content = ["life is short,i like python","life is too long,i dislike python"]

vectorizer = TfidfVectorizer(stop_words='english')

print(vectorizer.fit_transform(content).toarray())

print(vectorizer.vocabulary_)

标称型数据和数值型数据_数据的来源与类型以及数据的特征抽取相关推荐

  1. 标称型数据和数值型数据_统计信息中的数据类型-标称,有序,间隔和比率数据类型,并举例说明

    标称型数据和数值型数据 If you're studying for a statistics exam and need to review your data types this article ...

  2. 机器学习中标称型数据和数值型数据的区别

    这两种数据在监督学习的分类一章经常有说到 标称型:一般在有限的数据中取,而且只存在'是'和'否'两种不同的结果(一般用于分类) 数值型:可以在无限的数据中取,而且数值比较具体化,例如4.02,6.23 ...

  3. 字符型数据与数值型数据之间的转换

    (1)char字符型数据可以转换成任意一种数值类型,反之亦然.将整数转换成插入型数据时,只用到该数据的低十六位,其余部分被忽略.如:char ch=(char)0xAB0041;输出ch+'A'; ( ...

  4. 标称型数据和数值型数据_2017-12-9 机器学习(4)-标称型和数值型

    [标称型数据和数值型数据] 监督学习一般使用两种类型的目标变量:标称型和数值型 标称型:一般在有限的数据中取,而且只存在'是'和'否'两种不同的结果(一般用于分类) 数值型:可以在无限的数据中取,而且 ...

  5. 机器学习学习笔记 --- 标称型数据和数值型数据

    [标称型数据和数值型数据] 监督学习一般使用两种类型的目标变量:标称型和数值型 标称型:一般在有限的数据中取,而且只存在'是'和'否'两种不同的结果(一般用于分类) 数值型:可以在无限的数据中取,而且 ...

  6. 【20210805】【数据分析】标称型数据和数值型数据

    (参考:两个基本概念 标称型数据和数值型数据) 监督学习使用的目标变量一般有两种:标称型数据 和 数值型数据. 1. 标称型数据 即离散值.只在有限目标集中取值,如:"真" 或 & ...

  7. pandas数值型数据和非数值型数据统计

    对单列数据进行统计 加载数据 import pandas as pddetail = pd.read_excel('./meal_order_detail.xlsx') 常见的数值统计的方法如下: 统 ...

  8. 标称型数据和数值型数据

    在学习机器学习的工程中,发现有一种名为标称型的数据,具体如下: 标称型:一般在有限的数据中取,而且只存在'是'和'否'两种不同的结果(一般用于分类) 数值型:可以在无限的数据中取,而且数值比较具体化, ...

  9. 数值型数据和标称型数据

    在学习机器学习的工程中,发现有一种名为标称型的数据,具体如下: 标称型:一般在有限的数据中取,而且只存在'是'和'否'两种不同的结果(一般用于分类) 数值型:可以在无限的数据中取,而且数值比较具体化, ...

最新文章

  1. C#进阶系列——动态Lamada
  2. android自定义渐变色,Android设置背景渐变色
  3. Unity3D面试ABC
  4. js操作select相关方法(收集)
  5. cts测试linux指令skip,linux – dd命令中seek和skip之间有什么区别?
  6. 32. iostat
  7. SQL Server查询语句
  8. 服务器cpu天梯图_12月更新最新CPU天梯图amp;显卡天梯图,选购电脑必看(含台式与笔记本电脑CPUamp;显卡)含机型推荐...
  9. inno setup 卸载注册表_Inno Setup Compiler卸载时删除注册表
  10. phpMyAdmin 登陆超时(1440秒未活动),请重新登录问题
  11. office修复找不到msi_安装Office2007,总是提示找不到OfficeMUI.msi
  12. 增值电信业务经营许可证怎么办理icp许可证
  13. 实践丨分布式事务解决方案汇总:2PC、消息中间件、TCC、状态机+重试+幂等
  14. 不懂中医的才攻击中医
  15. “技术让生活更便捷”之腾讯位置服务JavaScript API2.0前端定位和位置标注的开发实录
  16. Android初试--了解和认识Android
  17. 凸优化、最优化、凸集、凸函数
  18. DHCP和交换机的工作原理
  19. 论文阅读笔记(4)——《Language Generation with Multi-Hop Reasoning on Commonsense Knowledge Graph》
  20. 我所偏爱的 C 语言面向对象编程范式

热门文章

  1. 时间序列的数据分析(七):数据平稳性
  2. 防火墙入侵与检测 day03 详解NAT及配置
  3. import nose ImportError: No module named 'nose'
  4. JAVA编写 飞翔的小鸟
  5. 青岛海尔供应商java面试_青岛某企业面试题(2019-11)
  6. NANK南卡A2主动降噪耳机测评:长续航40dB深度降噪
  7. KT6368A蓝牙芯片调试中遇到的常见问题,以及解决的方法
  8. 原创 牛客网产品笔试题刷题打卡——用户研究
  9. 【Qt】Q_INIT_RESOURCE的使用
  10. Prism4学习笔记(七):State-Based Navigation QuickStart