【机器学习】特征提取-TFIDF

TF-IDF

用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度
一个词语在一篇文章中出现次数越多, 同时在所有文档中出现次数越少, 越能够代表该文章的特征
词频 (term frequency, TF) 指的是某一个给定的词语在该文件中出现的次数
- 词频/文章总词数
逆向文件频率 (inverse document frequency, IDF) IDF的主要思想是：如果包含词条t的文档越少, IDF越大 ,如果包含词条t的文档越少, IDF越大，则说明词条具有很好的类别区分能力
- log(总文件数目/包含该词语之文件的数目）

from sklearn.feature_extraction.text import TfidfVectorizer
import jieba
def cutWord():con1=jieba.cut("扶门切思君之嘱登高望断天涯路。玲珑骰子安红豆，入骨相思知不知。世人谓我恋长安，其实只恋长安某。山有木兮木有枝")con2=jieba.cut("一往情深深几许深山夕照深秋雨 朝暮不依长相思，白首不离长相守。只缘感君一回顾，使我思君朝与暮。衣带渐宽终不悔")con3=jieba.cut("一往情深深几许深山夕照深秋雨。长相思兮长相忆，短相思兮无穷极。早知如此绊人心，何如当初莫相识心悦君兮君不知。")content1=list(con1)content2=list(con2)content3=list(con3)c1=" ".join(content1)c2=" ".join(content2)c3=" ".join(content3)return c1,c2,c3c1,c2,c3=cutWord()tf=TfidfVectorizer()
data=tf.fit_transform([c1,c2,c3])
print(tf.get_feature_names())
data.toarray()

结果：

['一往情深', '不依', '不知', '世人', '之嘱', '人心', '何如', '入骨相思', '其实', '几许', '只恋', '只缘', '君兮君', '回顾', '夕照', '天涯', '山有', '当初', '心悦', '思君', '思君朝', '感君', '我恋', '扶门切', '无穷', '早知如此', '有枝', '望断', '朝暮', '木兮木', '深山', '玲珑', '登高', '白首', '相思', '相识', '秋雨', '红豆', '衣带渐宽终不悔', '长安', '长相', '骰子']array([[0.        , 0.        , 0.16372098, 0.21527341, 0.21527341,0.        , 0.        , 0.21527341, 0.21527341, 0.        ,0.21527341, 0.        , 0.        , 0.        , 0.        ,0.21527341, 0.21527341, 0.        , 0.        , 0.21527341,0.        , 0.        , 0.21527341, 0.21527341, 0.        ,0.        , 0.21527341, 0.21527341, 0.        , 0.21527341,0.        , 0.21527341, 0.21527341, 0.        , 0.        ,0.        , 0.        , 0.21527341, 0.        , 0.43054682,0.        , 0.21527341],[0.21909986, 0.28808999, 0.        , 0.        , 0.        ,0.        , 0.        , 0.        , 0.        , 0.21909986,0.        , 0.28808999, 0.        , 0.28808999, 0.21909986,0.        , 0.        , 0.        , 0.        , 0.        ,0.28808999, 0.28808999, 0.        , 0.        , 0.        ,0.        , 0.        , 0.        , 0.28808999, 0.        ,0.21909986, 0.        , 0.        , 0.28808999, 0.21909986,0.        , 0.21909986, 0.        , 0.28808999, 0.        ,0.21909986, 0.        ],[0.20067835, 0.        , 0.20067835, 0.        , 0.        ,0.26386791, 0.26386791, 0.        , 0.        , 0.20067835,0.        , 0.        , 0.26386791, 0.        , 0.20067835,0.        , 0.        , 0.26386791, 0.26386791, 0.        ,0.        , 0.        , 0.        , 0.        , 0.26386791,0.26386791, 0.        , 0.        , 0.        , 0.        ,0.20067835, 0.        , 0.        , 0.        , 0.4013567 ,0.26386791, 0.20067835, 0.        , 0.        , 0.        ,0.20067835, 0.        ]])

【机器学习】特征提取-TFIDF相关推荐

python tfidf特征变换_Spark MLlib机器学习开发指南(4)--特征提取--TF-IDF
基于最新2.2.0版本翻译本节介绍和特征一起工作的算法,大致分为以下几类:提取:从原始数据提取特征转换:缩放,转换,或者修改特征选择:从一个大的特征集合里面选择一个子集局部敏感哈希(LSH): ...
基于机器学习和TFIDF的情感分类算法，详解自然语言处理
摘要:这篇文章将详细讲解自然语言处理过程,基于机器学习和TFIDF的情感分类算法,并进行了各种分类算法(SVM.RF.LR.Boosting)对比本文分享自华为云社区<[Python人工智能] ...
[Python人工智能] 二十三.基于机器学习和TFIDF的情感分类（含详细的NLP数据清洗）
从本专栏开始,作者正式研究Python深度学习.神经网络及人工智能相关知识.前一篇文章分享了自定义情感词典(大连理工词典)实现情感分析和情绪分类的过程.这篇文章将详细讲解自然语言处理过程,基于机器学习 ...
离线轻量级大数据平台Spark之MLib机器学习库TF-IDF实例
TF-IDF(termfrequency–inverse document frequency)是TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度.字词的 ...
【机器学习】特征提取
特征提取目标应用DictVectorizer实现对类别特征进行数值化.离散化应用CountVectorizer实现对文本特征进行数值化应用TfidfVectorizer实现对文本特征进行数值化 ...
python的特征提取实验一_Spark 2.1.0 入门：特征抽取 — TF-IDF(Python版)
这一部分我们主要介绍和特征处理相关的算法,大体分为以下三类: 特征抽取:从原始数据中抽取特征特征转换:特征的维度.特征的转化.特征的修改特征选取:从大规模特征集中选取一个子集特征提取 TF-ID ...
决策树算法之特征工程-特征提取
决策树算法之特征工程-特征提取什么是特征提取呢? [把数据转化为机器更加容易识别的数据] 1 特征提取 1.1 定义将任意数据(如文本或图像)转换为可用于机器学习的数字特征注:特征值化是为了 ...
【机器学习】特征工程
目录数据集可用数据集 sklearn数据集特征提取字典文本特征预处理无量纲化归一化标准化特征降维特征选择主成分分析(PCA降维) 数据集下面列举了一些示例来说明哪些内容能算作 ...
机器学习及算法-python
1.机器学习工作流程 1.获取数据数据简介在数据集中一般: 一行数据我们称为一个样本一列数据我们成为一个特征有些数据有目标值(标签值),有些数据没有目标值(如上表中,电影类型就是这个数据集的目 ...

【机器学习】特征提取-TFIDF

TF-IDF

【机器学习】特征提取-TFIDF相关推荐

最新文章

热门文章