TF-IDF简介

TF-IDF使用流程

见上图，步骤如下：

根据全部语料每个词对应的TF-IDF值
每个句子对应全部语料的one-hot编码，将TF-IDF编码作为特征

Python代码

流程很简单，就不复现了，这里有两个使用的方式，第一种是梳理整个流程，第二种是工程上能够简化代码的写法：

def get_text():sentence_list = [  # 假设这是全部的训练语料"nlp drives computer programs that translate text from one language to another","nlp combines computational linguistics rule based modeling of human language with statistical","nlp model respond to text or voice data and respond with text",]return sentence_listdef main():from sklearn.feature_extraction.text import TfidfTransformerfrom sklearn.feature_extraction.text import CountVectorizerprint("逐个流程梳理：")sentence_list = get_text()# instantiate CountVectorizer()count_vectorizer = CountVectorizer()word_count_vector = count_vectorizer.fit_transform(sentence_list)  # 1. 计算词频TFtfidf_transformer = TfidfTransformer(smooth_idf=True, use_idf=True)tfidf_transformer.fit(word_count_vector)  # 2. 计算 TF-IDF# 计算TF-IDFtf_idf_vector = tfidf_transformer.transform(word_count_vector)  # 获得全部语料的tf-idf值# 开始使用print("全部语料：", count_vectorizer.get_feature_names())my_sentence = "nlp combines computational linguistics"print("转换任意的一个句子：", tfidf_transformer.transform(count_vectorizer.transform([my_sentence])).todense())def main2():print("简写操作：")from sklearn.feature_extraction.text import TfidfVectorizersentence_list = get_text()tfidf_vectorizer = TfidfVectorizer(use_idf=True)tfidf_vectorizer.fit(sentence_list)# 使用print("全部语料：", tfidf_vectorizer.get_feature_names())my_sentence = "nlp combines computational linguistics"print("转换任意的一个句子：", tfidf_vectorizer.transform([my_sentence]).todense())if __name__ == '__main__':main()main2()

NLP扎实基础3：TF-IDF文本特征提取相关推荐

sklearn基础（一）文本特征提取函数CountVectorizer()和TfidfVectorizer()
CountVectorizer()函数 CountVectorizer()函数只考虑每个单词出现的频率:然后构成一个特征矩阵,每一行表示一个训练文本的词频统计结果.其思想是,先根据所有训练文本,不考虑 ...
NLP基础--文本特征提取中文分词word2vec原理
文章目录 1. 文本特征提取 1.1 词集模型 1.2 BOW(Bag of Words)词袋模型 1.3 TF-IDF 2. 中文分词 2.1 基于词典匹配的分词方法 2.1.1 正向最大匹配(MM ...
NLP中的语言模型及文本特征提取算法
本文以基本语言模型为逻辑主线,漫谈NLP中两个核心问题,即文本表示(Text Representation)与文本特征提取(Feature Engineering).通过本文你会发现,NLP的一部分经 ...
搜索引擎：文本分类——TF/IDF算法
原理 TFIDF的主要思想是:如果某个词或短语在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类.TFIDF实际上是:TF * IDF,TF ...
文本特征抽取的向量空间模型（VSM）和TF/IDF方法
文本特征抽取两组小说,一组是爱情的,另一组是科幻的.我们能否用支持向量机训练一个模型,用来识别小说类型呢? 这个并不容易.因为支持向量机这类机器学习算法只能接受数学里面的向量作为输入.如果用它来做文 ...
使用lingpipe自然语言处理包进行文本分类/** * 使用 lingpipe的tf/idf分类器训练语料 * * @author laigood */ public class trai
/** * 使用 lingpipe的tf/idf分类器训练语料 * * @author laigood */ public class traintclassifier { //训练语料文件 ...
【NLP机器学习基础】从线性回归和Logistic回归开始
古语常云:"大道至简",万事万物纷繁复杂,最终却归至几个最简单的道理.我常常在想,如今很火的AI领域是否也是如此.将AI真正学懂学会的过程就像一场遥不可及的漫长攀登,起始于晦涩难懂 ...
数据挖掘：网络挖掘技术——微博文本特征提取
经典的向量空间模型(VSM: Vector Space Model)由Salton等人于60年代提出,并成功地应用于著名的SMART文本检索系统.VSM概念简单,把对文本内容的处理简化为向量空间中的向 ...
网络挖掘技术——微博文本特征提取
文本特征向量经典的向量空间模型(VSM: Vector Space Model)由Salton等人于60年代提出,并成功地应用于著名的SMART文本检索系统.VSM概念简单,把对文本内容的处理简化为 ...
NLP：基于snownlp库对文本实现提取文本关键词和文本摘要
NLP:基于snownlp库对文本实现提取文本关键词和文本摘要目录输出结果 1.测试文本设计思路核心代码输出结果 1.测试文本今天一大早,两位男子在故宫抽烟对镜头炫耀的视频在网络上传播,引 ...

NLP扎实基础3：TF-IDF文本特征提取

TF-IDF简介

TF-IDF使用流程

Python代码

NLP扎实基础3：TF-IDF文本特征提取相关推荐

最新文章

热门文章