TF-IDF简介

TF-IDF使用流程

见上图,步骤如下:

  1. 根据全部语料每个词对应的TF-IDF值
  2. 每个句子对应全部语料的one-hot编码,将TF-IDF编码作为特征

Python代码

流程很简单,就不复现了,这里有两个使用的方式,第一种是梳理整个流程,第二种是工程上能够简化代码的写法:

def get_text():sentence_list = [  # 假设这是全部的训练语料"nlp drives computer programs that translate text from one language to another","nlp combines computational linguistics rule based modeling of human language with statistical","nlp model respond to text or voice data and respond with text",]return sentence_listdef main():from sklearn.feature_extraction.text import TfidfTransformerfrom sklearn.feature_extraction.text import CountVectorizerprint("逐个流程梳理:")sentence_list = get_text()# instantiate CountVectorizer()count_vectorizer = CountVectorizer()word_count_vector = count_vectorizer.fit_transform(sentence_list)  # 1. 计算词频TFtfidf_transformer = TfidfTransformer(smooth_idf=True, use_idf=True)tfidf_transformer.fit(word_count_vector)  # 2. 计算 TF-IDF# 计算TF-IDFtf_idf_vector = tfidf_transformer.transform(word_count_vector)  # 获得全部语料的tf-idf值# 开始使用print("全部语料:", count_vectorizer.get_feature_names())my_sentence = "nlp combines computational linguistics"print("转换任意的一个句子:", tfidf_transformer.transform(count_vectorizer.transform([my_sentence])).todense())def main2():print("简写操作:")from sklearn.feature_extraction.text import TfidfVectorizersentence_list = get_text()tfidf_vectorizer = TfidfVectorizer(use_idf=True)tfidf_vectorizer.fit(sentence_list)# 使用print("全部语料:", tfidf_vectorizer.get_feature_names())my_sentence = "nlp combines computational linguistics"print("转换任意的一个句子:", tfidf_vectorizer.transform([my_sentence]).todense())if __name__ == '__main__':main()main2()

NLP扎实基础3:TF-IDF文本特征提取相关推荐

  1. sklearn基础(一)文本特征提取函数CountVectorizer()和TfidfVectorizer()

    CountVectorizer()函数 CountVectorizer()函数只考虑每个单词出现的频率:然后构成一个特征矩阵,每一行表示一个训练文本的词频统计结果.其思想是,先根据所有训练文本,不考虑 ...

  2. NLP基础--文本特征提取中文分词word2vec原理

    文章目录 1. 文本特征提取 1.1 词集模型 1.2 BOW(Bag of Words)词袋模型 1.3 TF-IDF 2. 中文分词 2.1 基于词典匹配的分词方法 2.1.1 正向最大匹配(MM ...

  3. NLP中的语言模型及文本特征提取算法

    本文以基本语言模型为逻辑主线,漫谈NLP中两个核心问题,即文本表示(Text Representation)与文本特征提取(Feature Engineering).通过本文你会发现,NLP的一部分经 ...

  4. 搜索引擎:文本分类——TF/IDF算法

    原理 TFIDF的主要思想是:如果某个词或短语在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类.TFIDF实际上是:TF * IDF,TF ...

  5. 文本特征抽取的向量空间模型(VSM)和TF/IDF方法

    文本特征抽取 两组小说,一组是爱情的,另一组是科幻的.我们能否用支持向量机训练一个模型,用来识别小说类型呢? 这个并不容易.因为支持向量机这类机器学习算法只能接受数学里面的向量作为输入.如果用它来做文 ...

  6. 使用lingpipe自然语言处理包进行文本分类/** * 使用 lingpipe的tf/idf分类器训练语料 * * @author laigood */ public class trai

    /**  * 使用 lingpipe的tf/idf分类器训练语料  *   * @author laigood  */ public class traintclassifier { //训练语料文件 ...

  7. 【NLP机器学习基础】从线性回归和Logistic回归开始

    古语常云:"大道至简",万事万物纷繁复杂,最终却归至几个最简单的道理.我常常在想,如今很火的AI领域是否也是如此.将AI真正学懂学会的过程就像一场遥不可及的漫长攀登,起始于晦涩难懂 ...

  8. 数据挖掘:网络挖掘技术——微博文本特征提取

    经典的向量空间模型(VSM: Vector Space Model)由Salton等人于60年代提出,并成功地应用于著名的SMART文本检索系统.VSM概念简单,把对文本内容的处理简化为向量空间中的向 ...

  9. 网络挖掘技术——微博文本特征提取

    文本特征向量 经典的向量空间模型(VSM: Vector Space Model)由Salton等人于60年代提出,并成功地应用于著名的SMART文本检索系统.VSM概念简单,把对文本内容的处理简化为 ...

  10. NLP:基于snownlp库对文本实现提取文本关键词和文本摘要

    NLP:基于snownlp库对文本实现提取文本关键词和文本摘要 目录 输出结果 1.测试文本 设计思路 核心代码 输出结果 1.测试文本 今天一大早,两位男子在故宫抽烟对镜头炫耀的视频在网络上传播,引 ...

最新文章

  1. oracle缩小表空间
  2. python3 限定方法参数 返回值 变量 类型
  3. 实模式和保护模式区别及寻址方式
  4. 历届冬奥会举办地与举办时间
  5. Boost:bind绑定访客的测试程序
  6. 一个开源的强类型客户端(.NET 中的 Open Fegin)— Rabbit Go
  7. dlib 怎么安装vs2017_win10中的dlib库安装过程
  8. C++ static静态成员函数
  9. 编译Android源码相关资源及文章
  10. React.js入门基础一
  11. 使用小波变换进行灰度图像的融合
  12. VSCode使用Vim插件心得
  13. 发现一个好用的层级多项目管理工具
  14. linux查看网络连接命令,linux查看网络链接状况命令之-netstat
  15. U盘启动盘装系统Win10教程
  16. PTA 7-2 复数计算
  17. 一节课轻松通关 Spark
  18. html网址中的各个标签代表什么意思
  19. 任务间同步 | 信号量、互斥量和事件集
  20. chrome设置黑暗模式的4种方法

热门文章

  1. STM32单片机最小系统详解
  2. kmz转换为dwg_CAD软件中的PDF插件如何实现转换DWG?一篇文章完整解释
  3. 谷歌浏览器开启深色模式
  4. 微信小程序疑难杂症---修改数组里的某个属性的值
  5. html视频怎么改大小,对视频大小、比例进行修改
  6. nodejs爬虫抓取搜狗微信文章详解
  7. 极域电子书包课堂管理系统
  8. 六轴传感器使用学习记录
  9. Android 扫码枪 读取(外接键盘读取)
  10. mac win7 计算机,几步教会你win7更改mac地址_win7电脑改mac地址方法