TF-IDF的计算公式如下:

代码案例

from sklearn.feature_extraction.text import TfidfVectorizer
import jiebasentences_list: list = ['优惠的政策和政府对产业发展的重视也吸引了更多医美企业来成都寻觅机遇。2018年成都医美机构的数量一度飙升至407家,较之前一年激增131家。','中国医学科学院整形外科医院也选择于2018年将首家京外分院——成都八大处医疗美容医院落地蓉城。不断增长的营收数据没有让人失望.','成都八大处医疗美容医院院长唐勇告诉记者,在因新冠肺炎疫情停业近40天的情况下,该院2020年的营收相比2019年仍实现了约30%的增长。''实际上,随着“颜值经济”不断走热,医美逐渐成为部分当代中国人的“刚需”,其中恢复期短、风险较低的轻医美最受欢迎。','出于对安全性、可靠性等因素的考虑,大量消费者自然而然地流动到医美资源集聚的城市“求美”,“医美旅游”悄然兴起。','成都头部医美机构之一、四川华美紫馨医学美容医院2020年整体营收约6亿元。该院总经理薛红介绍,医院每年治疗人数中约20%都是专程前来的外地消费者。','“尤其最近几年,这部分消费者数量增长很快,来自甘肃、青海、云南、贵州等各个省份的都有。”',
] # 这是训练用的文本sent_words = [list(jieba.cut(p_sen)) for p_sen in sentences_list]
document = [" ".join(p_sen) for p_sen in sent_words]
tfidf_model = TfidfVectorizer(stop_words=['2020', '2018', '2019'])
tfidf_model.fit(document)
sparse_result = tfidf_model.transform(document)
print("所有的单词:", tfidf_model.vocabulary_)
# 这里显示所有的词,也可使用tfidf_model.get_feature_names(),区别是get_feature_names会按照index排序,而vocabulary_不会
print("第一个句子:", document[0])
print("第一个句子的tfidf embedding:", tfidf_model.transform([document[0]]).toarray()) # 训练文本中的第一个句子对应的句向量

上面的代码是一个案例,训练出来的tfidf_model会保留一个词表,一个idf的值。当使用tfidf_model.transform()时,计算步骤为:

  1. 统计每个在tfidf_model的词库中出现过的词,统计词频
  2. 每个词频乘以对应位置的idf值,即得到tf-idf的结果
  3. 对向量归一化后输出

python根据TF-IDF使用sklearn(TfidfVectorizer)计算句子的embedding相关推荐

  1. 【转载保存】在python中如何用word2vec来计算句子的相似度

    在python中,如何使用word2vec来计算句子的相似度呢? 第一种解决方法 如果使用word2vec,需要计算每个句子/文档中所有单词的平均向量,并使用向量之间的余弦相似度来计算句子相似度,代码 ...

  2. sklearn TfidfVectorizer、CountVectorizer词袋、 TfidfTransformer词频模型区别及词表、idf获取、cosine计算、bm25相关性

    #搜索query与docs,词表.idf获取.cosine计算 import pandas as pd import numpy as np from sklearn.feature_extracti ...

  3. 基于Python(sklearn)计算PLS中的VIP值

    基于Python(sklearn)计算PLS中的VIP值 sklearn中PLS回归模型并没有计算VIP值的方法,但VIP又是很重要的筛选变量方法.下附代码思路与完整代码,若有错误,万望指正. 1.首 ...

  4. scitkit-learn:计算机科学论文的TF / IDF和余弦相似度

    几个月前,我下载了数千篇计算机科学论文的元数据,这样我就可以尝试编写一个迷你推荐引擎来告诉我接下来应该读什么论文. 由于我没有任何人可以阅读每篇论文的数据,因此排除了协作过滤方法,所以我认为我可以尝试 ...

  5. tf-idf词向量和bow_使用词袋Bow和TF IDF进行多标签分类

    tf-idf词向量和bow 1.加载数据 (1. Load the data) For this study, we are using Kaggle data for Toxic Comment C ...

  6. python 机器学习_基于 Python 语言的机器学习工具Sklearn

    本篇介绍了Sklearn机器学习基础,从Sklearn的简介,模块以及与tensorflow的优劣势对比来了解基于Python语言的机器学习工具.    01.Sklearn简介 sklearn(sc ...

  7. 搜索引擎:文本分类——TF/IDF算法

    原理 TFIDF的主要思想是:如果某个词或短语在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类.TFIDF实际上是:TF * IDF,TF ...

  8. 关键词提取算法—TF/IDF算法

    关键词提取算法一般可分为有监督学习和无监督学习两类. 有监督的关键词提取方法可以通过分类的方式进行,通过构建一个较为完善的词表,然后判断每个文档与词表中的每个词的匹配程度,以类似打标签的方式,达到关键 ...

  9. tf/idf_Neo4j:带密码的TF / IDF(和变体)

    tf/idf 几周前,我写了一篇博客文章,介绍了如何使用scikit-learn在HIMYM成绩单上运行TF / IDF,以按情节找到最重要的短语,然后我很好奇在Neo4j中很难做到. 我首先将Wik ...

最新文章

  1. 突然想自己做个平衡车了
  2. golang sftp传输文件
  3. Auto-Publishing and Monitoring APIs With Spring Boot--转
  4. web前端入门学习 css(1)
  5. 树的最长直径(邻接表)
  6. 内存条ar开头的如何看大小_软网推荐:明明白白看内存
  7. Filling Shapes
  8. 184使用 Core Image 框架处理照片
  9. Java并发编程高级篇(十):分离任务的执行和结果的处理
  10. python求矩阵的秩_Python 实现线性代数计算器
  11. Node.js 模块化开发
  12. springBoot跨域注解@CrossOrigin
  13. 大众mpv_最便宜的大众MPV来啦!1.4T6AT,空间比宝骏730还宽裕
  14. 几何画板构造象限平分线的步骤
  15. 云南昭通暴雨强度公式_昆明市暴雨强度公式推算与对比
  16. idea进入方法快捷键详情大全(idea快捷键大全最新设置)
  17. 【LED灯屏控制器】AG10K 烧录程序(2)
  18. 创业之初需要准备的六个方面
  19. IDEA中设置关闭标签页的快捷键
  20. 字符串集合中相互包含关系算法

热门文章

  1. Java中的类变量(静态变量static的具体用法快速入门))
  2. Unity Shader:Waveform波形(3)-复合波
  3. python tensorflow 文本提取_如何在tensorflow中保存文本分类模型?
  4. matlab 1到无穷_从零开始的matlab学习笔记——(6)符号计算与极限
  5. c 语言 pthread_create_哪种编程语言又快又省电?有人对比了27种语言
  6. mysql做四则运算_MySQL字符串进行四则运算以及比较
  7. 干货分享:vue2.0做移动端开发用到的相关插件和经验总结(2)
  8. 内核常见锁的机制与实现分析1
  9. 你不知道的CSS3圆角
  10. C#在线打开编辑保存Excel文件[pageoffice]