TF-IDF的计算公式如下：

代码案例

from sklearn.feature_extraction.text import TfidfVectorizer
import jiebasentences_list: list = ['优惠的政策和政府对产业发展的重视也吸引了更多医美企业来成都寻觅机遇。2018年成都医美机构的数量一度飙升至407家，较之前一年激增131家。','中国医学科学院整形外科医院也选择于2018年将首家京外分院——成都八大处医疗美容医院落地蓉城。不断增长的营收数据没有让人失望.','成都八大处医疗美容医院院长唐勇告诉记者，在因新冠肺炎疫情停业近40天的情况下，该院2020年的营收相比2019年仍实现了约30%的增长。''实际上，随着“颜值经济”不断走热，医美逐渐成为部分当代中国人的“刚需”，其中恢复期短、风险较低的轻医美最受欢迎。','出于对安全性、可靠性等因素的考虑，大量消费者自然而然地流动到医美资源集聚的城市“求美”，“医美旅游”悄然兴起。','成都头部医美机构之一、四川华美紫馨医学美容医院2020年整体营收约6亿元。该院总经理薛红介绍，医院每年治疗人数中约20%都是专程前来的外地消费者。','“尤其最近几年，这部分消费者数量增长很快，来自甘肃、青海、云南、贵州等各个省份的都有。”',
] # 这是训练用的文本sent_words = [list(jieba.cut(p_sen)) for p_sen in sentences_list]
document = [" ".join(p_sen) for p_sen in sent_words]
tfidf_model = TfidfVectorizer(stop_words=['2020', '2018', '2019'])
tfidf_model.fit(document)
sparse_result = tfidf_model.transform(document)
print("所有的单词：", tfidf_model.vocabulary_)
# 这里显示所有的词，也可使用tfidf_model.get_feature_names()，区别是get_feature_names会按照index排序，而vocabulary_不会
print("第一个句子：", document[0])
print("第一个句子的tfidf embedding：", tfidf_model.transform([document[0]]).toarray()) # 训练文本中的第一个句子对应的句向量

上面的代码是一个案例，训练出来的tfidf_model会保留一个词表，一个idf的值。当使用tfidf_model.transform()时，计算步骤为：

统计每个在tfidf_model的词库中出现过的词，统计词频
每个词频乘以对应位置的idf值，即得到tf-idf的结果
对向量归一化后输出

python根据TF-IDF使用sklearn(TfidfVectorizer)计算句子的embedding相关推荐

【转载保存】在python中如何用word2vec来计算句子的相似度
在python中,如何使用word2vec来计算句子的相似度呢? 第一种解决方法如果使用word2vec,需要计算每个句子/文档中所有单词的平均向量,并使用向量之间的余弦相似度来计算句子相似度,代码 ...
sklearn TfidfVectorizer、CountVectorizer词袋、 TfidfTransformer词频模型区别及词表、idf获取、cosine计算、bm25相关性
#搜索query与docs,词表.idf获取.cosine计算 import pandas as pd import numpy as np from sklearn.feature_extracti ...
基于Python（sklearn）计算PLS中的VIP值
基于Python(sklearn)计算PLS中的VIP值 sklearn中PLS回归模型并没有计算VIP值的方法,但VIP又是很重要的筛选变量方法.下附代码思路与完整代码,若有错误,万望指正. 1.首 ...
scitkit-learn：计算机科学论文的TF / IDF和余弦相似度
几个月前,我下载了数千篇计算机科学论文的元数据,这样我就可以尝试编写一个迷你推荐引擎来告诉我接下来应该读什么论文. 由于我没有任何人可以阅读每篇论文的数据,因此排除了协作过滤方法,所以我认为我可以尝试 ...
tf-idf词向量和bow_使用词袋Bow和TF IDF进行多标签分类
tf-idf词向量和bow 1.加载数据 (1. Load the data) For this study, we are using Kaggle data for Toxic Comment C ...
python 机器学习_基于 Python 语言的机器学习工具Sklearn
本篇介绍了Sklearn机器学习基础,从Sklearn的简介,模块以及与tensorflow的优劣势对比来了解基于Python语言的机器学习工具. 01.Sklearn简介 sklearn(sc ...
搜索引擎：文本分类——TF/IDF算法
原理 TFIDF的主要思想是:如果某个词或短语在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类.TFIDF实际上是:TF * IDF,TF ...
关键词提取算法—TF/IDF算法
关键词提取算法一般可分为有监督学习和无监督学习两类. 有监督的关键词提取方法可以通过分类的方式进行,通过构建一个较为完善的词表,然后判断每个文档与词表中的每个词的匹配程度,以类似打标签的方式,达到关键 ...
tf/idf_Neo4j：带密码的TF / IDF（和变体）
tf/idf 几周前,我写了一篇博客文章,介绍了如何使用scikit-learn在HIMYM成绩单上运行TF / IDF,以按情节找到最重要的短语,然后我很好奇在Neo4j中很难做到. 我首先将Wik ...

python根据TF-IDF使用sklearn(TfidfVectorizer)计算句子的embedding

代码案例

python根据TF-IDF使用sklearn(TfidfVectorizer)计算句子的embedding相关推荐

最新文章

热门文章