组合特征（二）tfidf(word+article)+lsa

"""
将tfidf(word+article)特征降维为lsa特征，并将结果保存至本地，并将结果保存到本地"""
from sklearn.decomposition import TruncatedSVD
import pickle
import timet_start = time.time()"""=====================================================================================================================
0 读取tfidf(word+article)特征
"""
with open('tfidf(word+article).pkl.pkl', 'rb') as f:x_train, y_train, x_test = pickle.load(f)"""=====================================================================================================================
1 特征降维：lsa
"""
lsa = TruncatedSVD(n_components=200)
x_train = lsa.fit_transform(x_train)
x_test = lsa.transform(x_test)"""=====================================================================================================================
2 将lsa特征保存至本地
"""
data = (x_train, y_train, x_test)
with open('tfidf(word+article)+lsa.pkl', 'wb') as f:pickle.dump(data, f_data)t_end = time.time()
print("共耗时：{}min".format((t_end-t_start)/60))

组合特征（二）tfidf(word+article)+lsa相关推荐

组合特征（三）tfidf(word+article+length)
''' 特征拼接,拼接文章长度 #1.载入特征 #2 读文章长度 #3 特征缩放,拼接特征 '''import pickle# 载入特征 with open('tfidf(word+article). ...
组合特征（一）tfidf(word+article)
""" 将tfidf(word)和tfidf(article)拼接成新的特征"""import pickle import pandas a ...
组合特征（四）linearsvm-tfidf(word)+lr-tfidf(article)
""" 将linearsvm挑选的tfidf(word)特征和lr挑选的tfidf(article)"""import pickle fro ...
特征工程（六）lsa和lda
lsa """ 将tfidf(word)特征降维为lsa特征,并将结果保存至本地,并将结果保存到本地tfidf(article)可做类似处理""&qu ...
组合特征（五）countvector(w)+doc(w)+hash(w)
""" 将countvector(word).hash(word)和doc2vec(word)拼接成新特征""" import pickle ...
XGBoost Plotting API以及GBDT组合特征实践
XGBoost Plotting API以及GBDT组合特征实践写在前面: 最近在深入学习一些树模型相关知识点,打算整理一下.刚好昨晚看到余音大神在Github上分享了一波 MachineLearn ...
【数据竞赛】十大重要的时间组合特征！
作者:尘沙杰少.樱落.新峰.DOTA.谢嘉嘉特征工程--无序类别&时间信息的组合特征! 前言本篇文章我们会介绍10大与时间相关的组合特征,这些特征在95%涉及到时间信息的竞赛中都是极为重 ...
用GBDT构建组合特征
用GBDT构建组合特征一.理论 Facebook在2014年发表"Practical Lessons from Predicting Clicks on Ads at Facebook&q ...
特征工程·TFIDF提取特征
本文介绍文本处理时比较常用且有效的tfidf特征提取方法 1. 提取tf特征 TF即是词频(Term Frequency)是文本信息量统计方法之一,简单来说就是统计此文本中每个词的出现频率 def c ...

组合特征（二）tfidf(word+article)+lsa

组合特征（二）tfidf(word+article)+lsa相关推荐

最新文章

热门文章