"""
将tfidf(word+article)特征降维为lsa特征,并将结果保存至本地,并将结果保存到本地"""
from sklearn.decomposition import TruncatedSVD
import pickle
import timet_start = time.time()"""=====================================================================================================================
0 读取tfidf(word+article)特征
"""
with open('tfidf(word+article).pkl.pkl', 'rb') as f:x_train, y_train, x_test = pickle.load(f)"""=====================================================================================================================
1 特征降维:lsa
"""
lsa = TruncatedSVD(n_components=200)
x_train = lsa.fit_transform(x_train)
x_test = lsa.transform(x_test)"""=====================================================================================================================
2 将lsa特征保存至本地
"""
data = (x_train, y_train, x_test)
with open('tfidf(word+article)+lsa.pkl', 'wb') as f:pickle.dump(data, f_data)t_end = time.time()
print("共耗时:{}min".format((t_end-t_start)/60))

组合特征(二)tfidf(word+article)+lsa相关推荐

  1. 组合特征(三)tfidf(word+article+length)

    ''' 特征拼接,拼接文章长度 #1.载入特征 #2 读文章长度 #3 特征缩放,拼接特征 '''import pickle# 载入特征 with open('tfidf(word+article). ...

  2. 组合特征(一)tfidf(word+article)

    """ 将tfidf(word)和tfidf(article)拼接成新的特征"""import pickle import pandas a ...

  3. 组合特征(四)linearsvm-tfidf(word)+lr-tfidf(article)

    """ 将linearsvm挑选的tfidf(word)特征和lr挑选的tfidf(article)"""import pickle fro ...

  4. 特征工程(六)lsa和lda

    lsa """ 将tfidf(word)特征降维为lsa特征,并将结果保存至本地,并将结果保存到本地tfidf(article)可做类似处理""&qu ...

  5. 组合特征(五)countvector(w)+doc(w)+hash(w)

    """ 将countvector(word).hash(word)和doc2vec(word)拼接成新特征""" import pickle ...

  6. XGBoost Plotting API以及GBDT组合特征实践

    XGBoost Plotting API以及GBDT组合特征实践 写在前面: 最近在深入学习一些树模型相关知识点,打算整理一下.刚好昨晚看到余音大神在Github上分享了一波 MachineLearn ...

  7. 【数据竞赛】十大重要的时间组合特征!

    作者:尘沙杰少.樱落.新峰.DOTA.谢嘉嘉 特征工程--无序类别&时间信息的组合特征! 前 言 本篇文章我们会介绍10大与时间相关的组合特征,这些特征在95%涉及到时间信息的竞赛中都是极为重 ...

  8. 用GBDT构建组合特征

    用GBDT构建组合特征 一.理论 Facebook在2014年发表"Practical Lessons from Predicting Clicks on Ads at Facebook&q ...

  9. 特征工程·TFIDF提取特征

    本文介绍文本处理时比较常用且有效的tfidf特征提取方法 1. 提取tf特征 TF即是词频(Term Frequency)是文本信息量统计方法之一,简单来说就是统计此文本中每个词的出现频率 def c ...

最新文章

  1. 低学历学什么技术有前途可以月入过万?
  2. 源码分析 vue-cli 中安装依赖
  3. Flink从入门到精通100篇(八)-美团点评是如何在 Flink平台建立 实时数仓的?
  4. 安装+wordpress+出现403+forbidden_教程篇 | WordPress网站搭建详细教程
  5. jeecgboot logback-spring.xml配置不生成新日志文件
  6. java final 变量 好处_深入理解Java中的final关键字
  7. java基础的知识_Java基础知识点(一)
  8. Java IO之File
  9. global http proxy configuration on ubuntu
  10. BW Delta (增量)更新方法 .
  11. 解决:UnsatisfiedDependencyException
  12. 优盘弹出文件或目录损坏且无法读取实测解决教程
  13. 华硕笔记本怎么禁用自带键盘
  14. 电商商品爬虫,亚马逊amazon采集源码
  15. IT从业者创业公司生存指南:创业中期 ---- 先帝创业未半而中道崩殂,今天下三分,益州疲弊,此诚危急存亡之秋也。
  16. https证书格式转换(cer转bks)
  17. Oh My ZSH使用教程
  18. 数据挖掘实战(1)——手写数字识别
  19. JAVA面经复习(二十六)面试难度:☆☆☆☆
  20. 5分钟带你学懂ROC曲线

热门文章

  1. MyBatis 入门
  2. extjs editgrid增加一行
  3. jquery实现心算练习
  4. 【建模必备】遗传算法的基本原理与步骤(交叉)
  5. 【MATLAB】交互式绘图(ginput,gtext,zoom)
  6. 如何利用 Python 爬取 LOL 高清精美壁纸?
  7. 程序员转型AI,成功几率有几分?
  8. 深度学习中的注意力机制(二)
  9. 人生苦短,不光要用Python,还要在VSCode里用
  10. 重磅!教育部再次审批179所高校新增本科AI专业