'''
特征拼接,拼接文章长度
#1.载入特征
#2 读文章长度
#3 特征缩放,拼接特征
'''import pickle# 载入特征
with open('tfidf(word+article).pkl','rb') as f:x_train,y_train,y_test = pickle.load(f)# 读取文章长度信息
import pandas as pd
import numpy as np
from sklearn import preprocessing# 获取x_train文件的article和word的长度
train_article = pd.read_csv('train_article_len.csv')
train_word = pd.read_csv('train_word_len.csv')
train_article_len = train_article['article_len']
train_word_len = train_word['word_len']# 获取x_test文件的article和word的长度
test_article= pd.read_csv('test_article_len.csv')
test_word = pd.read_csv('test_word_len.csv')
test_article_len = test_article['article_len']
test_word_len = test_word['word_len']# 特征缩放
# 将x_train article和word长度缩放到0-1区间
# 将x_test article和word长度缩放到0-1区间
# np.c_按行连接两个矩阵,就是把两个矩阵左右相加
train_len = np.c_[train_article_len.values, train_word_len.values]
test_len = np.c_[test_article_len.values, test_word_len.values]
min_max_scaler = preprocessing.MinMaxScaler()
train_len= min_max_scaler.fit_transform(train_len)
test_len= min_max_scaler.fit_transform(test_len)# 获取article,word和len拼接后的特征feature_c_train和feature_c_test
from scipy.sparse import coo_matrix, hstack,vstack def concat(a,b):row = np.array(range(a.shape[0]))col = np.array([0]*a.shape[0])data = b['word_len'].valuesb = csr_matrix((data, (row, col)), shape=(a.shape[0], 1))res = hstack((a,b))return res.tocsr()feature_c_train = concat([x_train,train_len])
feature_c_test= concat([x_test,test_len])# 保存特征
with open('保存地址/tfidf(word+article+length).pkl', 'wb') as f:pickle.dump((feature_c_train, y_train, feature_c_test),  f)

组合特征(三)tfidf(word+article+length)相关推荐

  1. 组合特征(二)tfidf(word+article)+lsa

    """ 将tfidf(word+article)特征降维为lsa特征,并将结果保存至本地,并将结果保存到本地""" from sklearn ...

  2. 组合特征(一)tfidf(word+article)

    """ 将tfidf(word)和tfidf(article)拼接成新的特征"""import pickle import pandas a ...

  3. 组合特征(四)linearsvm-tfidf(word)+lr-tfidf(article)

    """ 将linearsvm挑选的tfidf(word)特征和lr挑选的tfidf(article)"""import pickle fro ...

  4. XGBoost Plotting API以及GBDT组合特征实践

    XGBoost Plotting API以及GBDT组合特征实践 写在前面: 最近在深入学习一些树模型相关知识点,打算整理一下.刚好昨晚看到余音大神在Github上分享了一波 MachineLearn ...

  5. 组合特征(五)countvector(w)+doc(w)+hash(w)

    """ 将countvector(word).hash(word)和doc2vec(word)拼接成新特征""" import pickle ...

  6. 【数据竞赛】组合特征的构建技巧,如何快速构建百大组合特征池

    作者:尘沙杰少.樱落.新峰.DOTA.谢嘉嘉 特征工程--无序/有序类别/数值特征的组合特征! 前 言 这是一个系列篇,如果有任何问题或者疑问的可添加我的微信一起讨论,备注:"竞赛小册&qu ...

  7. 用GBDT构建组合特征

    用GBDT构建组合特征 一.理论 Facebook在2014年发表"Practical Lessons from Predicting Clicks on Ads at Facebook&q ...

  8. 特征工程·TFIDF提取特征

    本文介绍文本处理时比较常用且有效的tfidf特征提取方法 1. 提取tf特征 TF即是词频(Term Frequency)是文本信息量统计方法之一,简单来说就是统计此文本中每个词的出现频率 def c ...

  9. 特征工程+特征组合+特征交叉+特征变换+生成特征

    特征组合+特征交叉(交叉特征,组合特征,特征组合)+特征变换+生成特征+特征提取+ 特征缩放+特征选择+特征分箱+时间特征+特征关联+文本特征+特征采样 特征关联---->corr() 特征分箱 ...

最新文章

  1. 为什么面包板不能够做射频电路实验?
  2. 如何删除tmp计算机桌面,Win10系统中tmp文件删除不了应该如何解决?
  3. 图神经网络的二阶池化:从节点表示中学习图的表示
  4. boost::range模块strided相关的测试程序
  5. C++用二进制交换二个数的实现算法(附完整源码)
  6. Java图形开发--GUI
  7. python链表_手把手实现 python 的链表数据结构
  8. Android真机没有sqlite3数据库的解决办法
  9. AWWWB.COM网站克隆器
  10. PhotoShop CS6破解方法及文件下载
  11. 外置存储权限在哪打开_安卓手机外置sd卡权限怎么打开
  12. J2me 开源的wap浏览器源代码分析
  13. Apollo Routing拓扑地图生成源码学习
  14. 【论文笔记 | TGRS 2021】多内容互补网络:MCCNet
  15. 2019年6月20日工作总结---CSS篇
  16. 马斯克的推特CEO继任者曝光:带着老婆孩子睡公司,钢铁侠20年嫡系,现在掌舵挖洞公司...
  17. BZOJ2456mode
  18. ECCV 2022放榜了!1629篇论文中选,录用率不到20%...
  19. message broker
  20. Vue中实现表格隔行换色效果

热门文章

  1. SQL性能优化没有那么神秘
  2. 1282. Game Tree
  3. 牧小熊:Adobe Illustrator 在科研作图中的应用!
  4. 【组队学习】【24期】河北邀请赛(二手车价格预测)
  5. 技术图文:如何爬取一个地区的气象数据(下)?
  6. Matlab与数据结构 -- 求向量或矩阵的最大值
  7. eclipse Debug中step into功能失灵的问题
  8. AI化身监工,上班还能摸鱼吗?
  9. 旷视张祥雨:高效轻量级深度模型的研究和实践 | AI ProCon 2019
  10. 互联网巨头终极战场:得开发者得天下