"""
将tfidf(word)和tfidf(article)拼接成新的特征"""import pickle
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer"""=====================================================================================================================
1 数据预处理
"""
read_start_time = time.time()
df_train=pd.read_csv('train_set.csv')
df_test=pd.read_csv('test_set.csv')#df_train.drop(df_train.columns[0],axis=1,inplace=True)df_train["word_article"] = df_train["article"].map(str) +' '+ df_train["word_seg"].map(str)
df_test["word_article"] = df_test["article"].map(str) +' ' + df_test["word_seg"].map(str)
y_train = (df_train['class'] - 1).values"""=====================================================================================================================
2 特征工程
"""
vectorizer = TfidfVectorizer(ngram_range=(1, 2), min_df=3, max_df=0.9, sublinear_tf=True)
vectorizer.fit(df_train['word_article'])
x_train = vectorizer.transform(df_train['word_article'])
x_test = vectorizer.transform(df_test['word_article'])"""=====================================================================================================================
3 保存至本地
"""
data = (x_train, y_train, x_test)
with open('./tfidf(word+article).pkl', 'wb') as f:pickle.dump(data, f)

组合特征(一)tfidf(word+article)相关推荐

  1. 组合特征(三)tfidf(word+article+length)

    ''' 特征拼接,拼接文章长度 #1.载入特征 #2 读文章长度 #3 特征缩放,拼接特征 '''import pickle# 载入特征 with open('tfidf(word+article). ...

  2. 组合特征(二)tfidf(word+article)+lsa

    """ 将tfidf(word+article)特征降维为lsa特征,并将结果保存至本地,并将结果保存到本地""" from sklearn ...

  3. 组合特征(四)linearsvm-tfidf(word)+lr-tfidf(article)

    """ 将linearsvm挑选的tfidf(word)特征和lr挑选的tfidf(article)"""import pickle fro ...

  4. 组合特征(五)countvector(w)+doc(w)+hash(w)

    """ 将countvector(word).hash(word)和doc2vec(word)拼接成新特征""" import pickle ...

  5. XGBoost Plotting API以及GBDT组合特征实践

    XGBoost Plotting API以及GBDT组合特征实践 写在前面: 最近在深入学习一些树模型相关知识点,打算整理一下.刚好昨晚看到余音大神在Github上分享了一波 MachineLearn ...

  6. 特征工程·TFIDF提取特征

    本文介绍文本处理时比较常用且有效的tfidf特征提取方法 1. 提取tf特征 TF即是词频(Term Frequency)是文本信息量统计方法之一,简单来说就是统计此文本中每个词的出现频率 def c ...

  7. 特征工程+特征组合+特征交叉+特征变换+生成特征

    特征组合+特征交叉(交叉特征,组合特征,特征组合)+特征变换+生成特征+特征提取+ 特征缩放+特征选择+特征分箱+时间特征+特征关联+文本特征+特征采样 特征关联---->corr() 特征分箱 ...

  8. ML之FE:数据处理—特征工程之高维组合特征的处理案例(矩阵分解)——基于LoR算法的广告点击预估问题

    ML之FE:数据处理-特征工程之高维组合特征的处理案例(矩阵分解)--基于LoR算法的广告点击预估问题 目录 特征工程之高维组合特征的处理思路 1.原始数据:语⾔言和类型两种离散特征 2.为了提高拟合 ...

  9. 【数据竞赛】十组不同类型的组合特征!

    作者:尘沙杰少.樱落.新峰.DOTA.谢嘉嘉 特征工程--数值&时间的二阶组合特征! 前 言 本篇文章是关于数值特征与其它类型特征的二阶组合特征以及时间特征与其它特征的组合特征,这一块的东西相 ...

最新文章

  1. 重磅!Gartner公布2019年十大战略科技发展趋势
  2. qq满屏飞吻代码_教你用微信隐藏代码表白!各种微信技巧
  3. 编码utf-8的不可映射字符_MySQL 请不要使用“utf8”
  4. 【JFreeChart】JFreeChart—输出时序图
  5. BlueStore——先进的用户态文件系统《一》
  6. 一个好用的基于若干静态图片生成gif图片的在线工具
  7. 国内各大平台的推荐算法,看到360的时候笑喷了……
  8. 【POJ - 3352】Road Construction(Tarjan,边双连通分量)
  9. 防止Visual C++应用程序缓冲区溢出
  10. python执行shell命令
  11. 基于ASP.net的电力系统分析精品课程网站
  12. OpenStack Orchestration service (编排服务Heat)
  13. 教你如何使用for循环来做一些小图案
  14. IM即时通讯源码系统安卓苹果IOS双端源码介绍
  15. matlab信号如何加白噪声,matlab给信号加白噪声
  16. 识别PDF文字的软件,得力OCR文字识别
  17. “云桥”通往存储中心极速世界的通道
  18. 求三角形【内心,外心,重心,垂心】
  19. 简易浏览器 java_365备用「永久地址0365.tv」java 实现简单浏览器Android 开发之快速实现一个简单Web浏览器...
  20. 数据结构C语言般卷纸真题,数据结构(C语言版)考研真题(A卷)

热门文章

  1. 文件解析库doctotext源码分析
  2. EXCEL-XML 代码相对行列转换绝对
  3. 【组队学习】【24期】河北邀请赛(二手车价格预测)
  4. 编程基础知识科普:C#中的问号运算符
  5. 【数据结构】二叉树及其相关操作
  6. AI 帮忙找 Bug ,英特尔开源代码编程工具 ControlFlag
  7. 使用深度学习阅读和分类扫描文档
  8. GPT-3模型为何难以复现?这也许是分布式AI框架的最优设计
  9. CSDN 给你一个薅羊毛的机会!你真的不要吗?
  10. 牛年快乐~新一年从甜蜜的烘焙里学AI