特征工程（四）HashingVectorizer

'''
将原始数据的word特征数字化为hash特征，并将结果保存到本地article特征可做类似处理'''
import pandas as pd
from sklearn.feature_extraction.text import HashingVectorizer
import pickle
import timet_start = time.time()"""=====================================================================================================================
1 加载原始数据
"""
# 读取原始数据train和test文件
df_train=pd.read_csv('train_set.csv')
df_test=pd.read_csv('test_set.csv')# 删除特征article，只保留特征word
df_train.drop(columns='article', inplace=True)
df_test.drop(columns='article', inplace=True)# 按行拼接df_train和df_test
df_all = pd.concat(objs=[df_train, df_test], axis=0, sort=True)# 获取train文件中的特征class
y_train = (df_train['class'] - 1).values"""=====================================================================================================================
2 特征工程
"""
print('2 特征工程')
# 将原始数据数字化为hash特征vectorizer = HashingVectorizer(ngram_range=(1, 2), n_features=200)
d_all = vectorizer.fit_transform(df_all['word_seg'])
x_train = d_all[:len(y_train)]
x_test = d_all[len(y_train):]"""=====================================================================================================================
3 保存至本地
"""
print('3 保存特征')
data = (x_train.toarray(), y_train, x_test.toarray())
with open('hash_word.pkl', 'wb') as f:pickle.dump(data,f)t_end = time.time()
print("共耗时：{}min".format((t_end-t_start)/60))
# 共耗时：4.8min

特征工程（四）HashingVectorizer相关推荐

特征工程(四): 类别特征
来源:https://mp.weixin.qq.com/s/Ub-bnil-DvMFNB4np3nOhQ 一个类别特征,见名思义,就是用来表达一种类别或标签.比如,一个类别特征能够表达世界上的主要城市 ...
[特征工程系列一] 论特征的重要性
满打满算,还有十天左右就要过年了,这些天大家或多或少都有点浮躁.反过来想,趁大家都懈怠的时候,正是学习的最佳时机.趁着这几天,也给自己加点码,去认真的再看一下特征工程.我给自己列了下面的这一份学习清单 ...
竞赛专题（四）特征工程-竞赛中的必杀技
点击上方"Datawhale",选择"星标"公众号第一时间获取价值内容为了帮助更多竞赛选手入门进阶比赛,通过数据竞赛提升理论实践能力和团队协作能力.Data ...
零基础数据挖掘入门系列(四) - 特征工程
思维导图:零基础入门数据挖掘的学习路径 1. 写在前面零基础入门数据挖掘是记录自己在Datawhale举办的数据挖掘专题学习中的所学和所想, 该系列笔记使用理论结合实践的方式,整理数据挖掘相关知识, ...
EOF-DataScience：数据预处理/特征工程之线性变换—四种特征缩放Scaling算法简介、标准化standardization、归一化Normalization的概述与区别
DataScience:数据预处理/特征工程之线性变换-四种特征缩放Scaling算法简介.标准化standardization.归一化Normalization的概述与区别目录数据处理中常见的四 ...
专栏 | 基于 Jupyter 的特征工程手册：特征选择（四）
作者:陈颖祥.杨子晗编译:AI有道数据预处理后,我们生成了大量的新变量(比如独热编码生成了大量仅包含0或1的变量).但实际上,部分新生成的变量可能是多余:一方面它们本身不一定包含有用的信息,故无法 ...
特征工程：特征生成，特征选择(三)
转自:https://blog.csdn.net/cymy001/article/details/79169862 特征生成特征工程中引入的新特征,需要验证它确实能提高预测得准确度,而不是加入一个无 ...
「特征工程」之零基础入门数据挖掘
Datawhale 作者:吴忠强,Datawhale优秀学习者摘要:对于数据挖掘项目,本文将学习应该从哪些角度做特征工程?从哪些角度做数据清洗,如何对特征进行增删,如何使用PCA降维技术等. 特征工 ...
特征工程学习，19项实践Tips！代码已开源！
随着我们在机器学习.数据建模.数据挖掘分析这条发展路上越走越远,其实越会感觉到特征工程的重要性,平时我们在很多地方都会看到一些很好的特征工程技巧,但是都会是一个完整项目去阅读,虽然说这样子也可以学习挖 ...

特征工程（四）HashingVectorizer

特征工程（四）HashingVectorizer相关推荐

最新文章

热门文章