特征工程(四)HashingVectorizer
'''
将原始数据的word特征数字化为hash特征,并将结果保存到本地article特征可做类似处理'''
import pandas as pd
from sklearn.feature_extraction.text import HashingVectorizer
import pickle
import timet_start = time.time()"""=====================================================================================================================
1 加载原始数据
"""
# 读取原始数据train和test文件
df_train=pd.read_csv('train_set.csv')
df_test=pd.read_csv('test_set.csv')# 删除特征article,只保留特征word
df_train.drop(columns='article', inplace=True)
df_test.drop(columns='article', inplace=True)# 按行拼接df_train和df_test
df_all = pd.concat(objs=[df_train, df_test], axis=0, sort=True)# 获取train文件中的特征class
y_train = (df_train['class'] - 1).values"""=====================================================================================================================
2 特征工程
"""
print('2 特征工程')
# 将原始数据数字化为hash特征vectorizer = HashingVectorizer(ngram_range=(1, 2), n_features=200)
d_all = vectorizer.fit_transform(df_all['word_seg'])
x_train = d_all[:len(y_train)]
x_test = d_all[len(y_train):]"""=====================================================================================================================
3 保存至本地
"""
print('3 保存特征')
data = (x_train.toarray(), y_train, x_test.toarray())
with open('hash_word.pkl', 'wb') as f:pickle.dump(data,f)t_end = time.time()
print("共耗时:{}min".format((t_end-t_start)/60))
# 共耗时:4.8min
特征工程(四)HashingVectorizer相关推荐
- 特征工程(四): 类别特征
来源:https://mp.weixin.qq.com/s/Ub-bnil-DvMFNB4np3nOhQ 一个类别特征,见名思义,就是用来表达一种类别或标签.比如,一个类别特征能够表达世界上的主要城市 ...
- [特征工程系列一] 论特征的重要性
满打满算,还有十天左右就要过年了,这些天大家或多或少都有点浮躁.反过来想,趁大家都懈怠的时候,正是学习的最佳时机.趁着这几天,也给自己加点码,去认真的再看一下特征工程.我给自己列了下面的这一份学习清单 ...
- 竞赛专题(四)特征工程-竞赛中的必杀技
点击上方"Datawhale",选择"星标"公众号 第一时间获取价值内容 为了帮助更多竞赛选手入门进阶比赛,通过数据竞赛提升理论实践能力和团队协作能力.Data ...
- 零基础数据挖掘入门系列(四) - 特征工程
思维导图:零基础入门数据挖掘的学习路径 1. 写在前面 零基础入门数据挖掘是记录自己在Datawhale举办的数据挖掘专题学习中的所学和所想, 该系列笔记使用理论结合实践的方式,整理数据挖掘相关知识, ...
- EOF-DataScience:数据预处理/特征工程之线性变换—四种特征缩放Scaling算法简介、标准化standardization、归一化Normalization的概述与区别
DataScience:数据预处理/特征工程之线性变换-四种特征缩放Scaling算法简介.标准化standardization.归一化Normalization的概述与区别 目录 数据处理中常见的四 ...
- 专栏 | 基于 Jupyter 的特征工程手册:特征选择(四)
作者:陈颖祥.杨子晗 编译:AI有道 数据预处理后,我们生成了大量的新变量(比如独热编码生成了大量仅包含0或1的变量).但实际上,部分新生成的变量可能是多余:一方面它们本身不一定包含有用的信息,故无法 ...
- 特征工程:特征生成,特征选择(三)
转自:https://blog.csdn.net/cymy001/article/details/79169862 特征生成 特征工程中引入的新特征,需要验证它确实能提高预测得准确度,而不是加入一个无 ...
- 「特征工程」之零基础入门数据挖掘
Datawhale 作者:吴忠强,Datawhale优秀学习者 摘要:对于数据挖掘项目,本文将学习应该从哪些角度做特征工程?从哪些角度做数据清洗,如何对特征进行增删,如何使用PCA降维技术等. 特征工 ...
- 特征工程学习,19项实践Tips!代码已开源!
随着我们在机器学习.数据建模.数据挖掘分析这条发展路上越走越远,其实越会感觉到特征工程的重要性,平时我们在很多地方都会看到一些很好的特征工程技巧,但是都会是一个完整项目去阅读,虽然说这样子也可以学习挖 ...
最新文章
- 雷林鹏分享:PHP 5 时区
- putty利用密钥ssh服务登录ubuntu server 10.4
- 浅谈高性能数据库集群 —— 读写分离
- 信号分解:双正交、完备性、对偶向量
- C语言变长数组data[0]【总结】
- 欢乐纪中某A组赛【2019.7.8】
- 坑爹的uint32_t
- 利用Java调用openSMILE批量处理音频文件
- 【java.lang.NoClassDefFoundError: t/SpringBootConfiguration】
- Cisco Enhanced Object Tracking
- 二十七、单张图片上传预览
- 密码密文 android,Android开发之密码明文密文切换显示
- 配置Keepalived双实例高可用Nginx
- 微信小程序实验一 ——— 简单计算器与秒表
- Vite:Error: Cannot find module ‘worker_threads‘
- vue中a标签的href属性的写法
- 计算机Excel的公式计算,Excel如何自动计算天数公式?
- 组合数学之放球问题 【附斯特林数】
- MWC 2018火热开幕,AI取代手机成主角,华为超越苹果称霸!
- 一拖再拖,刁肥宅个人主页终上线!
热门文章
- 编写高质量代码改善C#程序的157个建议——建议86:Parallel中的异常处理
- Enterprise Library Configuration DAAB的使用
- 两个asp.net发送邮件类
- StaticFactoryMethod_Level4
- 【MATLAB】矩阵分析之向量和矩阵的范数运算
- 用友发布新一代企业智能商旅及费控服务平台
- 苹果新功能惹网友众怒,还有隐私可言吗?
- 限量!“Java成长笔记”Spring Boot/Sentinel/Nacos高并发
- 神经网络的学习方式网络传播和图卷积,两者到底什么关系?
- 用户数年增长 300%,BitMax如何把握数字资产时代机遇?