'''
将原始数据的word特征数字化为hash特征,并将结果保存到本地article特征可做类似处理'''
import pandas as pd
from sklearn.feature_extraction.text import HashingVectorizer
import pickle
import timet_start = time.time()"""=====================================================================================================================
1 加载原始数据
"""
# 读取原始数据train和test文件
df_train=pd.read_csv('train_set.csv')
df_test=pd.read_csv('test_set.csv')# 删除特征article,只保留特征word
df_train.drop(columns='article', inplace=True)
df_test.drop(columns='article', inplace=True)# 按行拼接df_train和df_test
df_all = pd.concat(objs=[df_train, df_test], axis=0, sort=True)# 获取train文件中的特征class
y_train = (df_train['class'] - 1).values"""=====================================================================================================================
2 特征工程
"""
print('2 特征工程')
# 将原始数据数字化为hash特征vectorizer = HashingVectorizer(ngram_range=(1, 2), n_features=200)
d_all = vectorizer.fit_transform(df_all['word_seg'])
x_train = d_all[:len(y_train)]
x_test = d_all[len(y_train):]"""=====================================================================================================================
3 保存至本地
"""
print('3 保存特征')
data = (x_train.toarray(), y_train, x_test.toarray())
with open('hash_word.pkl', 'wb') as f:pickle.dump(data,f)t_end = time.time()
print("共耗时:{}min".format((t_end-t_start)/60))
# 共耗时:4.8min

特征工程(四)HashingVectorizer相关推荐

  1. 特征工程(四): 类别特征

    来源:https://mp.weixin.qq.com/s/Ub-bnil-DvMFNB4np3nOhQ 一个类别特征,见名思义,就是用来表达一种类别或标签.比如,一个类别特征能够表达世界上的主要城市 ...

  2. [特征工程系列一] 论特征的重要性

    满打满算,还有十天左右就要过年了,这些天大家或多或少都有点浮躁.反过来想,趁大家都懈怠的时候,正是学习的最佳时机.趁着这几天,也给自己加点码,去认真的再看一下特征工程.我给自己列了下面的这一份学习清单 ...

  3. 竞赛专题(四)特征工程-竞赛中的必杀技

    点击上方"Datawhale",选择"星标"公众号 第一时间获取价值内容 为了帮助更多竞赛选手入门进阶比赛,通过数据竞赛提升理论实践能力和团队协作能力.Data ...

  4. 零基础数据挖掘入门系列(四) - 特征工程

    思维导图:零基础入门数据挖掘的学习路径 1. 写在前面 零基础入门数据挖掘是记录自己在Datawhale举办的数据挖掘专题学习中的所学和所想, 该系列笔记使用理论结合实践的方式,整理数据挖掘相关知识, ...

  5. EOF-DataScience:数据预处理/特征工程之线性变换—四种特征缩放Scaling算法简介、标准化standardization、归一化Normalization的概述与区别

    DataScience:数据预处理/特征工程之线性变换-四种特征缩放Scaling算法简介.标准化standardization.归一化Normalization的概述与区别 目录 数据处理中常见的四 ...

  6. 专栏 | 基于 Jupyter 的特征工程手册:特征选择(四)

    作者:陈颖祥.杨子晗 编译:AI有道 数据预处理后,我们生成了大量的新变量(比如独热编码生成了大量仅包含0或1的变量).但实际上,部分新生成的变量可能是多余:一方面它们本身不一定包含有用的信息,故无法 ...

  7. 特征工程:特征生成,特征选择(三)

    转自:https://blog.csdn.net/cymy001/article/details/79169862 特征生成 特征工程中引入的新特征,需要验证它确实能提高预测得准确度,而不是加入一个无 ...

  8. 「特征工程」之零基础入门数据挖掘

    Datawhale 作者:吴忠强,Datawhale优秀学习者 摘要:对于数据挖掘项目,本文将学习应该从哪些角度做特征工程?从哪些角度做数据清洗,如何对特征进行增删,如何使用PCA降维技术等. 特征工 ...

  9. 特征工程学习,19项实践Tips!代码已开源!

    随着我们在机器学习.数据建模.数据挖掘分析这条发展路上越走越远,其实越会感觉到特征工程的重要性,平时我们在很多地方都会看到一些很好的特征工程技巧,但是都会是一个完整项目去阅读,虽然说这样子也可以学习挖 ...

最新文章

  1. 雷林鹏分享:PHP 5 时区
  2. putty利用密钥ssh服务登录ubuntu server 10.4
  3. 浅谈高性能数据库集群 —— 读写分离
  4. 信号分解:双正交、完备性、对偶向量
  5. C语言变长数组data[0]【总结】
  6. 欢乐纪中某A组赛【2019.7.8】
  7. 坑爹的uint32_t
  8. 利用Java调用openSMILE批量处理音频文件
  9. 【java.lang.NoClassDefFoundError: t/SpringBootConfiguration】
  10. Cisco Enhanced Object Tracking
  11. 二十七、单张图片上传预览
  12. 密码密文 android,Android开发之密码明文密文切换显示
  13. 配置Keepalived双实例高可用Nginx
  14. 微信小程序实验一 ——— 简单计算器与秒表
  15. Vite:Error: Cannot find module ‘worker_threads‘
  16. vue中a标签的href属性的写法
  17. 计算机Excel的公式计算,Excel如何自动计算天数公式?
  18. 组合数学之放球问题 【附斯特林数】
  19. MWC 2018火热开幕,AI取代手机成主角,华为超越苹果称霸!
  20. 一拖再拖,刁肥宅个人主页终上线!

热门文章

  1. 编写高质量代码改善C#程序的157个建议——建议86:Parallel中的异常处理
  2. Enterprise Library Configuration DAAB的使用
  3. 两个asp.net发送邮件类
  4. StaticFactoryMethod_Level4
  5. 【MATLAB】矩阵分析之向量和矩阵的范数运算
  6. 用友发布新一代企业智能商旅及费控服务平台
  7. 苹果新功能惹网友众怒,还有隐私可言吗?
  8. 限量!“Java成长笔记”Spring Boot/Sentinel/Nacos高并发
  9. 神经网络的学习方式网络传播和图卷积,两者到底什么关系?
  10. 用户数年增长 300%,BitMax如何把握数字资产时代机遇?