特征工程(一)countvectororizer
'''
将原始数据的word特征数字化为countvector特征,并将结果保存到本地article特征可做类似处理'''
import pandas as pd
from sklearn.feature_extraction.text import countvectororizer
import pickle
import timet_start = time.time()"""=====================================================================================================================
1 数据预处理
"""
# 读取原始数据train和test文件
df_train=pd.read_csv('train_set.csv')
df_test=pd.read_csv('test_set.csv')# 删除特征article,只保留特征word
df_train.drop(columns='article', inplace=True)
df_test.drop(columns='article', inplace=True)# 按行拼接df_train和df_test
df_all = pd.concat(objs=[df_train, df_test], axis=0, sort=True)# 获取train文件中的特征class
y_train = (df_train['class'] - 1).values"""=====================================================================================================================
2 特征工程
"""
print('2 特征工程')
# 将原始数据数字化为countvector特征vectorizer = countvectororizer(ngram_range=(1, 2), min_df=100, max_df=0.8)
vectorizer.fit(df_all['word_seg'])
x_train = vectorizer.transform(df_train['word_seg'])
x_test = vectorizer.transform(df_test['word_seg'])"""=====================================================================================================================
3 保存至本地
"""
print('3 保存特征')
data = (x_train, y_train, x_test)
with open('countvector_word.pkl', 'wb') as f:pickle.dump(data,f)t_end = time.time()
print("共耗时:{}min".format((t_end-t_start)/60))
特征工程(一)countvectororizer相关推荐
- 手把手教你用Python实现自动特征工程
任何参与过机器学习比赛的人,都能深深体会特征工程在构建机器学习模型中的重要性,它决定了你在比赛排行榜中的位置. 特征工程具有强大的潜力,但是手动操作是个缓慢且艰巨的过程.Prateek Joshi,是 ...
- Auto ML自动特征工程
Auto ML自动特征工程 特征工程是在做机器学习训练的过程中必不可少的环节,特征工程就是找出对模型结果有益的特征交叉关系,通常特征工程需要耗费算法工程师大量的精力去尝试.针对这样的场景,PAI推出智 ...
- 【机器学习入门】(10) 特征工程:特征抽取,字典特征抽取、文本特征抽取,附完整python代码
各位同学好,今天和大家介绍一下python机器学习中的特征工程.在将数据放入模型之前,需要对数据的一些特征进行特征抽取,方法有: (1) 字典特征抽取 DictVectorizer(),(2) 文本特 ...
- 特征工程:特征生成,特征选择(三)
转自:https://blog.csdn.net/cymy001/article/details/79169862 特征生成 特征工程中引入的新特征,需要验证它确实能提高预测得准确度,而不是加入一个无 ...
- 【直播】王茂霖:二手车交易价格预测-千变万化特征工程(河北高校数据挖掘邀请赛)
二手车交易价格预测-千变万化特征工程 目前 河北高校数据挖掘邀请赛 正在如火如荼的进行中.为了大家更好的参赛,王茂霖分享了 从0梳理1场数据挖掘赛事!,完整梳理了从环境准备.数据读取.数据分析.特征工 ...
- 手动特征工程已经OUT了!自动特征工程才是改进机器学习的方式
作者 | William Koehrsen 译者 | linstancy 编辑 | Jane 出品 | AI科技大本营 [导读]近年来,我们在自动模型选择和超参数调优方面取得了进展,但机器学习流程中最 ...
- 基于Python的自动特征工程——教你如何自动创建机器学习特征
作者 | William Koehrsen 译者 | 王天宇 编辑 | Jane 出品 | AI科技大本营 [导读]如今机器学习正在从人工设计模型更多地转移到自动优化工作流中,如 H20.TPOT 和 ...
- 用机器学习神器sklearn做特征工程!
Datawhale干货 作者:jasonfreak,编辑:数据STUDIO 使用sklearn做特征工程 特征工程是什么? 有这么一句话在业界广泛流传:数据和特征决定了机器学习的上限,而模型和算法只是 ...
- 特征工程在实际业务中的应用!
Datawhale干货 作者:知乎King James,伦敦国王大学 知乎|https://www.zhihu.com/people/xu-xiu-jian-33 导读:大概知道特征工程,但是不清楚特 ...
最新文章
- Python 0/1背包、动态规划
- 【图像分割应用】医学图像分割(二)——心脏分割
- TreeView对象选择某节点下所有节点与子节点
- java学习笔记(七)数据库链接字符
- 无法想mysql进行插入_mysql 无法插入中文
- 谈谈你对php的收获和不足,我的收获与不足
- jq动态渲染后获取不到元素高度_浏览器的渲染机制
- mybatis-01
- 两台主机经过路由器传送数据的网络原理
- 百度起诉今日头条;腾讯云超 8000 名员工获 iPhone 11 Pro 奖励;PHP 7.4.1 发布 | 极客头条...
- OPENCV3.0 双目立体标定
- redis stream持久化_带你彻底理解 Redis 持久化
- matlab如何调用swmm,一套基于SWMM开放的城市管网系统控制设计
- Spurious Wakup
- winrar命令行加压解密
- C++ 万年历 查找年、月、日、星期数以及节日等信息
- 国产手机扬眉吐气,终于打击了苹果的嚣张气焰
- 【中亦安图】风险提醒之Oracle RAC高可用失效(2)
- 终极 Shell——ZSH
- oracle 无法在指定的节点上,oracle 11g rac 某节点CRS起不来的解决方法