'''
将原始数据的word特征数字化为countvector特征,并将结果保存到本地article特征可做类似处理'''
import pandas as pd
from sklearn.feature_extraction.text import countvectororizer
import pickle
import timet_start = time.time()"""=====================================================================================================================
1 数据预处理
"""
# 读取原始数据train和test文件
df_train=pd.read_csv('train_set.csv')
df_test=pd.read_csv('test_set.csv')# 删除特征article,只保留特征word
df_train.drop(columns='article', inplace=True)
df_test.drop(columns='article', inplace=True)# 按行拼接df_train和df_test
df_all = pd.concat(objs=[df_train, df_test], axis=0, sort=True)# 获取train文件中的特征class
y_train = (df_train['class'] - 1).values"""=====================================================================================================================
2 特征工程
"""
print('2 特征工程')
# 将原始数据数字化为countvector特征vectorizer = countvectororizer(ngram_range=(1, 2), min_df=100, max_df=0.8)
vectorizer.fit(df_all['word_seg'])
x_train = vectorizer.transform(df_train['word_seg'])
x_test = vectorizer.transform(df_test['word_seg'])"""=====================================================================================================================
3 保存至本地
"""
print('3 保存特征')
data = (x_train, y_train, x_test)
with open('countvector_word.pkl', 'wb') as f:pickle.dump(data,f)t_end = time.time()
print("共耗时:{}min".format((t_end-t_start)/60))

特征工程(一)countvectororizer相关推荐

  1. 手把手教你用Python实现自动特征工程

    任何参与过机器学习比赛的人,都能深深体会特征工程在构建机器学习模型中的重要性,它决定了你在比赛排行榜中的位置. 特征工程具有强大的潜力,但是手动操作是个缓慢且艰巨的过程.Prateek Joshi,是 ...

  2. Auto ML自动特征工程

    Auto ML自动特征工程 特征工程是在做机器学习训练的过程中必不可少的环节,特征工程就是找出对模型结果有益的特征交叉关系,通常特征工程需要耗费算法工程师大量的精力去尝试.针对这样的场景,PAI推出智 ...

  3. 【机器学习入门】(10) 特征工程:特征抽取,字典特征抽取、文本特征抽取,附完整python代码

    各位同学好,今天和大家介绍一下python机器学习中的特征工程.在将数据放入模型之前,需要对数据的一些特征进行特征抽取,方法有: (1) 字典特征抽取 DictVectorizer(),(2) 文本特 ...

  4. 特征工程:特征生成,特征选择(三)

    转自:https://blog.csdn.net/cymy001/article/details/79169862 特征生成 特征工程中引入的新特征,需要验证它确实能提高预测得准确度,而不是加入一个无 ...

  5. 【直播】王茂霖:二手车交易价格预测-千变万化特征工程(河北高校数据挖掘邀请赛)

    二手车交易价格预测-千变万化特征工程 目前 河北高校数据挖掘邀请赛 正在如火如荼的进行中.为了大家更好的参赛,王茂霖分享了 从0梳理1场数据挖掘赛事!,完整梳理了从环境准备.数据读取.数据分析.特征工 ...

  6. 手动特征工程已经OUT了!自动特征工程才是改进机器学习的方式

    作者 | William Koehrsen 译者 | linstancy 编辑 | Jane 出品 | AI科技大本营 [导读]近年来,我们在自动模型选择和超参数调优方面取得了进展,但机器学习流程中最 ...

  7. 基于Python的自动特征工程——教你如何自动创建机器学习特征

    作者 | William Koehrsen 译者 | 王天宇 编辑 | Jane 出品 | AI科技大本营 [导读]如今机器学习正在从人工设计模型更多地转移到自动优化工作流中,如 H20.TPOT 和 ...

  8. 用机器学习神器sklearn做特征工程!

    Datawhale干货 作者:jasonfreak,编辑:数据STUDIO 使用sklearn做特征工程 特征工程是什么? 有这么一句话在业界广泛流传:数据和特征决定了机器学习的上限,而模型和算法只是 ...

  9. 特征工程在实际业务中的应用!

    Datawhale干货 作者:知乎King James,伦敦国王大学 知乎|https://www.zhihu.com/people/xu-xiu-jian-33 导读:大概知道特征工程,但是不清楚特 ...

最新文章

  1. Python 0/1背包、动态规划
  2. 【图像分割应用】医学图像分割(二)——心脏分割
  3. TreeView对象选择某节点下所有节点与子节点
  4. java学习笔记(七)数据库链接字符
  5. 无法想mysql进行插入_mysql 无法插入中文
  6. 谈谈你对php的收获和不足,我的收获与不足
  7. jq动态渲染后获取不到元素高度_浏览器的渲染机制
  8. mybatis-01
  9. 两台主机经过路由器传送数据的网络原理
  10. 百度起诉今日头条;腾讯云超 8000 名员工获 iPhone 11 Pro 奖励;PHP 7.4.1 发布 | 极客头条...
  11. OPENCV3.0 双目立体标定
  12. redis stream持久化_带你彻底理解 Redis 持久化
  13. matlab如何调用swmm,一套基于SWMM开放的城市管网系统控制设计
  14. Spurious Wakup
  15. winrar命令行加压解密
  16. C++ 万年历 查找年、月、日、星期数以及节日等信息
  17. 国产手机扬眉吐气,终于打击了苹果的嚣张气焰
  18. 【中亦安图】风险提醒之Oracle RAC高可用失效(2)
  19. 终极 Shell——ZSH
  20. oracle 无法在指定的节点上,oracle 11g rac 某节点CRS起不来的解决方法

热门文章

  1. python 之socket 网络编程
  2. iOS手机 相册 相机(Picker Write)
  3. Linux 使用者身份與群組記錄的檔案
  4. 【组队学习】【34期】百度飞桨AI达人创造营
  5. Datawhale组队学习 Task02:顺序表和链表(2天)
  6. Matlab与线性代数 -- 矩阵的转置
  7. 【ACM】杭电OJ 1106 函数atoi
  8. Tidio AI 趋势报告:约42%受访者能够接受机器人伴侣
  9. 联手中科大、浙大、华科大等高校,阿里研发4项最新AI安全技术
  10. 赠书 | 实现病人数据自动分析建模,Python能做的比你想象得更多