'''
将原始数据的word特征数字化为doc2vec特征,并将结果保存到本地article特征可做类似处理'''
import pandas as pd
import numpy as np
from gensim.models.doc2vec import Doc2Vec, TaggedDocument
import time
import picklet_start = time.time()"""=====================================================================================================================
0 辅助函数
"""def sentence2list(sentence):s_list = sentence.strip().split() #strip()去掉首尾空格,split()将字符串以空格切分成列表return s_list"""=====================================================================================================================
1 加载原始数据
"""
df_train=pd.read_csv('train_set.csv')
df_test=pd.read_csv('test_set.csv')df_train.drop(columns='article', inplace=True)
df_test.drop(columns='article', inplace=True)# 按行拼接df_train和df_test
df_all = pd.concat(objs=[df_train, df_test], axis=0, sort=True)# 获取train文件中的特征class
y_train = (df_train['class'] - 1).valuesdf_all['word_list'] = df_all['word_seg'].apply(sentence2list)
texts = df_all['word_list'].tolist()"""=====================================================================================================================
2 特征工程
"""
print('2 特征工程')
# 将原始数据数字化为doc2vecdocuments = [TaggedDocument(doc, [i]) for i, doc in enumerate(texts)]
model = Doc2Vec(documents, vector_size=200, window=5, min_count=3, workers=4, epochs=25)
docvecs = model.docvecsx_train = []
for i in range(0, 102277):x_train.append(docvecs[i])
x_train = np.array(x_train)x_test = []
for j in range(102277, 204554):x_test.append(docvecs[j])
x_test = np.array(x_test)"""=====================================================================================================================
3 保存至本地
"""
print('3 保存特征')
data = (x_train, y_train, x_test)with open('doc2vec_word.pkl', 'wb') as f:pickle.dump(data,f) t_end = time.time()
print("共耗时:{}min".format((t_end-t_start)/60))
# 共耗时:54min

特征工程(三)Doc2Vec相关推荐

  1. 面向机器学习的特征工程 三、文本数据: 展开、过滤和分块

    来源:ApacheCN<面向机器学习的特征工程>翻译项目 译者:@kkejili 校对:@HeYun 如果让你来设计一个算法来分析以下段落,你会怎么做? Emma knocked on t ...

  2. 特征工程(三):特征缩放,从词袋到 TF-IDF

    向AI转型的程序员都关注了这个号

  3. 2.2w字长文详解推荐系统之数据与特征工程,码起来慢慢看

    作者丨gongyouliu 编辑丨lily 来源 | 大数据与人工智能(ID:ai-big-data) [导读]推荐系统是机器学习的一个子领域,并且是一个偏工程化.在工业界有极大商业价值的方向.大量应 ...

  4. 「构建企业级推荐系统系列」推荐系统之数据与特征工程

    作者 | gongyouliu 编辑 | auroral-L 推荐系统是机器学习的一个子领域,并且是一个偏工程化.在工业界有极大商业价值的方向.大量应用于提供toC类产品的互联网企业服务中,通过推荐系 ...

  5. 推荐系统之数据与特征工程

    点击上方"大数据与人工智能","星标或置顶公众号" 第一时间获取好内容 作者丨gongyouliu 编辑丨lily 这是作者的第25篇文章,约2.2w字,阅读需 ...

  6. 【转】【重要】推荐系统之数据与特征工程

    原文链接: 推荐系统之数据与特征工程 原文作者丨gongyouliu  来自 大数据与人工智能 推荐系统是机器学习的一个子领域,并且是一个偏工程化.在工业界有极大商业价值的方向.大量应用于提供toC类 ...

  7. 推荐系统特征工程的万字理论

    作者丨gongyouliu 编辑丨lily 这是作者的第25篇文章,约2.2w字,阅读需120分钟   推荐系统是机器学习的一个子领域,并且是一个偏工程化.在工业界有极大商业价值的方向.大量应用于提供 ...

  8. [特征工程系列一] 论特征的重要性

    满打满算,还有十天左右就要过年了,这些天大家或多或少都有点浮躁.反过来想,趁大家都懈怠的时候,正是学习的最佳时机.趁着这几天,也给自己加点码,去认真的再看一下特征工程.我给自己列了下面的这一份学习清单 ...

  9. 【算法竞赛学习】二手车交易价格预测-Task3特征工程

    二手车交易价格预测-Task3 特征工程 三. 特征工程目标 Tip:此部分为零基础入门数据挖掘的 Task3 特征工程部分,带你来了解各种特征工程以及分析方法,欢迎大家后续多多交流. 赛题:零基础入 ...

  10. 机器学习系列(3)_特征工程01数据预处理

    参考链接: 1.scikit-learn官网 2.sklearn提供的自带的数据集 3.Kaggle官网 4.数据挖掘--无量纲化 文章目录 一.数据中台 二.sklearn中的数据预处理与特征工程 ...

最新文章

  1. Substance Painter实时角色制作视频教程
  2. R语言apropos函数查找包含特定字符的函数、find函数查找函数所在的位置实战
  3. 动画学院动漫节,周末预定!
  4. 江苏信息考试access_2016年江苏省信息技术学业水平测试Access操作题
  5. SqlConnection就一定要关闭吗?
  6. Java 运行时数据区域
  7. IOS 多线程04-GCD详解 底层并发 API
  8. 《Python编程从入门到实践》记录之求模运算符
  9. Linux查找大文件 (find的用法)
  10. 玩转 SpringBoot 2 快速整合 | JSP 篇
  11. webp环境搭建和使用过程
  12. ArcGIS——数据库与服务备份(二、arcgis server中站点服务的备份和恢复)
  13. bzoj千题计划269:bzoj2655: calc (拉格朗日插值)
  14. Ubuntu环境下安装UliPad
  15. web服务器硬件软件配置选择
  16. DSPE-PEG-MAL,474922-22-0,DSPE-PEG-Maleimide
  17. 【BZOJ2069】ZAW(POI2004)-最短路+二进制分组
  18. PCB设计走线细节讲解(图文结合|强力推荐)
  19. FFmpeg 集成 x265 编译及解码
  20. ReID行人重识别(训练+检测,附代码),可做图像检索,陌生人检索等项目

热门文章

  1. windows下git bash乱码问题
  2. .PHONY makefile中的伪目标
  3. javascript:为string类添加三个成员,实现去左,右,及所有空格
  4. java实现局域网内单对单和多对多通信的设计思路
  5. EasyPHP-2.0b1+ Mantis-1.1.0安装及技巧
  6. IISApp -a查找对应的AppPool
  7. 64岁Python之父退休失败,正式加入微软搞开源
  8. 百度AI快车道—企业深度学习实战营,推荐系统主题专场即将开课
  9. NLP实践:对话系统技术原理和应用
  10. 心中无码,自然高清 | 联合去马赛克与超分辨率研究论文Pytorch复现