Spark下的word2vec模型训练
一、引言
前边一节介绍了Word2Vec模型训练同义词,那么在大数据量的情况下,我们自然想到了用spark来进行训练。下面就介绍我们是如何实现spark上的模型训练。
二、分词
模型训练的输入是分好词的语料,那么就得实现spark上的分词。
def split(jieba_list, iterator):sentences = []for i in iterator:try:seg_list = []#out_str = ""s = ""for c in i:if not c is None:s += c.encode('utf-8')id = s.split("__")[0]s = s.split("__")[1]wordList = jieba.cut(s, cut_all=False)for word in wordList:out_str += wordout_str += " "sentences.append(out_str)except:continuereturn sentences
三、模型训练
这里,直接用分词后的rdd对象作为输入
word2vec = Word2Vec().setNumPartitions(50)spark.sql("use jkgj_log")df = spark.sql("select label1_name,label2_name from mid_dim_tag ")df_list = df.collect()spark.sparkContext.broadcast(df_list)diagnosis_text_in = spark.sql("select main_suit,msg_content from diagnosis_text_in where pt>='20170101'")inp = diagnosis_text_in.rdd.repartition(1200).mapPartitions(lambda it: split(df_list,it)).map(lambda row: row.split(" "))model = word2vec.fit(inp)
Spark下的word2vec模型训练相关推荐
- [书蕴笔记-1]word2vec模型训练
word2vec模型训练 前言 整体索引在此 书蕴--基于书评的人工智能推荐系统 上次把文本进行了预处理,主要是使用正则去除标签以及对文本去除停用词以及结巴分词. 后续还会加入tf-idf来动态选取停 ...
- word2vec模型训练保存加载及简单使用
目录 word2vec模型训练保存加载及简单使用 一 word2vec简介 二.模型训练和保存及加载 模型训练 模型保存和加载 模型的增量训练 三.模型常用API 四.文本相似度计算--文档级别 wo ...
- python实现glove,gensim.word2vec模型训练实例
20210331 https://blog.csdn.net/sinat_26917383/article/details/83029140 glove实例 https://dumps.wikimed ...
- Colab下Imageai自定义模型训练和目标检测
本文运行再colab环境下 目录 本文运行再colab环境下 1.准备 a.库的安装 b.colab环境的准备 2.模型的训练 a.准备数据集 b.训练 3.通过模型进行目标检测 4.注意: 1.准备 ...
- Python Djang 搭建自动词性标注网站(基于Keras框架和维基百科中文预训练词向量Word2vec模型,分别实现由GRU、LSTM、RNN神经网络组成的词性标注模型)
引言 本文基于Keras框架和维基百科中文预训练词向量Word2vec模型,分别实现由GRU.LSTM.RNN神经网络组成的词性标注模型,并且将模型封装,使用python Django web框架搭建 ...
- 利用Gensim训练关于英文维基百科的Word2Vec模型(Training Word2Vec Model on English Wikipedia by Gensim)
Training Word2Vec Model on English Wikipedia by Gensim 更新:发现另一篇译文:中英文维基百科语料上的Word2Vec实验,该译文还提供了中文维基百 ...
- 独孤九剑:算法模型训练的一般流程
这篇文章主要分享一下模型训练的一般流程,目的是让大家明白做一个算法模型过程中会涉及的流程和数据特征在算法模型中的重要性. 作为一名算法工程师训练模型可谓是家常便饭,不管是做推荐中的召回模型.排序模型还 ...
- wiki中文语料的word2vec模型构建
一.利用wiki中文语料进行word2vec模型构建 1)数据获取 到wiki官网下载中文语料,下载完成后会得到命名为zhwiki-latest-pages-articles.xml.bz2的文件,里 ...
- NLP-词向量(Word Embedding)-2013:Word2vec模型(CBOW、Skip-Gram)【对NNLM的简化】【层次Softmax、负采样、重采样】【静态表示;无法解决一词多义】
一.文本的表示方法 (Representation) 文本是一种非结构化的数据信息,是不可以直接被计算的.因为文本不能够直接被模型计算,所以需要将其转化为向量. 文本表示的作用就是将这些非结构化的信息 ...
最新文章
- C++ 派生类的定义
- 任务的定义、任务切换的原理及实现
- 在WildFly上将JPA和CDI Bean与骆驼一起使用
- centos7 mysql tar_CentOS7中mysql-5.7.21-el7-x86_64.tar.gz版MySQL的安装与配置
- ajax和fetch哪个好,axios和ajax,fetch的区别
- java 多层异常_Java多层嵌套异常处理的基本流程
- c语言课后作业答案指针,C语言程序基础练习题带答案
- 【基础教程】基于matlab图像融合总结【含Matlab源码 055期】
- Mar9th 海尔java面试
- 总结《Video rate spectral imaging using a coded aperture snapshot spectral imager》
- python简易版爬虫
- 远程电脑打游戏鼠标漂移无法操作解决办法
- 山东春考计算机专业课知识点,山东省春季高考计算机专业学习方法
- ERP BOM 展开方式
- 一些牛人榜样,多看看他们写的东西
- latex表格 在线生成
- 你这一生还能陪妈妈几天?来看看
- 记录我删库没跑路的处理方式
- Prim算法伪+代码讲解
- Java NIO 编程:Buffer、Channel、Selector原理详解
热门文章
- mysql数据库(1):连接与断开服务器
- android反射开启通知_Android中反射的简单应用
- 【OpenCV 例程200篇】08. 图像的复制(np.copy)
- c++ list容器获取第n给元素_Java总结之容器家族--Collection*
- oracle10g配置失败6,Oracle10g DataGuard中ORA-16026错误解决-入门基础-Oracle频道-中国IT实验室...
- python3实用编程技巧_6.python3实用编程技巧进阶(一)
- python课程设计矩阵对角线之和_在python中如何求矩阵对角线上下元素的和?
- C++函数模板5分钟入门
- Python读取写入yaml文件
- 【功能业务篇】APP获取用户定位、传参经纬度思考