使用pyspark 进行向量计算

最近根据Airbnb在KDD 2018的bestpaper《Real-time Personalization using Embeddings for Search Ranking at Airbnb》做实时推荐的项目。其中在表达用户短期兴趣特征时我们是将用户近两周对item的行为数乘以对应item向量并将所有行为向量相加。此处item向量已由word2vec训练好。

数据格式如下：

我们需要将num*vector后按user_id groupby求vector和。

一开始用的方法是将spark.dataframe转换成pandas.dataframe处理（分布式转换方法可以参考另一篇博文：https://blog.csdn.net/htbeker/article/details/93630921）。这样做样本量在千万级可以，但是涉及到两种dataframe之间来回转换很麻烦，而且样本量上去之后我们公司的计算平台就开始error了，后面尝试了使用rdd计算的方法，可以在两种dataframe间切换并支持大量样本的计算,代码也很简洁，如下：

dff = spark.createDataFrame(df.rdd.map(lambda x: (x.user_id,x.num*x.vector))\.reduceByKey(lambda x,y:x+y),schema = ['user_id','vector'])

扫描下方二维码关注领取程序员必备千套ppt模板，300本精选好书，丰富面经：

使用pyspark 进行向量计算相关推荐

pyspark汇总小结
20220402 Spark报Total size of serialized results of 12189 tasks is bigger than spark.driver.maxResult ...
spark- PySparkSQL之PySpark解析Json集合数据
PySparkSQL之PySpark解析Json集合数据数据样本 12341234123412342|asefr-3423|[{"name":"spark", ...
jupyter笔记本_如何为Jupyter笔记本电脑设置PySpark
jupyter笔记本 by Tirthajyoti Sarkar 由Tirthajyoti Sarkar 如何为Jupyter笔记本电脑设置PySpark (How to set up PySpark ...
手把手教你实现PySpark机器学习项目——回归算法
作者 | hecongqing 来源 | AI算法之心(ID:AIHeartForYou) [导读]PySpark作为工业界常用于处理大数据以及分布式计算的工具,特别是在算法建模时起到了非常大的作用. ...
pyspark常用API
union 和unionall union 纵向合并dataframe In this Spark article, you will learn how to union two or more d ...
利用PySpark进行迁移学习的多类图像分类
在本文中,我们将演示计算机视觉问题,它具有结合两种最先进技术的能力:深度学习和Apache Spark.我们将利用深度学习管道的强大功能来解决多类图像分类问题. PySpark 是 Spark 为 P ...
R语言计算杰卡德相似系数（Jaccard Similarity）实战：自定义函数计算Jaccard相似度、对字符串向量计算Jaccard相似度、将Jaccard相似度转化为Jaccard距离
R语言计算杰卡德相似系数(Jaccard Similarity)实战:自定义函数计算Jaccard相似度.对字符串向量计算Jaccard相似度.将Jaccard相似度转化为Jaccard距离目录 R ...
pyspark dataframe数据连接（join）、转化为pandas dataframe、基于多个字段删除冗余数据
pyspark dataframe数据连接(join).转化为pandas dataframe.基于多个字段删除冗余数据目录 pyspark dataframe数据连接(join).转化为panda ...
基于关联规则（Variational Autoencoders）疾病预测系统实战：(pyspark FPGrowth实现频繁项集挖掘、最后给出预测模型topK准确率和召回率)
基于关联规则(Variational Autoencoders)疾病预测系统实战:(pyspark FPGrowth实现频繁项集挖掘.最后给出预测模型topK准确率和召回率) 目录

使用pyspark 进行向量计算

使用pyspark 进行向量计算相关推荐

最新文章

热门文章