Spark SQL（七）之基于用户的相似度公式

一、基于用户的Jaccard相似度公式

其中，u、v表示任意两个用户，N(u)表示用户u喜欢的物品集合,N(v)表示用户v喜欢物品的集合。

代码

public class UserCFApp {public static void main(String[]args){SparkConf sparkConf = new SparkConf();sparkConf.setAppName("UserCFApp");sparkConf.setMaster("local[*]");SparkSession sparkSession = SparkSession.builder().config(sparkConf).getOrCreate();String url = "jdbc:mysql://localhost:3306/spark-mysql?useUnicode=true&characterEncoding=utf8&autoReconnect=true&failOverReadOnly=false";String driver = "com.mysql.jdbc.Driver";String user = "root";String password = "admin";Dataset<Row> dataset = sparkSession.read().format("jdbc").option("driver", driver).option("url",url).option("dbtable","user_item").option("user",user).option("password",password).load();Dataset<Row> userCount = dataset.groupBy("user_id").count();Dataset<Row> user2UserCount = dataset.as("a").join(dataset.as("b"),functions.column("a.item_id").$eq$eq$eq(functions.column("b.item_id"))).where(functions.column("a.user_id").notEqual(functions.column("b.user_id"))).select(functions.column("a.user_id").as("a_user_id"),functions.column("b.user_id").as("b_user_id")).groupBy("a_user_id", "b_user_id").count();Dataset<Row> result =  user2UserCount.as("u2u").join(userCount.as("uc1"), functions.column("u2u.a_user_id").$eq$eq$eq(functions.column("uc1.user_id"))).join(userCount.as("uc2"), functions.column("u2u.b_user_id").$eq$eq$eq(functions.column("uc2.user_id"))).selectExpr("u2u.a_user_id", "u2u.b_user_id", "u2u.count/(uc1.count + uc2.count - u2u.count) as count");result.show();
//        result.write()
//                .mode(SaveMode.Overwrite)
//                .format("jdbc")
//                .option("driver", driver)
//                .option("url",url)
//                .option("dbtable","user_similar")
//                .option("user",user)
//                .option("password",password)
//                .save();sparkSession.stop();}
}

二、基于用户的余弦相似度公式

其中，u、v表示任意两个用户，N(u)表示用户u喜欢的物品集合,N(v)表示用户v喜欢物品的集合。

public class UserCF2App {public static void main(String[]args){SparkConf sparkConf = new SparkConf();sparkConf.setAppName("UserCFApp");sparkConf.setMaster("local[*]");SparkSession sparkSession = SparkSession.builder().config(sparkConf).getOrCreate();String url = "jdbc:mysql://localhost:3306/spark-mysql?useUnicode=true&characterEncoding=utf8&autoReconnect=true&failOverReadOnly=false";String driver = "com.mysql.jdbc.Driver";String user = "root";String password = "admin";Dataset<Row> dataset = sparkSession.read().format("jdbc").option("driver", driver).option("url",url).option("dbtable","user_item").option("user",user).option("password",password).load();Dataset<Row> userCount = dataset.groupBy("user_id").count();Dataset<Row> user2UserCount = dataset.as("a").join(dataset.as("b"),functions.column("a.item_id").$eq$eq$eq(functions.column("b.item_id"))).where(functions.column("a.user_id").notEqual(functions.column("b.user_id"))).select(functions.column("a.user_id").as("a_user_id"),functions.column("b.user_id").as("b_user_id")).groupBy("a_user_id", "b_user_id").count();Dataset<Row> result =  user2UserCount.as("u2u").join(userCount.as("uc1"), functions.column("u2u.a_user_id").$eq$eq$eq(functions.column("uc1.user_id"))).join(userCount.as("uc2"), functions.column("u2u.b_user_id").$eq$eq$eq(functions.column("uc2.user_id"))).selectExpr("u2u.a_user_id", "u2u.b_user_id", "u2u.count/pow(uc1.count * uc2.count, 0.5) as count");result.show();
//        result.write()
//                .mode(SaveMode.Overwrite)
//                .format("jdbc")
//                .option("driver", driver)
//                .option("url",url)
//                .option("dbtable","user_similar")
//                .option("user",user)
//                .option("password",password)
//                .save();sparkSession.stop();}
}

Spark SQL（七）之基于用户的相似度公式相关推荐

基于物品的相似度还是基于用户的相似度
基于物品的相似度计算的时间会随着物品数量的增加而增加,基于用户的相似度计算的时间则会随着用户数量的增加而增加.如果有一个商店,那么最多会有几千件商品.如果用户数量很多,可能倾向于使用基于物品相似度的计 ...
Spark SQL（八）之基于物品的相似度公式
一.基于物品的Jaccard相似度公式其中,i.j表示任意两个物品,N(i)表示喜欢物品i的用户数,N(j)表示喜欢物品j的用户数. 代码: public class ItemCFApp {publ ...
大数据Hadoop之——Spark SQL+Spark Streaming
文章目录一.Spark SQL概述二.SparkSQL版本 1)SparkSQL的演变之路 2)shark与SparkSQL对比 3)SparkSession 三.RDD.DataFrames和D ...
Spark生态系统解析及基于Redis的开源分布式服务Codis
摘要:在第九期"七牛开发者最佳实践日"上,陈超就Spark整个生态圈进行了讲解,而刘奇则分享豌豆荚在Redis上的摸索和实践. 1月24日,一场基于Spark和Redis组成的分布 ...
hive编程指南电子版_第三篇|Spark SQL编程指南
在<第二篇|Spark Core编程指南>一文中,对Spark的核心模块进行了讲解.本文将讨论Spark的另外一个重要模块--Spark SQL,Spark SQL是在Shark的基础之上 ...
Spark SQL玩起来
标签(空格分隔): Spark [toc] 前言 Spark SQL的介绍只包含官方文档的Getting Started.DataSource.Performance Tuning和Distribut ...
spark-sql建表语句限制_第三篇|Spark SQL编程指南
在<第二篇|Spark Core编程指南>一文中,对Spark的核心模块进行了讲解.本文将讨论Spark的另外一个重要模块--Spark SQL,Spark SQL是在Shark的基础之上 ...
hive编程指南_第三篇|Spark SQL编程指南
在<第二篇|Spark Core编程指南>一文中,对Spark的核心模块进行了讲解.本文将讨论Spark的另外一个重要模块--Spark SQL,Spark SQL是在Shark的基础之上 ...
Spark SQL: Relational Data Processing in Spark
Spark SQL: Relational Data Processing in Spark Spark SQL : Spark中关系型处理模块说明: 类似这样的说明并非是原作者的内容翻译,而是本篇 ...

Spark SQL（七）之基于用户的相似度公式

一、基于用户的Jaccard相似度公式

二、基于用户的余弦相似度公式

Spark SQL（七）之基于用户的相似度公式相关推荐

最新文章

热门文章