Spark Mllib里相似度度量（基于余弦相似度计算不同用户之间相似性）（图文详解）...

　　不多说，直接上干货！

常见的推荐算法

　　1、基于关系规则的推荐

　　2、基于内容的推荐

　　3、人口统计式的推荐

　　4、协调过滤式的推荐

　　协调过滤算法，是一种基于群体用户或者物品的典型推荐算法，也是目前常用的推荐算法中最常用和最经典的算法。

　　协调过滤算法主要有两种：

　　　　用户对物品：考查具有相同爱好的用户对相同物品的评分标准进行计算；

　　　　物品对用户：考查具有相同物质的物品从而推荐给选择了某件物品的用户。

相似度度量（基于欧几里得距离的相似度计算和基于余弦角度的相似度计算）

　　　　（1）、基于欧几里得距离的相似度计算

　　　　　　　　欧几里得，是三维空间中两个点的真实距离。

　　　　　　　　欧几里得相似度计算是一种基于用户之间直线距离的计算方式。在相似度计算中，不同的物品或者用户可以将其定义为不同的坐标点，而特定目标定位为坐标原点。

　　　　　　　　在实际应用中，常常使用欧几里得距离的倒数作为相似度，即 1/ (d+1) 作为近似值。

　　　　（2）、基于余弦角度的相似度计算　　　　

　　　　　　　　不同的物品或者用户作为不同的坐标点，但不能为坐标原点。

　　其实，还有其他的算法，也可以来相似度度量。

基于欧几里得距离的相似度计算和基于余弦角度的相似度计算的区别

　　欧几里得相似度是以目标绝对距离作为衡量的标准，余弦相似度以目标差异的大小作为衡量标准。

　　欧几里得相似度注重目标之间的差异，与目标在空间中的位置直接相关。余弦相似度是不同目标在空间中的夹角，更加表现在前进趋势上的差异。

　　欧几里得相似度和余弦相似度具有不同的计算方法和描述特征，一般来说，欧几里得相似度用来表现不同目标的绝对差异性，分析目标之间的相似度与差异情况。而余弦相似度更多的是对目标从方向趋势上区分，对特定坐标数字不敏感。

基于余弦相似度计算不同用户之间相似性

　　步骤是：　　

　　（1）输入数据　　

　　（2）建立相似度算法公式

　　（3）计算不同用户之间的相似度

　　 CollaborativeFilteringSpark.scala

package zhouls.bigdata.chapter5import org.apache.spark.{SparkConf, SparkContext}
import scala.collection.mutable.Mapobject CollaborativeFilteringSpark {val conf = new SparkConf().setMaster("local").setAppName("CollaborativeFilteringSpark ")    //设置环境变量val sc = new SparkContext(conf)                                 //实例化环境val users = sc.parallelize(Array("aaa","bbb","ccc","ddd","eee"))       //设置用户val films = sc.parallelize(Array("smzdm","ylxb","znh","nhsc","fcwr"))    //设置电影名
   val source = Map[String,Map[String,Int]]()                //使用一个source嵌套map作为姓名电影名和分值的存储val filmSource = Map[String,Int]()                     //设置一个用以存放电影分的mapdef getSource(): Map[String,Map[String,Int]] = {            //设置电影评分val user1FilmSource = Map("smzdm" -> 2,"ylxb" -> 3,"znh" -> 1,"nhsc" -> 0,"fcwr" -> 1)val user2FilmSource = Map("smzdm" -> 1,"ylxb" -> 2,"znh" -> 2,"nhsc" -> 1,"fcwr" -> 4)val user3FilmSource = Map("smzdm" -> 2,"ylxb" -> 1,"znh" -> 0,"nhsc" -> 1,"fcwr" -> 4)val user4FilmSource = Map("smzdm" -> 3,"ylxb" -> 2,"znh" -> 0,"nhsc" -> 5,"fcwr" -> 3)val user5FilmSource = Map("smzdm" -> 5,"ylxb" -> 3,"znh" -> 1,"nhsc" -> 1,"fcwr" -> 2)source += ("aaa" -> user1FilmSource)                //对人名进行存储source += ("bbb" -> user2FilmSource)                 //对人名进行存储source += ("ccc" -> user3FilmSource)                 //对人名进行存储source += ("ddd" -> user4FilmSource)                 //对人名进行存储source += ("eee" -> user5FilmSource)                 //对人名进行存储source                                        //返回嵌套map
   }//两两计算分值,采用余弦相似性def getCollaborateSource(user1:String,user2:String):Double = {val user1FilmSource = source.get(user1).get.values.toVector        //获得第1个用户的评分val user2FilmSource = source.get(user2).get.values.toVector        //获得第2个用户的评分val member = user1FilmSource.zip(user2FilmSource).map(d => d._1 * d._2).reduce(_ + _).toDouble            //对公式分子部分进行计算val temp1  = math.sqrt(user1FilmSource.map(num => {            //求出分母第1个变量值math.pow(num,2)                                        //数学计算          }).reduce(_ + _))                                        //进行叠加val temp2  = math.sqrt(user2FilmSource.map(num => {            ////求出分母第2个变量值math.pow(num,2)                                     //数学计算}).reduce(_ + _))                                        //进行叠加val denominator = temp1 * temp2                            //求出分母member / denominator                                    //进行计算
}def main(args: Array[String]) {getSource()                                            //初始化分数val name = "bbb"                                        //设定目标对象users.foreach(user =>{                                    //迭代进行计算println(name + " 相对于 " + user +"的相似性分数是："+ getCollaborateSource(name,user))})}}

bbb 相对于 aaa的相似性分数是：0.7089175569585667
bbb 相对于 bbb的相似性分数是：1.0000000000000002
bbb 相对于 ccc的相似性分数是：0.8780541105074453
bbb 相对于 ddd的相似性分数是：0.6865554812287477
bbb 相对于 eee的相似性分数是：0.6821910402406466

　　当然，这里大家也可以进一步修改程序。

　　CollaborativeFilteringSpark.scala

package zhouls.bigdata.chapter5import org.apache.spark.{SparkConf, SparkContext}
import scala.collection.mutable.Mapobject CollaborativeFilteringSpark {val conf = new SparkConf().setMaster("local").setAppName("CollaborativeFilteringSpark ")    //设置环境变量val sc = new SparkContext(conf)                                 //实例化环境val users = sc.parallelize(Array("aaa","bbb","ccc","ddd","eee"))       //设置用户val films = sc.parallelize(Array("smzdm","ylxb","znh","nhsc","fcwr"))    //设置电影名
   val source = Map[String,Map[String,Int]]()                //使用一个source嵌套map作为姓名电影名和分值的存储val filmSource = Map[String,Int]()                     //设置一个用以存放电影分的mapdef getSource(): Map[String,Map[String,Int]] = {            //设置电影评分val user1FilmSource = Map("smzdm" -> 2,"ylxb" -> 3,"znh" -> 1,"nhsc" -> 0,"fcwr" -> 1)val user2FilmSource = Map("smzdm" -> 1,"ylxb" -> 2,"znh" -> 2,"nhsc" -> 1,"fcwr" -> 4)val user3FilmSource = Map("smzdm" -> 2,"ylxb" -> 1,"znh" -> 0,"nhsc" -> 1,"fcwr" -> 4)val user4FilmSource = Map("smzdm" -> 3,"ylxb" -> 2,"znh" -> 0,"nhsc" -> 5,"fcwr" -> 3)val user5FilmSource = Map("smzdm" -> 5,"ylxb" -> 3,"znh" -> 1,"nhsc" -> 1,"fcwr" -> 2)source += ("aaa" -> user1FilmSource)                //对人名进行存储source += ("bbb" -> user2FilmSource)                 //对人名进行存储source += ("ccc" -> user3FilmSource)                 //对人名进行存储source += ("ddd" -> user4FilmSource)                 //对人名进行存储source += ("eee" -> user5FilmSource)                 //对人名进行存储source                                        //返回嵌套map
   }//两两计算分值,采用余弦相似性def getCollaborateSource(user1:String,user2:String):Double = {val user1FilmSource = source.get(user1).get.values.toVector        //获得第1个用户的评分val user2FilmSource = source.get(user2).get.values.toVector        //获得第2个用户的评分val member = user1FilmSource.zip(user2FilmSource).map(d => d._1 * d._2).reduce(_ + _).toDouble            //对公式分子部分进行计算val temp1  = math.sqrt(user1FilmSource.map(num => {            //求出分母第1个变量值math.pow(num,2)                                        //数学计算          }).reduce(_ + _))                                        //进行叠加val temp2  = math.sqrt(user2FilmSource.map(num => {            ////求出分母第2个变量值math.pow(num,2)                                     //数学计算}).reduce(_ + _))                                        //进行叠加val denominator = temp1 * temp2                            //求出分母member / denominator                                    //进行计算
}def main(args: Array[String]) {getSource()                                            //初始化分数var name = "bbb"                                        //设定目标对象users.foreach(user =>{                                    //迭代进行计算println(name + " 相对于 " + user +"的相似性分数是："+ getCollaborateSource(name,user))})println()name = "aaa"     users.foreach(user => {//迭代进行计算println(name + " 相对于 " + user + "的相似性分数是：" + getCollaborateSource(name, user))})}}

　　或者，也可以写下程序，如下

UserSimilar.scala

package zhouls.bigdataimport org.apache.log4j.{Level, Logger}
import org.apache.spark.{SparkContext, SparkConf}
import scala.collection.mutable.Map

object UserSimilar {//屏蔽不必要的日志显示在终端上Logger.getLogger("org.apache.spark").setLevel(Level.WARN)Logger.getLogger("org.apache.eclipse.jetty.server").setLevel(Level.OFF)//程序入口val conf = new SparkConf().setMaster("local[1]").setAppName(this.getClass().getSimpleName().filter(!_.equals('$')))println(this.getClass().getSimpleName().filter(!_.equals('$')))val sc = new SparkContext(conf)//设置用户名val users = sc.parallelize(Array("张三", "李四", "王五", "赵六", "阿七"))//设置电影名val films = sc.parallelize(Array("逆战", "人间", "鬼屋", "西游记", "雪豹"))//使用一个source嵌套map作为姓名电影名和分值的存储val source = Map[String, Map[String, Int]]()//设置一个用以存放电影分的mapval filmSource = Map[String, Int]()def getSource(): Map[String, Map[String, Int]] = {//设置电影评分val user1FilmSource = Map("逆战" -> 2, "人间" -> 3, "鬼屋" -> 1, "西游记" -> 0, "雪豹" -> 1)val user2FilmSource = Map("逆战" -> 1, "人间" -> 2, "鬼屋" -> 2, "西游记" -> 1, "雪豹" -> 4)val user3FilmSource = Map("逆战" -> 2, "人间" -> 1, "鬼屋" -> 0, "西游记" -> 1, "雪豹" -> 4)val user4FilmSource = Map("逆战" -> 3, "人间" -> 2, "鬼屋" -> 0, "西游记" -> 5, "雪豹" -> 3)val user5FilmSource = Map("逆战" -> 5, "人间" -> 3, "鬼屋" -> 1, "西游记" -> 1, "雪豹" -> 2)//对人名进行储存source += ("张三" -> user1FilmSource)source += ("李四" -> user2FilmSource)source += ("王五" -> user3FilmSource)source += ("赵六" -> user4FilmSource)source += ("阿七" -> user5FilmSource)//返回嵌套map
    source}//两两计算分值，采用余弦相似性def getCollaborateSource(user1: String, user2: String): Double = {//获得1，2两个用户的评分val user1FilmSource = source.get(user1).get.values.toVectorval user2FilmSource = source.get(user2).get.values.toVector//对公式部分分子进行计算val member = user1FilmSource.zip(user2FilmSource).map(d => d._1 * d._2).reduce(_ + _).toDouble//求出分母第一个变量值val temp1 = math.sqrt(user1FilmSource.map(num => {math.pow(num, 2)}).reduce(_ + _))//求出分母第二个变量值val temp2 = math.sqrt(user2FilmSource.map(num => {math.pow(num, 2)}).reduce(_ + _))//求出分母val denominator = temp1 * temp2//进行计算member / denominator}def main(args: Array[String]) {//初始化分数
    getSource()val name1 = "张三"val name2 = "李四"val name3 = "王五"val name4 = "赵六"val name5 = "阿七"users.foreach(user => {println(name1 + " 相对于 " + user + " 的相似性分数是 " + getCollaborateSource(name1, user) )})println("--------------------------------------------------------------------------")users.foreach(user => {println(name2 + " 相对于 " + user + " 的相似性分数是 " + getCollaborateSource(name2, user) )})println("--------------------------------------------------------------------------")users.foreach(user => {println(name3 + " 相对于 " + user + " 的相似性分数是 " + getCollaborateSource(name3, user) )})println("--------------------------------------------------------------------------")users.foreach(user => {println(name4 + " 相对于 " + user + " 的相似性分数是 " + getCollaborateSource(name4, user) )})println("--------------------------------------------------------------------------")users.foreach(user => {println(name5 + " 相对于 " + user + " 的相似性分数是 " + getCollaborateSource(name5, user) )})}}

　　结果是

"C:\Program Files\Java\jdk1.8.0_77\bin\java" -Didea.launcher.port=7534 "-Didea.launcher.bin.path=D:\Program Files (x86)\JetBrains\IntelliJ IDEA 15.0.5\bin" -Dfile.encoding=UTF-8 -classpath "C:\Program Files\Java\jdk1.8.0_77\jre\lib\charsets.jar;C:\Program Files\Java\jdk1.8.0_77\jre\lib\deploy.jar;C:\Program Files\Java\jdk1.8.0_77\jre\lib\ext\access-bridge-64.jar;C:\Program Files\Java\jdk1.8.0_77\jre\lib\ext\cldrdata.jar;C:\Program Files\Java\jdk1.8.0_77\jre\lib\ext\dnsns.jar;C:\Program Files\Java\jdk1.8.0_77\jre\lib\ext\jaccess.jar;C:\Program Files\Java\jdk1.8.0_77\jre\lib\ext\jfxrt.jar;C:\Program Files\Java\jdk1.8.0_77\jre\lib\ext\localedata.jar;C:\Program Files\Java\jdk1.8.0_77\jre\lib\ext\nashorn.jar;C:\Program Files\Java\jdk1.8.0_77\jre\lib\ext\sunec.jar;C:\Program Files\Java\jdk1.8.0_77\jre\lib\ext\sunjce_provider.jar;C:\Program Files\Java\jdk1.8.0_77\jre\lib\ext\sunmscapi.jar;C:\Program Files\Java\jdk1.8.0_77\jre\lib\ext\sunpkcs11.jar;C:\Program Files\Java\jdk1.8.0_77\jre\lib\ext\zipfs.jar;C:\Program Files\Java\jdk1.8.0_77\jre\lib\javaws.jar;C:\Program Files\Java\jdk1.8.0_77\jre\lib\jce.jar;C:\Program Files\Java\jdk1.8.0_77\jre\lib\jfr.jar;C:\Program Files\Java\jdk1.8.0_77\jre\lib\jfxswt.jar;C:\Program Files\Java\jdk1.8.0_77\jre\lib\jsse.jar;C:\Program Files\Java\jdk1.8.0_77\jre\lib\management-agent.jar;C:\Program Files\Java\jdk1.8.0_77\jre\lib\plugin.jar;C:\Program Files\Java\jdk1.8.0_77\jre\lib\resources.jar;C:\Program Files\Java\jdk1.8.0_77\jre\lib\rt.jar;G:\location\spark-mllib\out\production\spark-mllib;C:\Program Files (x86)\scala\lib\scala-actors-migration.jar;C:\Program Files (x86)\scala\lib\scala-actors.jar;C:\Program Files (x86)\scala\lib\scala-library.jar;C:\Program Files (x86)\scala\lib\scala-reflect.jar;C:\Program Files (x86)\scala\lib\scala-swing.jar;G:\home\download\spark-1.6.1-bin-hadoop2.6\lib\datanucleus-api-jdo-3.2.6.jar;G:\home\download\spark-1.6.1-bin-hadoop2.6\lib\datanucleus-core-3.2.10.jar;G:\home\download\spark-1.6.1-bin-hadoop2.6\lib\datanucleus-rdbms-3.2.9.jar;G:\home\download\spark-1.6.1-bin-hadoop2.6\lib\spark-1.6.1-yarn-shuffle.jar;G:\home\download\spark-1.6.1-bin-hadoop2.6\lib\spark-assembly-1.6.1-hadoop2.6.0.jar;G:\home\download\spark-1.6.1-bin-hadoop2.6\lib\spark-examples-1.6.1-hadoop2.6.0.jar;D:\Program Files (x86)\JetBrains\IntelliJ IDEA 15.0.5\lib\idea_rt.jar" com.intellij.rt.execution.application.AppMain mllib.CollaborativeFilteringSpark
CollaborativeFilteringSpark
Using Spark's default log4j profile: org/apache/spark/log4j-defaults.properties
SLF4J: Class path contains multiple SLF4J bindings.
SLF4J: Found binding in [jar:file:/G:/home/download/spark-1.6.1-bin-hadoop2.6/lib/spark-assembly-1.6.1-hadoop2.6.0.jar!/org/slf4j/impl/StaticLoggerBinder.class]
SLF4J: Found binding in [jar:file:/G:/home/download/spark-1.6.1-bin-hadoop2.6/lib/spark-examples-1.6.1-hadoop2.6.0.jar!/org/slf4j/impl/StaticLoggerBinder.class]
SLF4J: See http://www.slf4j.org/codes.html#multiple_bindings for an explanation.
SLF4J: Actual binding is of type [org.slf4j.impl.Log4jLoggerFactory]
16/08/04 20:41:49 INFO Slf4jLogger: Slf4jLogger started
16/08/04 20:41:49 INFO Remoting: Starting remoting
16/08/04 20:41:49 INFO Remoting: Remoting started; listening on addresses :[akka.tcp://sparkDriverActorSystem@192.168.1.100:8380]
张三 相对于 张三 的相似性分数是 0.9999999999999999
张三 相对于 李四 的相似性分数是 0.7089175569585667
张三 相对于 王五 的相似性分数是 0.6055300708194983
张三 相对于 赵六 的相似性分数是 0.564932682866032
张三 相对于 阿七 的相似性分数是 0.8981462390204985
--------------------------------------------------------------------------
李四 相对于 张三 的相似性分数是 0.7089175569585667
李四 相对于 李四 的相似性分数是 1.0000000000000002
李四 相对于 王五 的相似性分数是 0.8780541105074453
李四 相对于 赵六 的相似性分数是 0.6865554812287477
李四 相对于 阿七 的相似性分数是 0.6821910402406466
--------------------------------------------------------------------------
王五 相对于 张三 的相似性分数是 0.6055300708194983
王五 相对于 李四 的相似性分数是 0.8780541105074453
王五 相对于 王五 的相似性分数是 1.0
王五 相对于 赵六 的相似性分数是 0.7774630169639036
王五 相对于 阿七 的相似性分数是 0.7416198487095662
--------------------------------------------------------------------------
赵六 相对于 张三 的相似性分数是 0.564932682866032
赵六 相对于 李四 的相似性分数是 0.6865554812287477
赵六 相对于 王五 的相似性分数是 0.7774630169639036
赵六 相对于 赵六 的相似性分数是 1.0
赵六 相对于 阿七 的相似性分数是 0.738024966423108
--------------------------------------------------------------------------
阿七 相对于 张三 的相似性分数是 0.8981462390204985
阿七 相对于 李四 的相似性分数是 0.6821910402406466
阿七 相对于 王五 的相似性分数是 0.7416198487095662
阿七 相对于 赵六 的相似性分数是 0.738024966423108
阿七 相对于 阿七 的相似性分数是 0.9999999999999998
16/08/04 20:41:51 INFO RemoteActorRefProvider$RemotingTerminator: Shutting down remote daemon.  Process finished with exit code 0

转载于:https://www.cnblogs.com/zlslch/p/7477146.html

Spark Mllib里相似度度量（基于余弦相似度计算不同用户之间相似性）（图文详解）...相关推荐

Windows系统里Oracle 11g R2 Client（64bit）的下载与安装（图文详解）
1.全网最详细的Windows系统里Oracle 11g R2 Client(64bit)的下载与安装(图文详解) 方法地址:https://www.cnblogs.com/zlslch/p/9273 ...
Spark Mllib里的如何对单个数据集用斯皮尔曼计算相关系数
不多说,直接上干货! import org.apache.spark.mllib.stat.Statistics 具体,见 Spark Mllib机器学习实战的第4章 Mllib基本数据类型和Mlli ...
CentOS系统里如何正确取消或者延长屏幕保护自动锁屏功能（图文详解）
不多说,直接上干货! 对于我这里想说的是,分别从CentOS6.X 和 CentOS7.X来谈及. 1. 问题:默认启动屏幕保护问题描述: CentOS系统在用户闲置一段时间(默认为5分钟)后, ...
基于windows子系统WSL2搭建openharmony开发环境（图文详解）
WSL(Windows Subsystem for Linux)是Microsoft弄出来的windows下的linux子系统,主要目的也就是为了给开发者提供便利,抢占macOs的市场.想必大家对它都 ...
php html5日期插件,基于jQuery和HTML5的日历时钟插件的图文详解
jQuery是一个当前依然非常流行的Web前端JavaScript框架,这次我们要分享的就是基于jQuery的日历时钟插件,部分日历插件还是基于HTML5技术实现的,因此动画效果都还不错.有兴趣的朋友 ...
Snort里如何将读取的包记录存到指定的目录下（图文详解）
不多说,直接上干货! 比如,在/root/log目录下. [root@datatest ~]# snort -dve -l /root/log 需要注意: 1) /log目录需要你自己建立,并修改权限 ...
全网最全的Windows下Anaconda2 / Anaconda3里正确下载安装爬虫框架Scrapy（离线方式和在线方式）（图文详解）...
不多说,直接上干货! 参考博客全网最全的Windows下Anaconda2 / Anaconda3里正确下载安装OpenCV(离线方式和在线方式)(图文详解) 第一步:首先,提示升级下pip 第二步 ...
基于余弦相似度的改进蝴蝶优化算法
文章目录一.理论基础 1.蝴蝶优化算法 2.改进蝴蝶优化算法 (1)基于余弦相似度位置更新策略 (2)根据适应度动态调整转换概率策略 (3)自适应混合惯性权重二.MSBOA算法步骤三.仿真实验与 ...
Spark Mllib里的分布式矩阵（行矩阵、带有行索引的行矩阵、坐标矩阵和块矩阵概念、构成）（图文详解）...
不多说,直接上干货! Distributed matrix : 分布式矩阵一般能采用分布式矩阵,说明这数据存储下来,量还是有一定的.在Spark Mllib里,提供了四种分布式矩阵存储形式,均由支持 ...
【推荐系统-＞相似度算法】余弦相似度
转自相似度算法之余弦相似度余弦距离,也称为余弦相似度,是用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小的度量. 余弦值越接近1,就表明夹角越接近0度,也就是两个向量越相似,这就叫&qu ...

Spark Mllib里相似度度量（基于余弦相似度计算不同用户之间相似性）（图文详解）...

Spark Mllib里相似度度量（基于余弦相似度计算不同用户之间相似性）（图文详解）...相关推荐

最新文章

热门文章