最近发现一个很好玩的Python库,可以方便的使用在Python下编写MapReduce任务,直接使用Hadoop Streaming在Hadoop上跑。对于一般的Hadoop而言,如果任务需要大量的IO相关操作(如数据库查询、文件读写等),使用Python还是Java、C++,性能差别不大,而如果需要大量的数据运算,那可能Python会慢很多(语言级别上的慢),参考这里。

最常见的如日志分析、Query统计等,都可以直接用Python快速完成。

Python作为一种快速开发语言,优美、简洁的语法征服了很多人,现在很多的机器学习程序最初都是跑在Python上的(如知乎的推荐引擎),只有当规模大到一定程度才会转移到C或Java上。

本文会通过一个简单的电影推荐系统来介绍如何使用MrJOB。

首先,可能很多人对性能格外在意,可以先看这篇文章:

MrJOB的精简介绍

这里重点在于实现电影推荐的系统,所以对于MrJob本身的介绍会比较简略,够用即可,详细说明可以看官方文档。

首先,在Python中安装mrjob后,最基本的MapReduce任务很简单:

Python

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

frommrjob.jobimportMRJob

importre

WORD_RE=re.compile(r"[\w']+")

classMRWordFreqCount(MRJob):

defmapper(self,_,line):

forwordinWORD_RE.findall(line):

yieldword.lower(),1

defcombiner(self,word,counts):

yieldword,sum(counts)

defreducer(self,word,counts):

yieldword,sum(counts)

if__name__=='__main__':

MRWordFreqCount.run()

上面的代码中,有三个函数,mapper、combiner、reducer,作用和普通的Java版本相同:

mapper用来接收每一行的数据输入,对其进行处理返回一个key-value对;

combiner接收mapper输出的key-value对进行整合,把相同key的value作为数组输入处理后输出;

reducer和combiner的作用完全相同,不同之处在于combiner是对于单个mapper进行处理,而reducer是对整个任务(可能有很多mapper在执行)的key-value进行处理。它以各个combiner的输出作为输入。

更为详细的介绍,如分步任务、数据初始化等可以参考其这份官方文档。

电影推荐系统

假设我们现在有一个影视网站,每一个用户可以给电影评1到5分,现在我们需要计算每两个电影之间的相似度,其过程是:

对于任一电影A和B,我们能找出所有同时为A和B评分过的人;

根据这些人的评分,构建一个基于电影A的向量和一个基于电影B的向量;

根据这两个向量计算他们之间的相似度;

当有用户看过一部电影之后,我们给他推荐与之相似度最高的另一部电影;

你可以从这里下载一些开源的电影评分数据,我们使用的是1000个用户对1700部电影进行的100000万个评分数据,下载后的数据文件夹包含一个README,里面有对各个文件的详细介绍,鉴于我们只需要(user|movie|rating)数据,所以我们用Python把这些数据进行一些处理:

Python

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

#!/usr/python/env python

if__name__=='__main__':

user_items=[]

items=[]

withopen('u.data')asf:

forlineinf:

user_items.append(line.split('\t'))

withopen('u.item')asf:

forlineinf:

items.append(line.split('|'))

print'user_items[0] = ',user_items[0]

print'items[0] = ',items[0]

items_hash={}

foriinitems:

items_hash[i[0]]=i[1]

print'items_hash[1] = ',items_hash['1']

foruiinuser_items:

ui[1]=items_hash[ui[1]]

print'user_items[0] = ',user_items[0]

withopen('ratings.csv','w')asf:

foruiinuser_items:

f.write(ui[0]+'|'+ui[1]+'|'+ui[2]+'\n')

处理后的数据类大约似于这样:

YAML

1

2

3

4

5

6

7

8

9

196|Kolya(1996)|3

186|L.A.Confidential(1997)|3

22|Heavyweights(1994)|1

244|LegendsoftheFall(1994)|2

166|JackieBrown(1997)|1

298|Dr.Strangeloveor: How I Learned to Stop Worrying and Love the Bomb (1963)|4

115|HuntforRedOctober,The(1990)|2

253|JungleBook,The(1994)|5

305|Grease(1978)|3

皮尔逊相关系数

判断两个向量的相似度的方式有很多种,比如测量其欧氏距离、海明距离等,这里我们用皮尔逊相关系数来计算器相关性,该系数可以理解为两个向量之间夹角的余弦值,介于-1到1之间,绝对值越大相关性越强,公式为:

第一步,我们首先对把每个用户的所有评分聚合到一起,代码如下:

Python

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

32

33

34

35

36

37

38

39

40

41

#!/usr/bin/env python

# coding=utf-8

frommrjob.jobimportMRJob

classStep1(MRJob):

"""

第一步是聚合单个用户的下的所有评分数据

格式为:user_id, (item_count, rating_sum, [(item_id,rating)...])

"""

defgroup_by_user_rating(self,key,line):

"""

该mapper输出为:

17 70,3

35 21,1

49 19,2

49 21,1

"""

user_id,item_id,rating=line.split('|')

yielduser_id,(item_id,float(rating))

defcount_ratings_users_freq(self,user_id,values):

"""

该reducer输出为:

49 (3,7,[19,2 21,1 70,4])

"""

item_count=0

item_sum=0

final=[]

foritem_id,ratinginvalues:

item_count+=1

item_sum+=rating

final.append((item_id,rating))

yielduser_id,(item_count,item_sum,final)

defsteps(self):

return[self.mr(mapper=self.group_by_user_rating,

reducer=self.count_ratings_users_freq),]

if__name__=='__main__':

Step1.run()

使用命令 $python step1.py ratings.csv > result1.csv获得第一步的结果。

第二步,根据第一步聚合起来的用户评分,按照皮尔逊系数算法获得任一两个电影之间的相关性,代码及注释如下:

Python

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

32

33

34

35

36

37

38

39

40

41

42

43

44

45

46

47

48

49

50

51

52

53

54

55

56

57

58

59

#!/usr/bin/env python

#! coding=utf-8

frommrjob.jobimportMRJob

fromitertoolsimportcombinations

frommathimportsqrt

classStep2(MRJob):

defpairwise_items(self,user_id,values):

'''

本mapper使用step1的输出作为输入,把user_id丢弃掉不再使用

输出结果为 (item_1,item2),(rating_1,rating_2)

这里combinations(iterable,number)的作用是求某个集合的组合,

如combinations([1,2,3,4],2)就是在集合种找出任两个数的组合。

这个mapper是整个任务的性能瓶颈,这是因为combinations函数生成的数据

比较多,这么多的零散数据依次写回磁盘,IO操作过于频繁,可以用写一个

Combiner来紧接着mapper做一些聚合操作(和Reducer相同),由Combiner

把数据写回磁盘,该Combiner也可以用C库来实现,由Python调用。

'''

# 这里由于step1是分开的,把数据dump到文件result1.csv中,所以读取的时候

# 需要按照字符串处理,如果step1和step2在同一个job内完成,则直接可以去掉

# 这一行代码,在同一个job内完成参见steps函数的使用说明。

values=eval(values.split('\t')[1])

item_count,item_sum,ratings=values

foritem1,item2incombinations(ratings,2):

yield(item1[0],item2[0]),(item1[1],item2[1])

defcalculate_similarity(self,pair_key,lines):

'''

(Movie A,Movie B)作为Key,(A rating,B rating)作为该reducer的输入,

每一次输入属于同一个用户,所有当两个key相同时,代表他们两个都看了A和B,所以

按照这些所有都看了A、B的人的评分作为向量,计算A、B的皮尔逊系数。

'''

sum_xx,sum_xy,sum_yy,sum_x,sum_y,n=(0.0,0.0,0.0,0.0,0.0,0)

item_pair,co_ratings=pair_key,lines

item_xname,item_yname=item_pair

foritem_x,item_yinco_ratings:

sum_xx+=item_x*item_x

sum_yy+=item_y*item_y

sum_xy+=item_x*item_y

sum_y+=item_y

sum_x+=item_x

n+=1

similarity=self.normalized_correlation(n,sum_xy,sum_x,sum_y,sum_xx,sum_yy)

yield(item_xname,item_yname),(similarity,n)

defsteps(self):

return[self.mr(mapper=self.pairwise_items,

reducer=self.calculate_similarity),]

defnormalized_correlation(self,n,sum_xy,sum_x,sum_y,sum_xx,sum_yy):

numerator=(n*sum_xy-sum_x*sum_y)

denominator=sqrt(n*sum_xx-sum_x*sum_x)*sqrt(n*sum_yy-sum_y*sum_y)

similarity=numerator/denominator

returnsimilarity

if__name__=='__main__':

Step2.run()

使用命令 $python step2.py result1.csv > result2.csv获得第二步的结果。

获得结果集示例:

[Movie A, Movie B] [similarity, rating count]

Python

1

2

3

4

5

6

7

8

9

10

11

["Star Trek VI: The Undiscovered Country (1991)","Star Trek: Generations (1994)"][0.31762191045234545,93]

["Star Trek VI: The Undiscovered Country (1991)","Star Trek: The Motion Picture (1979)"][0.4632318663542742,96]

["Star Trek VI: The Undiscovered Country (1991)","Star Trek: The Wrath of Khan (1982)"][0.44969297939248015,148]

["Star Trek VI: The Undiscovered Country (1991)","Star Wars (1977)"][0.08625580124837125,151]

["Star Trek VI: The Undiscovered Country (1991)","Stargate (1994)"][0.30431878197511564,94]

["Star Trek VI: The Undiscovered Country (1991)","Stars Fell on Henrietta, The (1995)"][1.0,2]

["Star Trek VI: The Undiscovered Country (1991)","Starship Troopers (1997)"][0.14969005091372395,59]

["Star Trek VI: The Undiscovered Country (1991)","Steal Big, Steal Little (1995)"][0.74535599249993,5]

["Star Trek VI: The Undiscovered Country (1991)","Stealing Beauty (1996)"][-0.4879500364742666,10]

["Star Trek VI: The Undiscovered Country (1991)","Steel (1997)"][1.0,2]

["Star Trek VI: The Undiscovered Country (1991)","Stephen King's The Langoliers (1995)"][-0.11470786693528087,16]

可以看到结果还是具有一定的实际价值的,需要注意的是,Stars Fell on Henrietta, The (1995) 这部电影是1.0,也就是完全相关,但是由于只有两个人同时对他们进行了评价,所以结果并非全都很正确,这里还要考虑多少人进行了评价。

结语

本文的内容来自于参考资料中的博客,博主仅做了整理工作,有任何问题可以和我交流。需要指出的是,类似于本文中的电影推荐仅仅是众多推荐算法中一种,可以说是对物品进行相似度判断,实际上也可以根据用户进行用户相似度判断,相似的用户总是喜欢相同的电影,这在实践中效果更好一点,也更容易根据社交关系进一步挖掘。

参考资料:http://aimotion.blogspot.com.br/2012/08/introduction-to-recommendations-with.html

python实现电影推荐系统_[转]使用Python MrJob的MapReduce实现电影推荐系统相关推荐

  1. [转]使用Python MrJob的MapReduce实现电影推荐系统

    [原文]:http://www.sobuhu.com/archives/567 最近发现一个很好玩的Python库,可以方便的使用在Python下编写MapReduce任务,直接使用Hadoop St ...

  2. python旅游推荐系统_如何用Python搭建一个简单的推荐系统?

    推荐系统的相关知识我们已在前文中提到,在这篇文章中,我们会介绍如何用Python来搭建一个简单的推荐系统. 本文使用的数据集是MovieLens数据集,该数据集由明尼苏达大学的Grouplens研究小 ...

  3. python变量定义大全_详解python变量与数据类型

    这篇文章我们学习 Python 变量与数据类型 变量 变量来源于数学,是计算机语言中能储存计算结果或能表示值抽象概念,变量可以通过变量名访问.在 Python 中 变量命名规定,必须是大小写英文,数字 ...

  4. python积木式编程_实例讲解python函数式编程

    函数式编程是使用一系列函数去解决问题,按照一般编程思维,面对问题时我们的思考方式是"怎么干",而函数函数式编程的思考方式是我要"干什么". 至于函数式编程的特点 ...

  5. python怎么求指数_求指数 python

    softmax用于多分类过程中最后一层,将多个神经元的输出,映射到(0, 1)区间内,可以看成概率来理解,从而来进行多分类! softmax函数如下: 更形象的如下图表示: softmax 直白来说就 ...

  6. python实现数据可视化_使用Matplotib python实现数据可视化

    python实现数据可视化 I Feel: 我觉得: In today's digital world data has become as important as air. Machines &a ...

  7. python视频网站项目_[项目实战] Python Flask构建微电影视频网站

    注:本站源码仅做学术研究,自娱自乐使用,不得用于任何的非法商业用途 由于版权原因.本站将无限期停止微擎模块资源下载如果有任何侵犯您权益的内容请联系小站删除哦.小站一定会积极配合的. 课程目录: (下载 ...

  8. python数据分析相关论文_菜鸟学Python|数据分析精华文章大集合

    原标题:菜鸟学Python|数据分析精华文章大集合 这是菜鸟学Python的第123篇原创文章 Python的数据分析是我比较喜欢的一个方向,因为可以探索数据里面的秘密,加上可视乎会非常漂亮,但是里面 ...

  9. python画动物代码_如何用python画简单的动物_后端开发

    python3.x完全兼容python2.x吗?_后端开发 可以说是完全不兼容.相对于Python的早期版本,Python3是一个较大的升级,为了不带入过多的累赘,Python 3.0在设计的时候没有 ...

最新文章

  1. Unity环境下RTMP推流+RTMP播放低延迟解决方案
  2. 深入以太坊智能合约ABI
  3. 【BZOJ1038】【codevs1412】瞭望塔,半平面交/三分法
  4. 利用Gulp实现JSDoc 3的文档编写过程中的实时解析和效果预览
  5. 搜索引擎中影响索引长度的因素
  6. android车载支持格式视频播放器,Android智能车机必备:十大车载影音应用推荐
  7. win10 cmd切换目录
  8. CentOS 7安装ELK(三):安装logstash
  9. 信息安全的 CIA 三要素
  10. 人人皆可二次元!小姐姐生成不同风格动漫形象,肤色、发型皆可变
  11. element table表格表头显示斜杠/斜线
  12. STM32L051低功耗STOP模式串口中断唤醒
  13. 使用Redis实现整个页面的缓存
  14. ES面试问题和入门资料
  15. WiFi认证是如何保证企业WiFi的安全?
  16. 量子计算 12 量子计算机到底是啥?
  17. 小白需要知道的git命令
  18. 关于 微软必应词典客户端 的案例分析
  19. 魔灯raw视频用MLVapp导出LOG方法
  20. lwIP TCP/IP 协议栈笔记之十九: JPerf 工具测试网速

热门文章

  1. 有关计算机的应用的文章,关于计算机常用软件的论文参考文献 计算机常用软件参考文献有哪些...
  2. opencv基础简洁版(python)一
  3. Python基础(二) | Python的基本数据类型
  4. 四路模拟高清,XS9922B
  5. mysql spilt函数_Mysql实现split函数
  6. 记录一次被植入木马处理
  7. 保健品推荐一(男性篇)
  8. rk3399 android 11.0 使用SoundRecord 开始有杂音
  9. powershell 安装scoop 包管理
  10. 密钥加密技术和数字签名