使用Spark统计从1950到2000年,美国有相同姓名的人出生数目,然后输出头20个最频繁出现的名字

from pyspark import SparkContext
sc = SparkContext('local', 'pyspark')
import os
cwd = os.getcwd()
cwd
'/home/ds/notebooks/CuiZhenlong/qqq'
rdd=sc.parallelize([])
for year in range(1950,2001):rdd_tmp=sc.textFile('file://'+cwd+'/../names/yob'+str(year)+'.txt')rdd=rdd.union(rdd_tmp)
rdd.cache()
print rdd.count()
rdd.take(10)

共90万条记录

900380[u'Linda,F,80431',u'Mary,F,65460',u'Patricia,F,47945',u'Barbara,F,41558',u'Susan,F,38022',u'Nancy,F,29621',u'Deborah,F,29071',u'Sandra,F,28893',u'Carol,F,26159',u'Kathleen,F,25699']
rdd=rdd.map(lambda x:(x.split(',')[0],int(x.split(',')[2]))) \.reduceByKey(lambda x,y:x+y) \.sortBy(lambda (name,count):count,ascending=False)rdd.cache()
#rdd=rdd.map(lambda x :(x.split(',')[0],1)).reduceByKey(lambda x,y:x+y).sortByKey()
rdd.take(50)
[(u'Michael', 3554246),(u'David', 2616412),(u'James', 2604117),(u'John', 2504730),(u'Robert', 2429312),(u'William', 1789899),(u'Christopher', 1739768),(u'Joseph', 1416815),(u'Jennifer', 1392133),(u'Daniel', 1376737),(u'Richard', 1373228),(u'Thomas', 1309885),(u'Mary', 1288907),(u'Matthew', 1263860),(u'Mark', 1232699),(u'Steven', 1122420),(u'Brian', 1059917),(u'Kevin', 1014177),(u'Charles', 1010472),(u'Anthony', 968043),(u'Lisa', 955357),(u'Jessica', 953317),(u'Timothy', 948295),(u'Jeffrey', 908248),(u'Jason', 907598),(u'Joshua', 905464),(u'Andrew', 876333),(u'Linda', 874299),(u'Elizabeth', 866998),(u'Susan', 857636),(u'Patricia', 845134),(u'Paul', 802352),(u'Karen', 777396),(u'Kimberly', 770735),(u'Eric', 769778),(u'Kenneth', 756673),(u'Michelle', 753312),(u'Scott', 735601),(u'Sarah', 719367),(u'Amanda', 717924),(u'Melissa', 709613),(u'Ashley', 708573),(u'Ryan', 706225),(u'Deborah', 686251),(u'Stephanie', 666303),(u'Stephen', 662599),(u'Nicholas', 635905),(u'Gregory', 632826),(u'Jonathan', 628531),(u'Gary', 626982)]

用spark统计50年美国最常见的20个名字相关推荐

  1. 统计系列(二)常见的概率分布

    统计系列(二)常见的概率分布 离散概率分布 伯努利分布 背景:抛一次硬币,正面朝上的概率 定义:一次试验中,只有两种结果,成功(X=1)概率为p,失败(X=0)概率为1-p.定义为伯努利试验. 数学描 ...

  2. 美国计算机专业前20名学校点评

    USNEWS 2003 PhD Program Ranking (Computer Science) 1. Carnegie Mellon University (PA) 4.9 1. Massach ...

  3. 最常见的20种VC++编译错误信息

    最常见的20种VC++编译错误信息 作者: 出处: blog 责任编辑:方舟 1.fatal error C1010: unexpected end of file while looking for ...

  4. 三菱plc pwm指令_西门子PLC常见的20个问题,你碰到过几个?

    西门子PLC占据了全球PLC市场的半壁江山,如今,又在系统集成架构和网络组态上发力,一轮新的抢占和瓜分市场的战役已经拉开序幕,并且愈演愈烈.作为工控行业PLC第一品牌,对其进行多角度全面了解非常有必要 ...

  5. 【算法笔记2.8】完成一个对候选人得票的统计程序。假设有3个候选人,名字分别为Li,Zhang和Fun。使用结构体存储每一个候选人的名字和得票数。记录每一张选票的得票人名,输出每个候选人最终的得票数。

    考点:结构体,字符串 题目:完成一个对候选人得票的统计程序.假设有3个候选人,名字分别为Li,Zhang和Fun.使用结构体存储每一个候选人的名字和得票数.记录每一张选票的得票人名,输出每个候选人最终 ...

  6. 统计中国,美国,世界排名前50的关键词并进行比较

    1 获取中国所有关键词 import pymysql import jsonconn= pymysql.connect(host='localhost',port = 3306,user='root' ...

  7. 【数据分析学习笔记day09】数据分析实战案例:2016美国大选民意调查统计+2016年美国总统大选民意调查数据统计+示例代码1 +示例代码2:

    文章目录 2016年美国大选民意调查数据统计: 示例代码1 : 示例代码2: 2016年美国大选民意调查数据统计: 项目地址:https://www.kaggle.com/fivethirtyeigh ...

  8. spark 统计汉字字数_版面字数和实际字数一样吗

    版面字数和实际字数一样吗?不一样.版面字数,是排版时计算的字数,实际字数是在word中计算的字数,由于计算原则不同,得出了的结果也不同.即版面字数要比实际字数多. 版面字数是一种计算新闻出版物排字数量 ...

  9. 圣母大学应用计算机数学统计,圣母大学(美国)应用、计算数学与统计学本科专业.pdf...

    圣母大学(美国)应用.计算数学与统计学本科专业 留学监理服务网 圣母大学(美国) 应用.计算数学与统计学- Applied and Computational Mathematics and Stat ...

  10. 北极寒流带来《后天》享受(组图)零下50度美国城市成灾区出门都犯法

    美国气象部门6日说,受北极寒流南下影响,美国中部.东部大面积地区本周遭遇近20年来最严寒天气.美国超过30个州发布了寒流预警.极寒带来的暴风雪让美国密歇根州圣约瑟夫的灯塔被冰封,像极了灾难电影< ...

最新文章

  1. Exchange2007/2010全局进出邮件备份设置
  2. 疯狂的程序员-第五章
  3. RMAN之一:快速入门
  4. hands-on Machine Learning with sklearn
  5. 动作类游戏状态机设计
  6. openwabmail问题解决方法
  7. Cocos2d-x--开发参考资料
  8. python自动办公pdf_[Python] 自动化办公 PDF提取文字、表格、图片
  9. 架构名词,涉及的技术
  10. 勒索过苹果的黑客REvil又来了?这次是7000万美元赎金!
  11. JavaScript 工作原理之二-如何在 V8 引擎中书写最优代码的 5 条小技巧(译)
  12. XCODE中,修改苹果APP支持哪些设备
  13. 利用jad 反编译class文件
  14. Android 系统root教程-magisk最新版
  15. /etc/fstab文件的详解
  16. 看看最新的考试 c语言 noip模拟 纯llq原创作品
  17. omf多路径 oracle_OMF下Restore Oracle Datafile的优先级问题
  18. 单片机C语言仿真图,单片机C语言程序设计代码和仿真图.doc
  19. sct分散加载文件格式与应用
  20. 手撸设计模式之-责任链模式

热门文章

  1. SEO 基础知识遇上圣诞节
  2. 中国式家长计算机怎么学,中国式家长开局学习技巧详解 大神教你如何完美开局...
  3. 分割视频的方法有哪些?
  4. 打开计算机左侧的桌面不见了,Win7资源管理器左侧桌面快捷方式不见了怎么办?...
  5. 看到这些网络骗局信息,请千万留个心眼
  6. 自己动手开发编译器(三)有穷自动机
  7. 【OCP】小麦苗OCP(包括11g、12c、18c、19c等)网络班早已开讲,注重实践,报名一次,终身可免费升级学习,推荐有红包...
  8. HTML基础常识问答(二)
  9. 泛微OA-测试机更改sysadmin密码为1
  10. Googler在中国的“幸福”生活