Spark Python 索引页

[Spark][Python]sortByKey 例子 的继续:

[Spark][Python]groupByKey例子

In [29]: mydata003.collect()

Out[29]:
[[u'00001', u'sku933'],
[u'00001', u'sku022'],
[u'00001', u'sku912'],
[u'00001', u'sku331'],
[u'00002', u'sku010'],
[u'00003', u'sku888'],
[u'00004', u'sku411']]

In [30]: mydata005=mydata003.groupByKey()

In [32]: mydata005.count()
Out[32]: 4

In [33]: mydata005.collect()
Out[33]:
[(u'00004', <pyspark.resultiterable.ResultIterable at 0x7fcebe436b10>),
(u'00001', <pyspark.resultiterable.ResultIterable at 0x7fcebe436850>),
(u'00003', <pyspark.resultiterable.ResultIterable at 0x7fcebe436050>),
(u'00002', <pyspark.resultiterable.ResultIterable at 0x7fcebe4361d0>)]

那么,对于这种:

(00004,sku411)
(00003,sku888)
(00003,sku022)
(00003,sku010)
(00003,sku594)
(00002,sku912)

理论上变成了这样形式的:

(00002,[sku912,sku331])
(00001,[sku022,sku010,sku933])
(00003,[sku888,sku022,sku010,sku594])
(00004,[sku411])

我们如何把它们都打印输出成如下的格式,我考虑需要用到函数,然后对RDD的每行的Value,看作list,再来遍历。
(等待下次编写)

00002
sku912
sku331

00001
sku022
sku010
sku933

00003
sku088
sku022
sku022
sku010
sku594

00004
sku411

Spark Python 索引页

[Spark][Python]groupByKey例子相关推荐

  1. [Spark][Python]sortByKey 例子

    [Spark][Python]sortByKey 例子: [training@localhost ~]$ hdfs dfs -cat test02.txt 00002 sku010 00001 sku ...

  2. [Spark][Python]Spark 访问 mysql , 生成 dataframe 的例子:

    [Spark][Python]Spark 访问 mysql , 生成 dataframe 的例子: mydf001=sqlContext.read.format("jdbc").o ...

  3. python数据框的横向贾总_[Spark][Python]DataFrame的左右连接例子

    [Spark][Python]DataFrame的左右连接例子 $ hdfs dfs -cat people.json {"name":"Alice",&quo ...

  4. spark to mysql date_[Spark][Python]Spark 访问 mysql , 生成 dataframe 的例子:

    [Spark][Python]Spark 访问 mysql , 生成 dataframe 的例子: mydf001=sqlContext.read.format("jdbc").o ...

  5. Spark+Python函数总结

    Spark+Python函数总结 整理自: https://www.cnblogs.com/yangzhang-home/p/6058076.html https://blog.csdn.net/na ...

  6. spark streaming 入门例子

    spark streaming 入门例子: spark shell import org.apache.spark._ import org.apache.spark.streaming._sc.ge ...

  7. spark机器学习笔记:(五)用Spark Python构建分类模型(下)

    声明:版权所有,转载请联系作者并注明出处  http://blog.csdn.net/u013719780?viewmode=contents 博主简介:风雪夜归子(英文名:Allen),机器学习算法 ...

  8. ​【Python基础】告别枯燥,60 秒学会一个 Python 小例子(文末下载)

    本文推荐一个python的傻瓜式的学习资源,内容简单易懂,让人可以在60 秒学会一个 Python 小例子 当前库已有 300多 个实用的小例子 本文来源:https://github.com/jac ...

  9. 告别刷抖音!30秒一个Python小例子,总有一款适合你

    小编每天上班坐地铁,不是刷抖音就是煲电视剧,不是我不想学习,主要是短视频太好看了,30秒一个,刷刷刷的不停啊.如果Python也有30秒学习的小例子,我也一定会看呢. 于是小编收录整理了一些30秒一个 ...

最新文章

  1. 微信架构 支付架构(下)
  2. docker 基本操作Ⅲ
  3. “std::invoke”: 未找到匹配的重载函数
  4. ServletConfig接口
  5. nyoj-257-郁闷的C小加(一 )中缀式变后缀式
  6. 如何使用腾讯云提供的虚拟主机
  7. python utc 时间
  8. windows服务器迁到_Windows Server 2008 R2 DNS 服务器迁移方法
  9. 终于有人把正态分布和二八法则讲明白了
  10. python文件读写方法手机,python文本文件读写的3种方法
  11. mysql用户创建、授权
  12. python实验九答案_Python程序设计实验报告:实验九 python 包管理
  13. dnfdpl服务器维护了,梦想开始的地方丨山东沙排女将王鑫鑫奥运首秀止步八强 怕影响训练父母没来济南探望过...
  14. HTML中abbr标记,HTML abbr标记
  15. (真实经验)我干了5年的JAVA面试官,发现很多求职者都忽略这七大方面的问题!
  16. 如何通便清肠快速见效_如何排毒清肠通便
  17. 三维数组matlab怎么画图,三维数组画图遇到问题
  18. 因涉政内容导致域名被封禁
  19. 2018 11.1 PION 模拟赛
  20. 【二叉树】515. 在每个树行中找最大值

热门文章

  1. Redis总结(四)Redis 的持久化
  2. EXCEL中提取某行最后一个有效单元格数据
  3. Socket模型详解
  4. [Z]建國中學 2012 年資訊科培訓網站
  5. Win2003_IIS6服务器设置排错解答
  6. 关于Socket和IOCP的一些值得注意的地方
  7. MySQL各种类型实验
  8. Python 学习笔记(2)字典默认值和集合的操作
  9. 正则实现二代身份证号码验证详解
  10. 爬虫批量下载全站小说并自动保存