python 埋点_scala spark 埋点统计_spark—1:WordCount（Python与Scala对照）

spark是一种基于rdd的弹性分布式数据集的计算框架软件。

官方提供scala接口，Python接口，以及java接口。

这里提供scala和Python的两种版本的对照代码，会持续更新下去。

欢迎关注。

scala版本

package com.chen.spark

import org.apache.spark.SparkConf

import org.apache.spark.SparkContext

object WordCount {

def main(args : Array[String]) : Unit = {

// 获取sc

val sparkConf = new SparkConf().setAppName("wordcount").setMaster("local")

val sc = new SparkContext(sparkConf)

val data = sc.textFile("hdfs://localhost:9000/user/datatest/word.txt", 1)

// 读取hdfs 文件，1为最小并行度，读hdfs和hive表有默认值，一般读本地文件才设置

// 词频统计的主函数

val dataRDD = data.flatMap(line => line.split(" "))

.map(word => (word, 1))

.reduceByKey(_ + _)

dataRDD.foreach(word => println(word._1 + ":" + word._2))

sc.stop()

}

python

# -*- coding:UTF-8 _*__init_

from pyspark import SparkConf

from pyspark import SparkContext

def CreateSparkContext():

sparkConf = SparkConf().setAppName("wordcont_py").set("spark.ui.showConsoleProgress", "false")

sc = SparkContext(conf = sparkConf) # 不同于scala，这里必须指定conf来传参

print("master =" + sc.master)

return sc

if __name__ == "__main__":

print("开始执行词频统计")

sc = CreateSparkContext()

data = sc.textFile("hdfs://localhost:9000/user/datatest/word.txt")

dataRDD = data.flatMap(lambda line : line.split(" "))

.map(lambda word : (word, 1))

.reduceByKey(lambda x, y : x + y)

# 执行动作算子，返回list嵌套tuple类型

data_list = dataRDD.collect()

print("词频统计结果")

# 不同于scala Python版本的foreach无法执行print

for i in data_list:

print(str(i[0]) + ":" + str(i[1]))

sc.stop()

scala输出结果

Python输出结果

python 埋点_scala spark 埋点统计_spark—1:WordCount（Python与Scala对照）相关推荐

scala spark 埋点统计_spark—1:WordCount（Python与Scala对照）
spark是一种基于rdd的弹性分布式数据集的计算框架软件. 官方提供scala接口,Python接口,以及java接口. 这里提供scala和Python的两种版本的对照代码,会持续更新下去. 欢迎 ...
python接收输入的一行字符只统计数字的个数,Python（统计字符）,python实例,输入一行字符，分别统计出其中英文字母、空格、数字和其它字符的个数...
Python(统计字符),python实例,输入一行字符,分别统计出其中英文字母.空格.数字和其它字符的个数题目:输入一行字符,分别统计出其中英文字母.空格.数字和其它字符的个数. 程序分析:利用 ...
python查看物理内存和交换区的统计信息_使用python获取CPU和内存信息的思路与实现(linux系统)...
linux里一切皆为文件,在linux/unix的根文件夹下,有个/proc文件夹,这个/proc 是一种内核和内核模块用来向进程(process)发送信息的机制(所以叫做"/proc&qu ...
python 埋点_数据埋点方案简述
数据是机器学习的前提,前面使用Python爬虫抓取数据篇介绍了通过爬虫抓取网页的方式采集数据.对于新产品,最重要的事项是获取用户,参看前面互联网产品怎么发掘种子用户和意见领袖这篇. 在产品上线之后, ...
python埋点测试_埋点进化论：从埋点到无埋点
鲁迅先生说:世界上本没有埋点,需要数据的人多了,也就有了埋点. 埋点的诞生在最初的互联网世界中,并没有埋点的概念.大家并不关心流量从哪里来,用户在网站上做了什么事,一切都是野蛮生长. 随着业务的增长 ...
Python技术栈与Spark交叉数据分析双向整合技术实战--大数据ML样本集案例实战
版权声明:本套技术专栏是作者(秦凯新)平时工作的总结和升华,通过从真实商业环境抽取案例进行总结和分享,并给出商业应用的调优建议和集群环境容量规划等内容,请持续关注本套博客.QQ邮箱地址:1120746 ...
ios无痕埋点_iOS可视化埋点方案
前言随着公司业务的发展,数据的重要性日益体现出来. 数据埋点的准确和全面性显得尤为重要. 通过精准和详细的数据,后面的分析才有意义.随着业务的不断变化,动态化埋点也越来越重要. 三大埋点方式为了解 ...
代码埋点、可视化埋点、无埋点几种数据埋点方案的分析报告
目录数据采集的核心问题一.埋点是什么二.为什么要埋点三.埋点有哪些方式四.各埋点方式优劣对比五.其他在这篇文章里面,我们会对数据采集的一些基本概念进行阐述,然后,会针对目前市面上新增的一 ...
《Spark实时词频统计处理系统》
------此项目整理自<Spark Streaming 实时流式大数据处理实战>肖力涛第8章实 ...

python 埋点_scala spark 埋点统计_spark—1:WordCount（Python与Scala对照）

python 埋点_scala spark 埋点统计_spark—1:WordCount（Python与Scala对照）相关推荐

最新文章

热门文章