python分析犯罪数据_使用 SparkSQL 分析纽约市犯罪数据

2024-05-31 13:58:25

在实验《使用 SparkSQL 分析纽约市犯罪数据》时候

创建 DataFrame 并注册成表，报错！

sqlContext.createDataFrame(Crimes).registerTempTable("Crimes")

17/11/10 07:55:17 ERROR Executor: Exception in task 0.0 in stage 0.0 (TID 0)

org.apache.spark.api.python.PythonException: Traceback (most recent call last):

File "/opt/spark-1.6.1-bin-hadoop2.6/python/lib/pyspark.zip/pyspark/worker.py", line 111, in main

process()

File "/opt/spark-1.6.1-bin-hadoop2.6/python/lib/pyspark.zip/pyspark/worker.py", line 106, in process

serializer.dump_stream(func(split_index, iterator), outfile)

File "/opt/spark-1.6.1-bin-hadoop2.6/python/lib/pyspark.zip/pyspark/serializers.py", line 263, in dump_stream

vs = list(itertools.islice(iterator, batch))

File "/opt/spark-1.6.1-bin-hadoop2.6/python/pyspark/rdd.py", line 1293, in takeUpToNumLeft

yield next(iterator)

File "", line 1, in

NameError: global name 'P' is not defined

at org.apache.spark.api.python.PythonRunner$$anon$1.read(PythonRDD.scala:166)

at org.apache.spark.api.python.PythonRunner$$anon$1.(PythonRDD.scala:207)

at org.apache.spark.api.python.PythonRunner.compute(PythonRDD.scala:125)

at org.apache.spark.api.python.PythonRDD.compute(PythonRDD.scala:70)

at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:306)

at org.apache.spark.rdd.RDD.iterator(RDD.scala:270)

at org.apache.spark.scheduler.ResultTask.runTask(ResultTask.scala:66)

at org.apache.spark.scheduler.Task.run(Task.scala:89)

at org.apache.spark.executor.Executor$TaskRunner.run(Executor.scala:214)

at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1142)

at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:617)

at java.lang.Thread.run(Thread.java:745)

17/11/10 07:55:17 WARN TaskSetManager: Lost task 0.0 in stage 0.0 (TID 0, localhost): org.apache.spark.api.python.PythonException: Traceback (most recent call last):

File "/opt/spark-1.6.1-bin-hadoop2.6/python/lib/pyspark.zip/pyspark/worker.py", line 111, in main

process()

File "/opt/spark-1.6.1-bin-hadoop2.6/python/lib/pyspark.zip/pyspark/worker.py", line 106, in process

serializer.dump_stream(func(split_index, iterator), outfile)

File "/opt/spark-1.6.1-bin-hadoop2.6/python/lib/pyspark.zip/pyspark/serializers.py", line 263, in dump_stream

vs = list(itertools.islice(iterator, batch))

File "/opt/spark-1.6.1-bin-hadoop2.6/python/pyspark/rdd.py", line 1293, in takeUpToNumLeft

yield next(iterator)

File "", line 1, in

NameError: global name 'P' is not defined

at org.apache.spark.api.python.PythonRunner$$anon$1.read(PythonRDD.scala:166)

at org.apache.spark.api.python.PythonRunner$$anon$1.(PythonRDD.scala:207)

at org.apache.spark.api.python.PythonRunner.compute(PythonRDD.scala:125)

at org.apache.spark.api.python.PythonRDD.compute(PythonRDD.scala:70)

at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:306)

at org.apache.spark.rdd.RDD.iterator(RDD.scala:270)

at org.apache.spark.scheduler.ResultTask.runTask(ResultTask.scala:66)

at org.apache.spark.scheduler.Task.run(Task.scala:89)

at org.apache.spark.executor.Executor$TaskRunner.run(Executor.scala:214)

at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1142)

at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:617)

at java.lang.Thread.run(Thread.java:745)

python分析犯罪数据_使用 SparkSQL 分析纽约市犯罪数据相关推荐

Java_Hive自定义函数_UDF函数清洗数据_清洗出全国的省份数据
Java_Hive_UDF函数清洗数据_清洗出全国的省份数据最近用Hadoop搞数据清洗,需要根据原始的地区数据清洗出对应的省份数据,当然我这里主要清洗的是内陆地区的数据,原始数据中不包含港澳台地区 ...
python爬取客流数据_爬取首都机场客流量数据，从GIS的角度尝试分析建设大兴机场的必要性...
Hello, 大家好!我是James. 上一节我们整理好了北京的行政区和街道办矢量数据,估计跃跃欲试的小伙伴太热情,爬取的网站被玩坏了几天,学习可以,但是不要过多尝试了哈然后在文章的最后,我们惊奇的 ...
切片分析报告格式_疫情舆情分析研判报告怎么撰写？2020舆情报告格式
疫情舆情分析研判报告撰写不像疫情舆情信息监测与搜集工作那么容易,它需要从数据出发,以内容为支撑,要先对疫情舆情信息进行整理汇总,再处理.分析和研判.因此,报告撰写难度大,毕竟它是整个舆情分析研判最终 ...
python数据分析就业班_云开见明 2020Python数据分析师特训营全套课程84节
├──第二章 | ├──10Numpy统计相关函数-第二章10节.mp4 53.67M | ├──11Numpy线性代数-第二章11节.mp4 53.99M | ├──1数组创建和属性 ...
cat 常用的日志分析架构方案_芯片失效分析常用方法及解决方案
一般来说,芯片在研发.生产过程中出现错误是不可避免的,就如房缺补漏一样,哪里出了问题你不仅要解决问题,还要思考为什么会出现问题.随着人们对产品质量和可靠性要求的不断提高,失效分析工作也显得越来越重要, ...
python爬取网站大数据_基于腾讯位置大数据平台的全球移动定位数据获取（Python爬取）...
对于腾讯位置大数据平台,有一些商业接口可以调用看起来还是挺爽的,但是现阶段只接受商业合作客户来调用,我们个人是获取不到的. 那就没办法了吗?当然不是,实际上腾讯位置大数据把调用接口就直接写在了前端, ...
java对微博评论进行分析_微博上分析情感的_中文情感分析java_中文微博情感分析...
目前,社会正处于一个微博崛起的时代,一切有关于微博的问题都被社会广泛关注,并得到了工业界和学术界的高度重视.微博从出现以来,取得了良好的发展,并拥有大众的普遍关注和应用.微博的超大信息量和高速度的更新 ...
python pandas 读取数据库_数据分析-pandas从数据库读取数据
数据分析-pandas从数据库读取数据使用pandas读取数据到DataFrame,对于只是数据分析来说,重点是读取数据,读取数据过程越简单越好,并不需要写得很复杂显得自己很厉害的样子.最好就是代码 ...
机器学习处理不平衡数据_在机器学习中处理不平衡数据
机器学习处理不平衡数据 As an ML engineer or data scientist, sometimes you inevitably find yourself in a situat ...

最新文章

热门文章