在实验《使用 SparkSQL 分析纽约市犯罪数据》时候

创建 DataFrame 并注册成表,报错!

sqlContext.createDataFrame(Crimes).registerTempTable("Crimes")

17/11/10 07:55:17 ERROR Executor: Exception in task 0.0 in stage 0.0 (TID 0)

org.apache.spark.api.python.PythonException: Traceback (most recent call last):

File "/opt/spark-1.6.1-bin-hadoop2.6/python/lib/pyspark.zip/pyspark/worker.py", line 111, in main

process()

File "/opt/spark-1.6.1-bin-hadoop2.6/python/lib/pyspark.zip/pyspark/worker.py", line 106, in process

serializer.dump_stream(func(split_index, iterator), outfile)

File "/opt/spark-1.6.1-bin-hadoop2.6/python/lib/pyspark.zip/pyspark/serializers.py", line 263, in dump_stream

vs = list(itertools.islice(iterator, batch))

File "/opt/spark-1.6.1-bin-hadoop2.6/python/pyspark/rdd.py", line 1293, in takeUpToNumLeft

yield next(iterator)

File "", line 1, in

NameError: global name 'P' is not defined

at org.apache.spark.api.python.PythonRunner$$anon$1.read(PythonRDD.scala:166)

at org.apache.spark.api.python.PythonRunner$$anon$1.(PythonRDD.scala:207)

at org.apache.spark.api.python.PythonRunner.compute(PythonRDD.scala:125)

at org.apache.spark.api.python.PythonRDD.compute(PythonRDD.scala:70)

at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:306)

at org.apache.spark.rdd.RDD.iterator(RDD.scala:270)

at org.apache.spark.scheduler.ResultTask.runTask(ResultTask.scala:66)

at org.apache.spark.scheduler.Task.run(Task.scala:89)

at org.apache.spark.executor.Executor$TaskRunner.run(Executor.scala:214)

at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1142)

at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:617)

at java.lang.Thread.run(Thread.java:745)

17/11/10 07:55:17 WARN TaskSetManager: Lost task 0.0 in stage 0.0 (TID 0, localhost): org.apache.spark.api.python.PythonException: Traceback (most recent call last):

File "/opt/spark-1.6.1-bin-hadoop2.6/python/lib/pyspark.zip/pyspark/worker.py", line 111, in main

process()

File "/opt/spark-1.6.1-bin-hadoop2.6/python/lib/pyspark.zip/pyspark/worker.py", line 106, in process

serializer.dump_stream(func(split_index, iterator), outfile)

File "/opt/spark-1.6.1-bin-hadoop2.6/python/lib/pyspark.zip/pyspark/serializers.py", line 263, in dump_stream

vs = list(itertools.islice(iterator, batch))

File "/opt/spark-1.6.1-bin-hadoop2.6/python/pyspark/rdd.py", line 1293, in takeUpToNumLeft

yield next(iterator)

File "", line 1, in

NameError: global name 'P' is not defined

at org.apache.spark.api.python.PythonRunner$$anon$1.read(PythonRDD.scala:166)

at org.apache.spark.api.python.PythonRunner$$anon$1.(PythonRDD.scala:207)

at org.apache.spark.api.python.PythonRunner.compute(PythonRDD.scala:125)

at org.apache.spark.api.python.PythonRDD.compute(PythonRDD.scala:70)

at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:306)

at org.apache.spark.rdd.RDD.iterator(RDD.scala:270)

at org.apache.spark.scheduler.ResultTask.runTask(ResultTask.scala:66)

at org.apache.spark.scheduler.Task.run(Task.scala:89)

at org.apache.spark.executor.Executor$TaskRunner.run(Executor.scala:214)

at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1142)

at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:617)

at java.lang.Thread.run(Thread.java:745)

python分析犯罪数据_使用 SparkSQL 分析纽约市犯罪数据相关推荐

  1. Java_Hive自定义函数_UDF函数清洗数据_清洗出全国的省份数据

    Java_Hive_UDF函数清洗数据_清洗出全国的省份数据 最近用Hadoop搞数据清洗,需要根据原始的地区数据清洗出对应的省份数据,当然我这里主要清洗的是内陆地区的数据,原始数据中不包含港澳台地区 ...

  2. python爬取客流数据_爬取首都机场客流量数据,从GIS的角度尝试分析建设大兴机场的必要性...

    Hello, 大家好!我是James. 上一节我们整理好了北京的行政区和街道办矢量数据,估计跃跃欲试的小伙伴太热情,爬取的网站被玩坏了几天,学习可以,但是不要过多尝试了哈 然后在文章的最后,我们惊奇的 ...

  3. 切片分析报告格式_疫情舆情分析研判报告怎么撰写?2020舆情报告格式

    ​疫情舆情分析研判报告撰写不像疫情舆情信息监测与搜集工作那么容易,它需要从数据出发,以内容为支撑,要先对疫情舆情信息进行整理汇总,再处理.分析和研判.因此,报告撰写难度大,毕竟它是整个舆情分析研判最终 ...

  4. python数据分析就业班_云开见明 2020Python数据分析师特训营全套课程84节

    ├──第二章 |   ├──10Numpy统计相关函数-第二章10节.mp4  53.67M |   ├──11Numpy线性代数-第二章11节.mp4  53.99M |   ├──1数组创建和属性 ...

  5. cat 常用的日志分析架构方案_芯片失效分析常用方法及解决方案

    一般来说,芯片在研发.生产过程中出现错误是不可避免的,就如房缺补漏一样,哪里出了问题你不仅要解决问题,还要思考为什么会出现问题.随着人们对产品质量和可靠性要求的不断提高,失效分析工作也显得越来越重要, ...

  6. python爬取网站大数据_基于腾讯位置大数据平台的全球移动定位数据获取(Python爬取)...

    对于腾讯位置大数据平台,有一些商业接口可以调用 看起来还是挺爽的,但是现阶段只接受商业合作客户来调用,我们个人是获取不到的. 那就没办法了吗?当然不是,实际上腾讯位置大数据把调用接口就直接写在了前端, ...

  7. java对微博评论进行分析_微博上分析情感的_中文情感分析java_中文微博情感分析...

    目前,社会正处于一个微博崛起的时代,一切有关于微博的问题都被社会广泛关注,并得到了工业界和学术界的高度重视.微博从出现以来,取得了良好的发展,并拥有大众的普遍关注和应用.微博的超大信息量和高速度的更新 ...

  8. python pandas 读取数据库_数据分析-pandas从数据库读取数据

    数据分析-pandas从数据库读取数据 使用pandas读取数据到DataFrame,对于只是数据分析来说,重点是读取数据,读取数据过程越简单越好,并不需要写得很复杂显得自己很厉害的样子.最好就是代码 ...

  9. 机器学习 处理不平衡数据_在机器学习中处理不平衡数据

    机器学习 处理不平衡数据 As an ML engineer or data scientist, sometimes you inevitably find yourself in a situat ...

最新文章

  1. 自定义全局按键修饰符
  2. 使用 Spring Boot CLI 运行第一个Spring boot程序
  3. 已知序列求蝶形运算_(数字信号处理选择题.doc
  4. java clicked_关于java:JComponents在调用mouseClicked()之后消失
  5. python百度翻译接口_python3 调用百度翻译API翻译英文
  6. asp.net mvc 2被遗忘的%:Html.AntiForgeryToken() %
  7. mysql查看前十行_head 命令 读取文件的前n行,默认查看文件的前十行
  8. Atitit 减少财政支出----获取商家商业机构的补贴措施 attilax大总结.docx
  9. C语言实现行列式计算
  10. android 语音自动播报,Android语音播报的两种简单实现
  11. 阿里云云平台的物理安全防御措施
  12. C++内存分配(operator new)
  13. 百度的搜索引擎相关技术的分析
  14. BZOJ4987:Tree(树形DP)
  15. 查看从机状态 mysql_mysql常用操作命令
  16. sqlDbx连接oracle64位
  17. bootstrapvalidator已定义的验证规则
  18. 8.MySQL DCL (数据控制语言) 语句
  19. 曾国藩经典人生哲理语录
  20. 宝塔上线flask,遇见502错误

热门文章

  1. c语言案例朗读工具源码,C语言编写简单朗读小工具(有源码)
  2. Haproxy实现负载均衡
  3. linux touch权限不够,Linux下的Access、Modify、Change , touch的使用以及权限问题
  4. Python | 使用__del __()和__init __()实现析构函数和构造函数的示例
  5. ruby 覆盖率测试_Ruby方法覆盖
  6. java settime_Java日历setTime()方法及示例
  7. 实战:Redis 慢查询
  8. 面试系列第1篇:常见面试题和面试套路有哪些?
  9. 第一弹!安利10个让你爽到爆的IDEA必备插件!
  10. 经典面试题|ConcurrentHashMap 读操作为什么不需要加锁?