AS WE ALL KNOW,学机器学习的一般都是从python+sklearn开始学,适用于数据量不大的场景(这里就别计较“不大”具体指标是啥了,哈哈)

数据量大了,就需要用到其他技术了,如:spark, tensorflow,当然也有其他技术,此处略过一坨字...

先来看看如何让这3个集成起来吧(WINDOWS环境):pycharm(python开发环境), pyspark.cmd(REPL命令行接口), spark(spark驱动、MASTER等)

download Anaconda, latest version, which 64bit support for windows, 这里必须安装64位版本的Anaconda,因为后面tensorflow只支持64位的

https://www.continuum.io/downloads/

安装Anaconda,都是默认选项就行

dowload jdk-8u91-windows-x64.exe

dowload pycharm from jetbrain site, and install (please do it by yourself),这个很简单,直接略过

接下来是下载spark,我下的是最新版2.1.0的 http://spark.apache.org/downloads.html

解压缩后把它复制到一个容易找的目录,我这是C:\spark-2.1.0-bin-hadoop2.7

这个时候如果直接双击bin下的spark-shell.cmd文件的话是会报错的,主要原因是没有winutils.exe这东西(用来在windows环境下模拟文件操作的),因此还需要做几个小步骤才能正常启动

1. 设置一个假的hadoop目录,在这个目录的bin下放刚才说的那个winutils.exe文件(需要自己创建bin目录)

2. 设置环境变量HADOOP_HOME,值为这个假的hadoop目录

3. 拷贝winutils.exe到这个bin里,下载

OK,这时可以双击spark-shell.cmd了,如下:

HOHO, ==,==,我们不是要搞PYTHON环境嘛,怎么搞scala了,别急,先搞scala是因为先要把基本的给走通,再去搞python环境的接口。

python接口的REPL是这个文件,pyspark.cmd,双击,也报错...

别急,这里是因为python版本问题,anaconda最新版的python解释器版本是3.6.1,这个版本的spark不支持,需要降低版本 到3.5

卸载python? 不用,用anaconda的环境切换就行了

1. 先创建一个新的开发环境: conda create -n my_new_env_python35

2. 激活这个新的开发环境: activate my_new_env_python35

3. 在这个新的开发环境中安装python 3.5: conda install python=3.5

这时python3.5版本的解释器就算是安装完成了,默认目录在C:\ProgramData\Anaconda3\envs\my_new_env_python35\python.exe

然后就是需要把spark的python支持包复制到相应的路径中了,从下图1复制到my_new_env_python35环境的Lib\site-packages目录下

4)要想在PyCharm中调用pySpark,需要加载包。将D:\softa\spark\spark-2.2.1-bin-hadoop2.7\python文件夹下pySpark文件夹拷贝到C:\Anaconda2\Lib\site-packages**(注:我的python安装目录是这个路径,可能有的读者是C:\Python35\Lib\site-packages\

接下来需要把python默认版本改成python3.5,需要修改PATH路径,把python3.5的路径放在第一个查找路径下就行了

然后就开始整pycharm开发环境了。

首先肯定是新建一个python项目了,然后改设置,用来指定python解释器的路径.

import sys
import os
from operator import add
from pyspark import SparkContext
if __name__ == "__main__":sc = SparkContext(appName="PythonWordCount")lines = sc.textFile('words.txt')count = lines.count()print(count)counts = lines.flatMap(lambda x: x.split(' ')) \.map(lambda x: (x, 1)) \.reduceByKey(add)
output = counts.collect()
for (word, count) in output:print("%s: %i" % (word, count))
sc.stop()

wordcount.py

https://www.cnblogs.com/aarond/p/pyspark.html

转载于:https://www.cnblogs.com/leijiangtao/p/4200340.html

机器学习 - pycharm, pyspark, spark集成篇相关推荐

  1. PyCharm搭建Spark开发环境windows下安装pyspark

    目录 windows下安装pyspark PyCharm搭建Spark开发环境 windows下安装pyspark spark和hadoop版本版本之间有对应关系 安装jdk 安装hadoop 下载 ...

  2. [机器学习] LightGBM on Spark (MMLSpark) 使用完全手册

    一 Spark上训练模型优势与劣势 (1)机器学习算法一般都有很多个步骤迭代计算的过程,机器学习的计算需要在多次迭代后获得足够小的误差或者足够收敛才会停止,迭代时如果使用一般的Hadoop分布式计算框 ...

  3. pycharm搭建spark环境

    2019独角兽企业重金招聘Python工程师标准>>> pycharm搭建spark环境 安装python环境 windows下有安装包,自行下载安装即可 安装spark环境 官网下 ...

  4. 第二部分:Spark进阶篇

    第一部分:Spark基础篇_奔跑者-辉的博客-CSDN博客 第二部分:Spark进阶篇_奔跑者-辉的博客-CSDN博客 第三部分:Spark调优篇_奔跑者-辉的博客-CSDN博客 目录 1 Spark ...

  5. 文科生如何入门机器学习:先看看这篇零基础教程,再多算几遍吧

    晓查 发自 凹非寺 量子位 出品 | 公众号 QbitAI AI技术变得越来越热门,很多人开始转行进入这一领域,其中当然也不乏文科生.他们在普遍缺乏大学数学知识的情况下,就不能入门机器学习了吗? 最近 ...

  6. Apache Spark学习:利用Eclipse构建Spark集成开发环境

    介绍了如何使用Maven编译生成可直接运行在Hadoop 2.2.0上的Spark jar包,而本文则在此基础上, 介绍如何利用Eclipse构建Spark集成开发环境 . 不建议大家使用eclips ...

  7. 学习笔记Spark(九)—— Spark MLlib应用(1)—— 机器学习简介、Spark MLlib简介

    一.机器学习简介 1.1.机器学习概念 机器学习就是让机器能像人一样有学习.理解.认识的能力. 机器学习是一门人工智能的科学,该领域的主要研究对象是人工智能,特别是如何在经验学习中改善具体算法的性能. ...

  8. fprom预测结果内容_预测模型之机器学习 Machine Learning结果解读篇

    原标题:预测模型之机器学习 Machine Learning结果解读篇 学友提问:对于机器学习出来的只有图形,我怎么解释呢?怎样才能在临床使用呢? 论文的实例:2013年发表在The American ...

  9. luajit集成篇/平台相关篇 | 合理用好lua+unity,更省性能的方案整理

    luajit集成篇 大家都知道luajit比原生lua快,快在jit这三个字上. 但实际情况是,luajit的行为十分复杂.尤其jit并不是一个简单的把代码翻译成机器码的机制,背后有很多会影响性能的因 ...

  10. 最全Pycharm教程(14)——Pycharm编辑器功能总篇

    如果觉得这篇文章对您有所启发,欢迎关注我的公众号,我会尽可能积极和大家交流,谢谢. 最全Pycharm教程(1)--定制外观 最全Pycharm教程(2)--代码风格 最全Pycharm教程(3)-- ...

最新文章

  1. 【HTTP协议】域名
  2. 【数字信号处理】傅里叶变换性质 ( 序列傅里叶变换共轭对称性质 | 实序列的幅频特性偶对称 | 实序列相频特性奇对称 | 示例说明 )
  3. SpringCloud-Eureka-ProviderConsumer
  4. 梯度与梯度下降法详解
  5. tablewidget 行数自适应_控制|基于自适应遗传算法的增程式电动汽车能量管理策略优化...
  6. 奔涌吧,前浪,追击吧,后浪
  7. iOS切换window根控制器
  8. 用友财务系统对接第三方业务系统达到财务业务一体化管理
  9. 网易面试总结——面试案例9~面试案例12
  10. 我的冷笑话20100125
  11. 说话人识别之GMM-UBM系统
  12. linux服务器安装openwrt,探索openwrt安装宝塔,搭建web网站论坛社区网校
  13. IntelliJ IDEA上debug模式启动
  14. 织梦wap.php绑定域名,dedecms织梦配置手机wap站点,并绑定二级域名
  15. JAVA多线程作业-多人买票
  16. 计算机xiuli教程,电脑主板修理教程
  17. PMS150C应广单片机开发案例
  18. raid技术快速入门
  19. 【JavaScript】Js定时器综合应用大全
  20. 软件工程用例图要素简单解释

热门文章

  1. Java Serializable 序列化 与 对象克隆
  2. 阶段2 JavaWeb+黑马旅游网_15-Maven基础_第5节 使用骨架创建maven的java工程_17maven工程运行环境修改...
  3. C语言编程-9_4 字符统计
  4. thread/threading——Python多线程入门笔记
  5. Kotlin——初级篇(三):数据类型详解
  6. 【CS Round #46 (Div. 1.5) B】Letters Deque
  7. Swift 中函数使用指南
  8. tomcat 7服务器跨域问题解决
  9. 设置元素的高度为百分比,结果不起作用的解决方法
  10. idea中不重启服务器更改代码(使用jrebel)