介绍Spark在Win 10系统中的的安装、配置以及在分布式爬虫中的使用,Python版本为3.6.8。

Spark安装、配置和使用请参考《Python程序设计开发宝典》“第12章 多任务与并行处理:线程、进程、协程、分布式、GPU加速”(董付国著,清华大学出版社,2017.10),京东:https://item.jd.com/12143483.html

网络爬虫入门请参考《Python可以这样学》“第9章 网络应用开发”(董付国著,清华大学出版社,2017.2),京东缺货,请选择亚马逊、当当、天猫搜索“董付国”;《Python程序设计基础与应用》“第13章 网络爬虫入门与应用”(董付国著,机械工业出版社,2018.9),京东:https://item.jd.com/12433472.html

================

1、下载安装jdk,地址:https://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html

2、添加环境变量JAVA_HOME,配置为jdk的安装路径。

3、下载Spark,解压缩到G:\spark-2.2.3-bin-hadoop2.7。

地址:http://mirrors.shu.edu.cn/apache/spark/spark-2.2.3/spark-2.2.3-bin-hadoop2.7.tgz,注意版本,并不是越新越好,很容易因为版本不兼容影响运行。

4、配置环境变量HADOOP_HOME和SPARK_HOME为Spark的解压缩目录G:\spark-2.2.3-bin-hadoop2.7。

5、修改环境变量PATH,把Python 3.6的安装目录放到前面,添加jdk安装路径。

6、下载winutils.exe并放到Spark解压缩目录的bin中,下载地址:http://public-repo-1.hortonworks.com/hdp-win-alpha/winutils.exe

7、编写爬虫程序sparkCrawlYuanshi.py并保存到Spark安装目录的bin目录中,以爬取工程院院士信息为例,略去对网页结构的分析,感兴趣的朋友可自行完成这个步骤。

8、进入Power Shell,执行命令./spark-submit.cmd sparkCrawlYuanshi.py运行爬虫程序。

温馨提示

进入公众号,通过菜单“最新资源”==>“历史文章”可以快速查看分专题的文章列表,通过“最新资源”==>“微课专区”可以观看Python微课,通过“最新资源”==>“培训动态”可以查看近期Python培训安排,通过“最新资源”==>“教学资源”可以查看Python教学资源。

--------董付国老师Python系列图书--------

1)《Python程序设计(第2版)》清华大学出版社

2)《Python可以这样学》清华大学出版社

3)《Python程序设计基础(第2版)》清华大学出版社

4)《中学生可以这样学Python》清华大学出版社,配套微课:《中学生可以这样学Python》84节微课免费观看地址

5)《Python程序设计开发宝典》清华大学出版社

6)《玩转Python轻松过二级》清华大学出版社

7)《Python程序设计基础与应用》机械工业出版社

8)《Python程序设计实验指导书》清华大学出版社(预计2019年1月出版)

9)《Python编程基础与案例集锦(中学版)》电子工业出版社(预计2019年2月出版)

《中学生可以这样学Python》84节微课免费观看地址

非计算机专业《Python程序设计基础》教学参考大纲

计算机相关专业“Python程序设计”教学大纲(参考)

《Python程序设计》实验指导书(30个实验)

《Python程序设计基础与应用》课后习题答案

Python课程期末考试编程题自动批卷原理与实现模板

“Python小屋”免费资源汇总(截至2018年11月28日)

系列教学PPT:

1900页Python系列PPT分享一:基础知识(106页)

1900页Python系列PPT分享二:Python序列(列表、元组、字典、集合)(154页)

1900页Python系列PPT分享三:选择与循环结构语法及案例(96页)

1900页Python系列PPT分享四:字符串与正则表达式(109页)

1900页Python系列PPT分享五:函数设计与应用(134页)

1900页Python系列PPT分享六:面向对象程序设计(86页)

1900页Python系列PPT分享七:文件操作(132页)

1900页Python系列PPT分享八:异常处理结构与程序调试、测试(70页)

报告PPT(163页):基于Python语言的课程群建设探讨与实践

报告PPT(123页):Python编程基础精要

2000页Python系列PPT分享九:(GUI编程)(122页)

Python实验项目1例:使用进程池统计指定范围内素数的个数

(PPT)Python程序设计课程教学内容组织与教学方法实践

爬虫系列文章:

JavaScript获取本机浏览器UA助力Python爬取糗事百科首页

Python批量爬取名字中带有中文的pdf文件

Python爬取网页中表格数据并导出为Excel文件

Python使用标准库urllib模拟浏览器爬取网页内容

Python爬虫基础:常用HTML标签和Javascript入门

Python+selenium+PhantomJS获取百度搜索结果真实链接地址

Python 3.6模拟输入并爬取百度前10页密切相关链接

手把手教你使用Python+scrapy爬取山东各城市天气预报

Python爬虫系列:使用selenium+Edge查询指定城市天气情况

Python爬虫系列:判断目标网页编码的几种方法

BeautifulSoup解析库select方法实例——获取企业信息

Python批量爬取微信公众号文章中的图片

Python裸奔也疯狂:批量爬取中国工程院院士信息

Python爬虫扩展库scrapy选择器用法入门(一)

Python使用Scrapy爬虫框架爬取天涯社区小说“大宗师”全文

Python不使用scrapy框架而编写的网页爬虫程序

Python爬虫扩展库BeautifulSoup4用法精要

多线程、多进程与并行、并发执行、GPU加速:

Python使用多进程提高网络爬虫的爬取速度

使用Python编写属于自己的录音软件

Python多线程与Socket编程综合案例:素数

Python使用多线程搜索指定范围内的所有素数

Python使用两个Event对象同步生产者消费者问题

Python多线程编程基础3:创建线程与调用函数的区别

Python多线程编程基础2:如何创建线程

Python多线程编程基础1:为什么要使用线程

Python使用标准库subprocess调用外部程序

Python使用BoundedSemaphore对象进行线程同步

Python使用Queue对象实现多线程同步小案例

Python使用Condition对象实现多线程同步

Python多线程编程中daemon属性的作用

Python使用pyopencl在GPU上并行处理批量判断素数

Python使用pycuda在GPU上并行处理批量判断素数

Python利用Spark并行处理框架批量判断素数

Python使用Manager对象实现不同机器上的进程跨网络传输数据

Python多线程编程中使用Barrier对象进行同步

Python使用多进程批量判断素数

Python并行判断多个大整数是否为素数

Win10+Python3.6配置Spark创建分布式爬虫相关推荐

  1. Spark伪分布式搭建与SparkYarn搭建

    Spark伪分布式搭建教程(Standalone:Master+Slave) 分析: 1.配置好IP 2.修改好主机名 3.做好IP映射 4.关闭防火墙 5.安装好Java(请参考Linux-Java ...

  2. WIN10环境下配置hadoop+spark并运行实例的教程

    WIN10环境下配置 hadoop + spark 并运行开发实例的教程 前期准备 基本环境配置 虚拟机的安装 配置虚拟机中的静态网络 关闭并禁用防火墙 配置主机名 编辑host文件 使用ssh传输文 ...

  3. Win10+Python3+OpenCV+CUDA——在win中配置OpenCV4.5并与Python环境绑定

    Win10+Python3+OpenCV+CUDA--在win中配置OpenCV4.5并与Python环境绑定 前言 安装Anaconda和基本库 下载对应版本的CUDA 配置方案1.通过下载预购建文 ...

  4. 分布式爬虫配置(伯乐在线为例)

    依赖环境: redis >=2.8 scrapy >=1.1 分布式爬虫:将一个项目拷贝到多台电脑上,同时爬取数据. 1.必须保证所有电脑上的代码是相同的配置. 2.在其中一台电脑上启动r ...

  5. 【Python3爬虫】学习分布式爬虫第一步--Redis分布式爬虫初体验

    一.写在前面 之前写的爬虫都是单机爬虫,还没有尝试过分布式爬虫,这次就是一个分布式爬虫的初体验.所谓分布式爬虫,就是要用多台电脑同时爬取数据,相比于单机爬虫,分布式爬虫的爬取速度更快,也能更好地应对I ...

  6. win10双系统安装ubuntu16.04+gtx750ti+python3.6配置cuda-9.0+cuDNN7.05+TensorFlow-gpu1.8.0+opencv 2.4.13的过程汇总

    参考: https://blog.csdn.net/weixin_40494464/article/details/81010256 http://www.cnblogs.com/EasonJim/p ...

  7. Blackey win10 + python3.6 + VSCode + tensorflow-gpu + keras + cuda8 + cuDN6N环境配置(转载)

    win10 + python3.6 + VSCode + tensorflow-gpu + keras + cuda8 + cuDN6N环境配置 写在前面的话: 再弄这个之前,我对python也好,t ...

  8. 创建并配置一个伪分布式Hadoop3.x版本集群(三)

    文章目录 前言 1. Hadoop 集群搭建模式 2. 伪分布式集群搭建环境准备 2.1 SSH免密登录设置 2.2 Java 环境准备 2.3 Hadoop环境准备 2.4 其他环境准备 3. Ha ...

  9. Spark中组件Mllib的学习15之创建分布式矩阵

    更多代码请见:https://github.com/xubo245/SparkLearning Spark中组件Mllib的学习之基础概念篇 1解释 创建分布式矩阵 2.代码: /*** @autho ...

最新文章

  1. 经济学人: Arm,孙正义手中的这只水晶球正在帮助他预测未来
  2. [Android实例] 同一Activity的实例被多次重复创建
  3. postman面试_Postman 收费太贵了,我决定用 Postwoman。。。
  4. 移动namenode、secondarynamenode和jobTracker的节点(使其成为独立节点)
  5. vue-cli 3.0安装和使用
  6. mysql php7安装配置_centos7无网络下安装部署php7.1.33+mysql5.7.28+apache2.4.6-Go语言中文社区...
  7. elasticsearch date_MySQL数据实时增量同步到Elasticsearch
  8. 北大程序设计实习MOOC 编程作业 《魔兽世界之二:装备》
  9. 框架 go_GoFrame v1.13.1 发布,Go 应用开发框架
  10. sqlserver 时间递增循环
  11. 信息服务器恢复需要多少时间,云服务器灾难恢复的4个计划
  12. Slack 决定不修复可暴露用户身份的 XSLeak漏洞
  13. php mysql bbs_BBS(php mysql)完整版(六)
  14. Linux学习笔记-B站韩顺平
  15. Clark变换和Park变换仿真验证
  16. mysql怎么解析json字符串_mysql解析json字符串
  17. 小米真无线降噪耳机3和小米真无线降噪耳机3 Pro的区别
  18. 为什么移动在国外显示无服务器,开通了国际漫游怎么还是无服务
  19. 甲骨文数据库购买的价格(一)
  20. 材料研究生转行,可以做哪些准备规划

热门文章

  1. HTML怎么实现抽奖变色,html+css+js实现简单抽奖
  2. java异常断点数组_使用IDEA异常断点来定位java.lang.ArrayStoreException的问题
  3. java 代码块的意义_Java基础(9) - 静态、代码块
  4. html广告20s倒计时,简单时尚的jQuery倒计时插件
  5. php 显示html文件后缀,[求助]此jQuery在html后缀文件可用,在php后缀文件就用不了!...
  6. go sqlite mysql_Go语言中使用SQLite数据库
  7. wxpython 优秀的界面_wxPython图形用户界面
  8. java 获取dataset_Java OHLCDataset.getX方法代码示例
  9. 基于JAVA+SpringMVC+Mybatis+MYSQL的养老社区管理系统
  10. 基于JAVA+Servlet+JSP+MYSQL的会议管理系统