python爬虫多url_Python爬虫实战入门六：提高爬虫效率

之前文章中所介绍的爬虫都是对单个URL进行解析和爬取，url数量少不费时，但是如果我们需要爬取的网页url有成千上万或者更多，那怎么办？

使用for循环对所有的url进行遍历访问？

嗯，想法很好，但是如果url过多，爬取完所有的数据会不会太过于耗时了？

对此我们可以使用并发来对URL进行访问以爬取数据。

一般而言，在单机上我们使用三种并发方式：多线程(threading)

多进程(multiprocessing)

协程(gevent)

对于以上三种方法的具体概念解释和说明，各位可以自行网上搜索了解，相信会比我解释得清楚，所以在此就不对它们进行解释说明了。

本系列文章有两个重点，一个是实战，一个是入门，既为实战，理论性的东西就描述得比较少；既为入门，所讲述的都是简单易懂易操作的东西，高深的技术还请入门之后自行探索，那样也会成长得更快。

那么下面，开始并发爬取的实战入门，以多进程为例，并发爬取智联招聘的招聘信息。

一、分析URL和页面结构

1、搜索全国范围内职位名包含“Python”的职位招聘

我们不分职业类别、不分行业类别，工作地点选为全国，职位名为“Python”，对招聘信息进行搜索，结果如下图：

我们注意图中三个红框的信息：搜索结果的url结构；（构造url地址进行for循环遍历）

搜索结果的条数；（判断url的数量）

采集的信息的主体；（解析数据）

通过筛选url参数，我们确定了需要爬取的基本URL为：

http://sou.zhaopin.com/jobs/searchresult.ashx?jl=全国&kw=python&kt=3&p=2

其中

http://sou.zhaopin.com/jobs/searchresult.ashx

为请求地址和目录

jl:工作地点参数

kw:搜索的关键字

kt:以职位名搜索

p:页数

我们可以发现，除了页数会变化之外，其余的参数值都是固定的值。我们来确定一下搜索结果的总页数。

因为网页上有提示一共有多少个职位满足条件，我们拿总职位数除以单页显示的职位数量即可知道搜索结果的页数。

# coding:utf-8

import requests

from bs4 import BeautifulSoup

import re

url = 'http://sou.zhaopin.com/jobs/searchresult.ashx?jl=全国&kw=python&p=1&kt=3'

wbdata = requests.get(url).content

soup = BeautifulSoup(wbdata, 'lxml')

items = soup.select("div#newlist_list_content_table > table")

count = len(items) - 1

# 每页职位信息数量

print(count)

job_count = re.findall(r"共(.*?)个职位满足条件", str(soup))[0]

# 搜索结果页数

pages = (int(job_count) // count) + 1

print(pages)

结果返回每页60条职位信息，一共有14页。

那么我们的待爬取的url地址就有14个，url地址中参数p的值分别从1到14，这么少的url，使用for循环也可以很快完成，但在此我们使用多进程进行演示。

二、在爬虫中使用多进程

先上代码：

# coding:utf-8

import requests

from bs4 import BeautifulSoup

from multiprocessing import Pool

def get_zhaopin(page):

url = 'http://sou.zhaopin.com/jobs/searchresult.ashx?jl=全国&kw=python&p={0}&kt=3'.format(page)

print("第{0}页".format(page))

wbdata = requests.get(url).content

soup = BeautifulSoup(wbdata,'lxml')

job_name = soup.select("table.newlist > tr > td.zwmc > div > a")

salarys = soup.select("table.newlist > tr > td.zwyx")

locations = soup.select("table.newlist > tr > td.gzdd")

times = soup.select("table.newlist > tr > td.gxsj > span")

for name, salary, location, time in zip(job_name, salarys, locations, times):

data = {

'name': name.get_text(),

'salary': salary.get_text(),

'location': location.get_text(),

'time': time.get_text(),

}

print(data)

if __name__ == '__main__':

pool = Pool(processes=2)

pool.map_async(get_zhaopin,range(1,pages+1))

pool.close()

pool.join()

结果如下：

因为除了使用了多进程之外，其他的代码与之前文章介绍的方法大同小异，所以在此只介绍一下多进程的核心代码：

from multiprocessing import Pool

multiprocessing是Python自带的一个多进程模块，在此我们使用其Pool方法。

if __name__ == '__main__':

pool = Pool(processes=2)

pool.map_async(get_zhaopin,range(1,pages+1))

pool.close()

pool.join()实例化一个进程池，设置进程为2；

调用进程池的map_async()方法，接收一个函数(爬虫函数)和一个列表(url列表)

如此，在爬虫中使用多进程进行并发爬取就搞定了，更多高级、复杂强大的方法，还请各位参考其他文档资料。

=======================================================================

文章首发微信公众号：州的先生

python爬虫多url_Python爬虫实战入门六：提高爬虫效率—并发爬取智联招聘相关推荐

python如何并发上千个get_Python爬虫实战入门六：提高爬虫效率—并发爬取智联招聘...
匿名说道: # coding:utf-8 import requests from bs4 import BeautifulSoup url = 'https://sou.zhaopin.com/jo ...
Python爬虫爬取智联招聘职位信息
目的:输入要爬取的职位名称,五个意向城市,爬取智联招聘上的该信息,并打印进表格中 #coding:utf-8 import urllib2 import re import xlwtclass ZLZ ...
【Python爬虫案例学习20】Python爬虫爬取智联招聘职位信息
目的:输入要爬取的职位名称,五个意向城市,爬取智联招聘上的该信息,并打印进表格中 ####基本环境配置: Python版本:2.7 开发工具:pycharm 系统:win10 ####相关模块: im ...
(转)python爬虫实例——爬取智联招聘信息
受友人所托,写了一个爬取智联招聘信息的爬虫,与大家分享. 本文将介绍如何实现该爬虫. 目录网页分析实现代码分析结果总结 github代码地址网页分析以https://xiaoyuan.zh ...
python爬虫实例——爬取智联招聘信息
受友人所托,写了一个爬取智联招聘信息的爬虫,与大家分享. 本文将介绍如何实现该爬虫. 目录网页分析实现代码分析结果总结 github代码地址网页分析以https://xiaoyuan.zh ...
克服反爬虫机制爬取智联招聘网站
一.实验内容 1.爬取网站: 智联招聘网站(https://www.zhaopin.com/) 2.网站的反爬虫机制: 在我频繁爬取智联招聘网站之后,它会出现以下文字(尽管我已经控制了爬虫的爬 ...
python+selenium爬取智联招聘信息
python+selenium爬取智联招聘信息需求准备代码结果需求老板给了我一份公司名单(大概几百家如下图),让我到网上看看这些公司分别在招聘哪些岗位,通过分析他们的招聘需求大致能推断出我 ...
深圳python数据分析师招聘_Python爬取智联招聘数据分析师岗位相关信息的方法
Python爬取智联招聘数据分析师岗位相关信息的方法发布时间:2020-09-23 23:23:12 来源:脚本之家阅读:88 进入智联招聘官网,在搜索界面输入'数据分析师',界面跳转,按F12查 ...
python爬去智联招聘网_Python爬虫爬取智联招聘（进阶版）
点击上方"程序人生",选择"置顶公众号" 第一时间关注程序猿(媛)身边的故事图片:Westworld Season 2 作者王强简介 Python追随者, ...

python爬虫多url_Python爬虫实战入门六：提高爬虫效率—并发爬取智联招聘

python爬虫多url_Python爬虫实战入门六：提高爬虫效率—并发爬取智联招聘相关推荐

最新文章

热门文章