Python利用Scrapy爬取前程无忧

一、爬虫准备
Python:3.x
Scrapy
PyCharm
二、爬取目标
爬取前程无忧的职位信息，此案例以Python为关键词爬取相应的职位信息，通过Scrapy来爬取相应信息，并将爬取数据保存到csv文件中。
三、爬取步骤
1.创建一个新的爬虫项目。

2.定义我们要爬取的内容item类

import scrapyclass QcwyItem(scrapy.Item):job_name = scrapy.Field()company = scrapy.Field()area = scrapy.Field()salary = scrapy.Field()pabulish_time = scrapy.Field()

3.配置settings.py
1)设置不遵守机器人协议

ROBOTSTXT_OBEY = False

2）设置请求头

DEFAULT_REQUEST_HEADERS = {'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8','Accept-Language': 'en',
'USER_AGENT': 'Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/27.0.1453.94 Safari/537.36'}

4.主函数spider爬取函数

# -*- coding: utf-8 -*-
import scrapy
from qcwy.items import QcwyItem
from scrapy.http import Requestclass MainSpider(scrapy.Spider):name = 'main'# allowed_domains = ['51job.com']start_urls = ['https://search.51job.com/list/000000,000000,0000,00,9,99,python,2,1.html']# 生成要抓取的页面地址，从1-723页'''如果说通过获取下一页链接回调参数不能成功，可以采取自己生成页面链接的方式进行爬取内容'''def start_requests(self):pages = []for i in range(1, 724):newpage = scrapy.Request('https://search.51job.com/list/000000,000000,0000,00,9,99,python,2,%d.html' %i)pages = newpageyield pagesdef parse(self, response):print(response.body)item = QcwyItem()jobs = response.xpath('//div[@class="el"]')for job in jobs:job_name = job.xpath('p/span/a/@title').extract_first()company = job.xpath('span/a/@title').extract_first()area = job.xpath('span[@class="t3"]/text()').extract()salary = job.xpath('span[@class="t4"]/text()').extract()pabulish_time = job.xpath('span[@class="t5"]/text()').extract()item['job_name'] = job_nameitem['company'] = companyitem['area'] = areaitem['salary'] = salaryitem['pabulish_time'] = pabulish_timeyield item'''如果说下一页链接是可以调用，或者说拼接成新链接形式的，可以使用这种方法'''# nextpage = response.xpath('//ul/li[@class="bk"]/a/@href').extract()# url = nextpage   # 直接调用# url urljoin(nextpage)  # 链接拼接的形式# # print(url)# yield scrapy.Request(url=url, callback=self.parse)

5.根目录下添加一个运行函数start.py

from scrapy import cmdline
cmdline.execute("scrapy crawl main -o qcwy.csv".split())

四、最终保存到csv文件数据

五、感言
Python路上的第一篇博客，前行不易，互勉之。

Python利用Scrapy爬取前程无忧相关推荐

Python利用Scrapy爬取智联招聘和前程无忧的招聘数据
爬虫起因前面两个星期,利用周末的时间尝试和了解了一下Python爬虫,紧接着就开始用Scrapy框架做了一些小的爬虫,不过,由于最近一段时间的迷茫,和处于对职业生涯的规划.以及对市场需求的分析, ...
Python爬虫 - scrapy - 爬取妹子图 Lv1
0. 前言这是一个利用python scrapy框架爬取网站图片的实例,本人也是在学习当中,在这做个记录,也希望能帮到需要的人.爬取妹子图的实例打算分成三部分来写,尝试完善实用性. 系统环境 Sys ...
基于Python、scrapy爬取软考在线题库
前言前段时间,报名个软件设计师考试,自然需要复习嘛,看到软考在线这个平台有历年来的题目以及答案,想法就是做一个题库小程序咯,随时随地可以打开复习.很多人问,这不出现很多类似的小程序了?是的,但是他们 ...
python基于scrapy爬取京东笔记本电脑数据并进行简单处理和分析
这篇文章主要介绍了python基于scrapy爬取京东笔记本电脑数据并进行简单处理和分析的实例,帮助大家更好的理解和学习使用python.感兴趣的朋友可以了解下一.环境准备 python3.8.3 ...
python利用bs4爬取外国高清图片网站
python利用bs4爬取外国高清图片网站爬取高清图片爬取高清图片 import re import requests from bs4 import BeautifulSoup import o ...
python使用 Scrapy 爬取唯美女生网站的图片资源
python python使用 Scrapy 爬取唯美女生网站的资源,图片很好,爬取也有一定的难度,最终使用Scrapy获取了该网站 1.5W多张美眉照片....如有侵权,联系,立删除. ==== ...
selenium+scrapy爬取前程无忧职位
目标: 爬取前程无忧网站职位关键字为python的职位信息分析首页的链接地址: 'https://search.51job.com/list/000000,000000,0000,00,9,99, ...
利用scrapy爬取京东移动端的图片素材和商品信息
有一个练习项目需要一些带分类信息的商品测试图片,从现有的电商网站爬取是个不错的选择.刚好最近又在练习scrapy的使用,这一篇记录一下用scrapy爬取京东的图片素材并保存商品信息的思路. 文中代码共 ...
四十三、Scrapy 爬取前程无忧51jobs
@Author:Runsen 之前爬了拉钩,爬了boss ,你认为我会放过51jobs 吗这是不可能的,今日用下scrapy 来爬 51jobs,前程无忧关于新建项目和spider 不说了,今日用 ...

Python利用Scrapy爬取前程无忧

Python利用Scrapy爬取前程无忧

Python利用Scrapy爬取前程无忧相关推荐

最新文章

热门文章