**

Python利用Scrapy爬取前程无忧

**

一、爬虫准备
Python:3.x
Scrapy
PyCharm
二、爬取目标
爬取前程无忧的职位信息,此案例以Python为关键词爬取相应的职位信息,通过Scrapy来爬取相应信息,并将爬取数据保存到csv文件中。
三、爬取步骤
1.创建一个新的爬虫项目。

2.定义我们要爬取的内容item类

import scrapyclass QcwyItem(scrapy.Item):job_name = scrapy.Field()company = scrapy.Field()area = scrapy.Field()salary = scrapy.Field()pabulish_time = scrapy.Field()

3.配置settings.py
1)设置不遵守机器人协议

ROBOTSTXT_OBEY = False

2)设置请求头

DEFAULT_REQUEST_HEADERS = {'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8','Accept-Language': 'en',
'USER_AGENT': 'Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/27.0.1453.94 Safari/537.36'}

4.主函数spider爬取函数

# -*- coding: utf-8 -*-
import scrapy
from qcwy.items import QcwyItem
from scrapy.http import Requestclass MainSpider(scrapy.Spider):name = 'main'# allowed_domains = ['51job.com']start_urls = ['https://search.51job.com/list/000000,000000,0000,00,9,99,python,2,1.html']# 生成要抓取的页面地址,从1-723页'''如果说通过获取下一页链接回调参数不能成功,可以采取自己生成页面链接的方式进行爬取内容'''def start_requests(self):pages = []for i in range(1, 724):newpage = scrapy.Request('https://search.51job.com/list/000000,000000,0000,00,9,99,python,2,%d.html' %i)pages = newpageyield pagesdef parse(self, response):print(response.body)item = QcwyItem()jobs = response.xpath('//div[@class="el"]')for job in jobs:job_name = job.xpath('p/span/a/@title').extract_first()company = job.xpath('span/a/@title').extract_first()area = job.xpath('span[@class="t3"]/text()').extract()salary = job.xpath('span[@class="t4"]/text()').extract()pabulish_time = job.xpath('span[@class="t5"]/text()').extract()item['job_name'] = job_nameitem['company'] = companyitem['area'] = areaitem['salary'] = salaryitem['pabulish_time'] = pabulish_timeyield item'''如果说下一页链接是可以调用,或者说拼接成新链接形式的,可以使用这种方法'''# nextpage = response.xpath('//ul/li[@class="bk"]/a/@href').extract()# url = nextpage   # 直接调用# url urljoin(nextpage)  # 链接拼接的形式# # print(url)# yield scrapy.Request(url=url, callback=self.parse)

5.根目录下添加一个运行函数start.py

from scrapy import cmdline
cmdline.execute("scrapy crawl main -o qcwy.csv".split())

四、最终保存到csv文件数据

五、感言
Python路上的第一篇博客,前行不易,互勉之。

Python利用Scrapy爬取前程无忧相关推荐

  1. Python利用Scrapy爬取智联招聘和前程无忧的招聘数据

    爬虫起因   前面两个星期,利用周末的时间尝试和了解了一下Python爬虫,紧接着就开始用Scrapy框架做了一些小的爬虫,不过,由于最近一段时间的迷茫,和处于对职业生涯的规划.以及对市场需求的分析, ...

  2. Python爬虫 - scrapy - 爬取妹子图 Lv1

    0. 前言 这是一个利用python scrapy框架爬取网站图片的实例,本人也是在学习当中,在这做个记录,也希望能帮到需要的人.爬取妹子图的实例打算分成三部分来写,尝试完善实用性. 系统环境 Sys ...

  3. 基于Python、scrapy爬取软考在线题库

    前言 前段时间,报名个软件设计师考试,自然需要复习嘛,看到软考在线这个平台有历年来的题目以及答案,想法就是做一个题库小程序咯,随时随地可以打开复习.很多人问,这不出现很多类似的小程序了?是的,但是他们 ...

  4. python基于scrapy爬取京东笔记本电脑数据并进行简单处理和分析

    这篇文章主要介绍了python基于scrapy爬取京东笔记本电脑数据并进行简单处理和分析的实例,帮助大家更好的理解和学习使用python.感兴趣的朋友可以了解下 一.环境准备 python3.8.3 ...

  5. python利用bs4爬取外国高清图片网站

    python利用bs4爬取外国高清图片网站 爬取高清图片 爬取高清图片 import re import requests from bs4 import BeautifulSoup import o ...

  6. python使用 Scrapy 爬取唯美女生网站的图片资源

    python  python使用 Scrapy 爬取唯美女生网站 的资源,图片很好,爬取也有一定的难度,最终使用Scrapy获取了该网站 1.5W多张美眉照片....如有侵权,联系,立删除. ==== ...

  7. selenium+scrapy爬取前程无忧职位

    目标: 爬取前程无忧网站职位关键字为python的职位信息 分析 首页的链接地址: 'https://search.51job.com/list/000000,000000,0000,00,9,99, ...

  8. 利用scrapy爬取京东移动端的图片素材和商品信息

    有一个练习项目需要一些带分类信息的商品测试图片,从现有的电商网站爬取是个不错的选择.刚好最近又在练习scrapy的使用,这一篇记录一下用scrapy爬取京东的图片素材并保存商品信息的思路. 文中代码共 ...

  9. 四十三、Scrapy 爬取前程无忧51jobs

    @Author:Runsen 之前爬了拉钩,爬了boss ,你认为我会放过51jobs 吗 这是不可能的,今日用下scrapy 来爬 51jobs,前程无忧 关于新建项目和spider 不说了,今日用 ...

最新文章

  1. main函数参数,在VS中向命令行添加参数的方法
  2. linux编辑conf文件命令,redhat linux7.3字符模式下: vi ***.conf 文件,又用什么命令才可编辑文件啊!!!!??...
  3. 【分析】腾讯年终总结:微信用户一天到晚都在干啥
  4. 【python】详解类class的继承、__init__初始化、super方法
  5. linux维护rpm 数据库,Linux运维知识之linux rpm命令详细介绍
  6. 07-求解Ax=0:主变量、特解
  7. HDU - 2196(树形DP)
  8. fft c语言与matlab,c语言matlab实现fft几种编程实例.doc
  9. iOS 静态库,动态库与 Framework 浅析
  10. 无公式无数学内容下,如何理解加密与解密知识?
  11. 广西来宾中考计算机考试考什么,来宾中考信息管理系统 http://www.lbzklq.com
  12. linux 命令杂集
  13. 生日快乐_生日快乐!
  14. GAGE USB信号采集卡
  15. 写作三件套(VScode Miktex Latex Workshop)入门三大坑
  16. 推荐3个游戏小程序,让你整个暑假都充实!
  17. Python 学习之 --- 语法部分(变量、标识符、关键字、进制转换、数据类型转换、运算符)
  18. 非法经营?USDT涉刑分析
  19. Java 内部类详解
  20. 关于淘天乐商城的源代码

热门文章

  1. 使用二阶贝塞尔曲线画出两点之间的连线
  2. VMvare虚拟机下载地址
  3. 要多久人工智能的梦想才能照进现实
  4. NFS常见问题及参数
  5. python抖音屏幕滑动_python实现抖音点赞功能
  6. 电压转电流/电流转电压模块
  7. Maya插件的十个究极技巧,不会等着老板让你哭
  8. 2023最新SSM计算机毕业设计选题大全(附源码+LW)之java安徽省旅游信息网站ds6p5
  9. 偏微分方程简明教程第二章部分答案
  10. 空间计量 python_一文读懂空间计量入门之空间数据、权重矩阵、空间统计、空间模型等简介...