0开始学py爬虫（学习笔记)（Scrapy框架）(爬取职友集招聘信息)

爬取招聘信息并保存到xlsx

爬虫实现

定义数据（第一步）先知道自己要什么数据再去爬取

import scrapyclass JobuiItem(scrapy.Item):company=scrapy.Field()#定义公司名称的数据属性position = scrapy.Field()#定义职位名称的数据属性address = scrapy.Field()#定义工作地点的数据属性detail = scrapy.Field()#定义招聘要求的数据属性

编辑爬虫（第二步）

新加爬虫文件

import scrapy
import bs4
from ..items import JobuiItemclass JobuiSpider(scrapy.Spider):name='jobui'#名字要对应setting文件里的BOT_NAME字段，不然编译报错allowed_domins=["https://www.jobui.com"]#定义允许爬虫爬取网址的域名——职友集网站的域名start_urls=['https://www.jobui.com/rank/company/']#定义起始网址——职友集企业排行榜的网址def parse(self,response):#parse是默认处理response的方法bs=bs4.BeautifulSoup(response.text,'html.parser')#用BeautifulSoup解析response（企业排行榜的网页源代码）ul_list=bs.find_all('ul',class_='textList flsty cfix')for ul in ul_list:a_list=ul.find_all('a')for a in a_list:company_id=a['href']url='https://www.jobui.com{id}jobs'real_url=url.format(id=company_id)yield scrapy.Request(real_url,callback=self.parse_job)def parse_job(self,response):bs=bs4.BeautifulSoup(response.text,'html.parser')company=bs.find(id="companyH1").textdatas=bs.find_all("div",class_='c-job-list')for data in datas:item=JobuiItem()item['company']=companyitem['position']=data.find('h3').textitem['address']=data.find(class_='job-desc').find('span').textitem['detail']=data.find_all('span')[1].textyield item

代码该位置需要根据实际网页情况获取数据
yield 的意思相当于return 返回的意思，每次有新的item对象生成，也就是每次循环，新的数据请求回来都会返回一个新的item到引擎，也是每一行的数据的意思，callback函数是说，执行完了这个请求再执行的函数，思想可以参考前端的ajax请求，都是等待请求完成之后做的动作

配置文件的设置setting.py

FEED_URI='./storage/data/%(name)s.csv'
FEED_FORMAT='CSV'
FEED_EXPORT_ENCODING='ansi'

FEED_URI是导出文件的路径。’./storage/data/%(name)s.csv’，就是把存储的文件放到与settings.py文件同级的storage文件夹的data子文件夹里。

FEED_FORMAT 是导出数据格式，写CSV就能得到CSV格式。

FEED_EXPORT_ENCODING 是导出文件编码，ansi是一种在windows上的编码格式，你也可以把它变成utf-8用在mac电脑上。

上面配置没有设置过，所以保存数据的xlsx表，保存在setting的同级文件

#取消`ITEM_PIPELINES`的注释后：# Configure item pipelines
# See https://doc.scrapy.org/en/latest/topics/item-pipeline.html
ITEM_PIPELINES = {'jobuitest.pipelines.JobuitestPipeline': 300,
}

文件存储编写

import openpyxlclass JobuiPipeline(object):
#定义一个JobuiPipeline类，负责处理itemdef __init__(self):#初始化函数 当类实例化时这个方法会自启动self.wb=openpyxl.Workbook()#创建工作薄self.ws=self.wb.active#定位活动表self.ws.append(['公司','职位','地址','招聘信息'])#用append函数往表格添加表头def process_item(self,item,spider):#process_item是默认的处理item的方法，就像parse是默认处理response的方法line=[item['company'],item['position'],item['address'],item['detail']]#把公司名称、职位名称、工作地点和招聘要求都写成列表的形式，赋值给lineself.ws.append(line)#用append函数把公司名称、职位名称、工作地点和招聘要求的数据都添加进表格return itemdef close_spider(self,spider):#close_spider是当爬虫结束运行时，这个方法就会执行self.wb.save('./jobui.xlsx')#保存文件self.wb.close()#关闭文件

在最后，我们还要再修改Scrapy中settings.py文件里的默认设置：添加请求头，以及把ROBOTSTXT_OBEY=True改成ROBOTSTXT_OBEY=False

我们需要取消DOWNLOAD_DELAY = 0这行的注释（删掉#）。DOWNLOAD_DELAY翻译成中文是下载延迟的意思，这行代码可以控制爬虫的速度。因为这个项目的爬取速度不宜过快，我们要把下载延迟的时间改成0.5秒。（在settings.py中）

0开始学py爬虫（学习笔记)（Scrapy框架）(爬取职友集招聘信息)相关推荐

爬虫学习（二）--爬取360应用市场app信息
欢迎加入python学习交流群 667279387 爬虫学习爬虫学习(一)-爬取电影天堂下载链接爬虫学习(二)–爬取360应用市场app信息代码环境:windows10, python 3.5 ...
小福利，带你使用scrapy框架爬取苏宁图书海量信息
大家好,我是天空之城,今天给大家带来小福利,带你使用scrapy框架爬取苏宁图书海量信息下图为项目的目录结构看下最后的数据截图,可以存为excel文件,也可以存入mysql数据库,参见前面文章介绍 ...
python爬虫教程：Scrapy框架爬取Boss直聘网Python职位信息的源码
今天小编就为大家分享一篇关于Scrapy框架爬取Boss直聘网Python职位信息的源码,小编觉得内容挺不错的,现在分享给大家,具有很好的参考价值,需要的朋友一起跟随小编来看看吧分析使用Crawl ...
python爬虫学习笔记-scrapy框架(1)
简介什么是框架? 所谓的框,其实说白了就是一个[项目的半成品],该项目的半成品需要被集成了各种功能且具有较强的通用性. Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架,非常出名, ...
python爬虫学习笔记-scrapy框架之start_url
在使用命令行创建scrapy项目后,会发现在spider.py文件内会生成这样的代码: name = 'quotes' allowed_domains = ['quotes.toscrape.com' ...
爬虫学习笔记-scrapy框架介绍
优势批量爬取数据高效率架构图各模块的功能 1,Scrapy Engine(引擎):Scrapy框架的核心部分.负责在Spider和ItemPipeline.Downloader.Schedul ...
python爬虫学习笔记分析Ajax爬取果壳网文章
有时在使用requests抓取页面会遇到得到的结果与在浏览器中看到的结果不一样,在浏览器检查元素中可以看到的正常的显示的网页数据,但是requests请求得到的结果却没有.这是因为requests请 ...
python3爬虫之使用Scrapy框架爬取英雄联盟高清桌面壁纸
使用Scrapy爬虫抓取英雄联盟高清桌面壁纸源码地址:https://github.com/snowyme/loldesk 开始项目前需要安装python3和Scrapy,不会的自行百度,这里就不具 ...
python爬虫(16)使用scrapy框架爬取顶点小说网
本文以scrapy 框架来爬取整个顶点小说网的小说 1.scrapy的安装这个安装教程,网上有很多的例子,这里就不在赘述了 2.关于scrapy scrapy框架是一个非常好的东西,能够实现异步爬 ...
Scrapy模块爬取中华英才网招聘信息(分页)
import scrapy from fenye.items import FenyeItem import requests class ZhfySpider(scrapy.Spider):name ...