scrapy爬取——阿里招聘信息

爬取网站地址：

https://job.alibaba.com/zhaopin/positionList.htm

1.创建项目

进入项目目录

输入cmd进入都是窗口创建项目，默认普通爬虫框架
分析页面找到network中的数据出口

2.爬虫伪装

爬虫规则（concurrent）改为False，将network中的user_agent（浏览器伪装）填写网页中的user_agent

3.定制爬取策略

从信息页面可以看出总页数和总记录条数，在提取信息的的页面可直接查询全部记录数。

查看需要提交的表单

查询全部记录

4.提交请求并获取数据。

查询最高限制仅有500条，总页面为26，做个简单循环爬取信息。

导入json库，将网页的json数据转换。（转换完成后可用字典形式提取指定数据）

简单提取几个指定数据也可以提取全部数据。（一次获取500数据，迭代数据）

5.数据存储+完整代码

item定义容器存储（定义一个，数据边写边存速度较慢）
item需要导入from items import AliItem

开启存储通道

pipelines.py

from itemadapter import ItemAdapter
from scrapy.exporters import JsonLinesItemExporterclass AliPipeline:def __init__(self):self.file = open('data.json', 'wb')self.porters = JsonLinesItemExporter(file=self.file, encoding='utf-8', ensure_ascii=False)def process_item(self, item, spider):self.porters.export_item(item['result'])return item

spiders–alispider.py

import scrapy
import json
from items import AliItemclass AlispiderSpider(scrapy.Spider):name = 'alispider'allowed_domains = ['alibaba.com']start_urls = ['http://alibaba.com/']def start_requests(self):url = "https://job.alibaba.com/zhaopin/socialPositionList/doList.json?"data = {"pageSize": str(500),"pageIndex": '',"t": str(0.15103070408703667)}for i in range(26+1):data['pageIndex'] = str(i)yield scrapy.FormRequest(url=url, formdata=data, callback=self.parse)def parse(self, response):all_data = json.loads(response.text)['returnValue']['datas']for line in all_data:item = {}item['degree'] = line['degree']     # 学历要求item['name'] = line['name']         # 职位昵称item['description'] = line['description']                 # 职位描述item_data = AliItem()       # 实例化item_data['result'] = itemyield item_data

目录结构：

main.py为运行程序

# -*- coding=utf-8 -*-
from scrapy import cmdlinecmdline.execute("scrapy crawl alispider".split(" "))

scrapy爬取——阿里招聘信息相关推荐

【python爬虫02】使用Scrapy框架爬取拉勾网招聘信息
使用Scrapy框架爬取拉勾网招聘信息最近接触了Scrapy爬虫框架,简单写了个爬虫爬取拉钩网的招聘信息,加深对Scrapy框架的理解,不得不说Scrapy框架其实还是蛮方便的,就像爬虫流水线一样, ...
Python搭建代理池爬取拉勾网招聘信息
先来看一张图了解下爬虫实现功能多线程爬取拉勾网招聘信息维护代理 ip 池搭建 node 服务器 Taro 使用 echarts 做数据分析 1.多线程爬取拉勾网招聘信息 Tip:涉及知识 1. ...
[Python 爬虫] 使用 Scrapy 爬取新浪微博用户信息（四） —— 应对反爬技术（选取 User-Agent、添加 IP代理池以及Cookies池）
上一篇:[Python 爬虫] 使用 Scrapy 爬取新浪微博用户信息(三) -- 数据的持久化--使用MongoDB存储爬取的数据最近项目有些忙,很多需求紧急上线,所以一直没能完善< 使用 ...
[Python 爬虫] 使用 Scrapy 爬取新浪微博用户信息（二） —— 编写一个基本的 Spider 爬取微博用户信息
上一篇:[Python 爬虫] 使用 Scrapy 爬取新浪微博用户信息(一) -- 新建爬虫项目在上一篇我们新建了一个 sina_scrapy 的项目,这一节我们开始正式编写爬虫的代码. 选择目标 ...
[Python 爬虫] 使用 Scrapy 爬取新浪微博用户信息（三） —— 数据的持久化——使用MongoDB存储爬取的数据
上一篇:[Python 爬虫] 使用 Scrapy 爬取新浪微博用户信息(二) -- 编写一个基本的 Spider 爬取微博用户信息在上一篇博客中,我们已经新建了一个爬虫应用,并简单实现了爬取一位微 ...
什么你还不知道招聘信息，小唐来教你——最新2021爬取拉勾网招聘信息（一）
文章目录前言一.准备我们的库二.分析分析三. 代码四.数据展示小唐的心路历程上一篇:没有啦! 下一篇:什么你还不知道招聘信息,小唐来教你--最新2021爬取拉勾网招聘信息(二) 前言有 ...
什么你还不知道招聘信息，小唐来教你——最新2021爬取拉勾网招聘信息（二）
文章目录前言一.准备我们的库二.数据清洗三.核密度图及词云制作四.完整代码五.扩展上一篇:什么你还不知道招聘信息,小唐来教你--最新2021爬取拉勾网招聘信息(一) 下一篇:没有拉! 前 ...
Python爬虫实战之一 - 基于Requests爬取拉勾网招聘信息，并保存至本地csv文件
Python爬虫实战之二 - 基于Requests抓取拉勾网招聘信息 ---------------readme--------------- 简介:本人产品汪一枚,Python自学数月,对于小白,本 ...
requests+bs4+正则爬取前程无忧招聘信息进阶版
整理思路获取所有职位信息的url 通过正则去掉不符合要求的url 爬取详情页信息解析详情页写入txt文件循环抓取提高速度多线程爬取先放上url:https://search.51job.c ...

scrapy爬取——阿里招聘信息

scrapy爬取——阿里招聘信息

1.创建项目

2.爬虫伪装

3.定制爬取策略

4.提交请求并获取数据。

5.数据存储+完整代码

scrapy爬取——阿里招聘信息相关推荐

最新文章

热门文章