scrapy爬取——阿里招聘信息
scrapy爬取——阿里招聘信息
爬取网站地址:
https://job.alibaba.com/zhaopin/positionList.htm
1.创建项目
进入项目目录
输入cmd进入都是窗口创建项目,默认普通爬虫框架
分析页面找到network中的数据出口
2.爬虫伪装
爬虫规则(concurrent)改为False,将network中的user_agent(浏览器伪装)填写网页中的user_agent
3.定制爬取策略
从信息页面可以看出总页数和总记录条数,在提取信息的的页面可直接查询全部记录数。
查看需要提交的表单
查询全部记录
4.提交请求并获取数据。
查询最高限制仅有500条,总页面为26,做个简单循环爬取信息。
导入json库,将网页的json数据转换。(转换完成后可用字典形式提取指定数据)
简单提取几个指定数据也可以提取全部数据。(一次获取500数据,迭代数据)
5.数据存储+完整代码
item定义容器存储(定义一个,数据边写边存速度较慢)
item需要导入from items import AliItem
开启存储通道
pipelines.py
from itemadapter import ItemAdapter
from scrapy.exporters import JsonLinesItemExporterclass AliPipeline:def __init__(self):self.file = open('data.json', 'wb')self.porters = JsonLinesItemExporter(file=self.file, encoding='utf-8', ensure_ascii=False)def process_item(self, item, spider):self.porters.export_item(item['result'])return item
spiders–alispider.py
import scrapy
import json
from items import AliItemclass AlispiderSpider(scrapy.Spider):name = 'alispider'allowed_domains = ['alibaba.com']start_urls = ['http://alibaba.com/']def start_requests(self):url = "https://job.alibaba.com/zhaopin/socialPositionList/doList.json?"data = {"pageSize": str(500),"pageIndex": '',"t": str(0.15103070408703667)}for i in range(26+1):data['pageIndex'] = str(i)yield scrapy.FormRequest(url=url, formdata=data, callback=self.parse)def parse(self, response):all_data = json.loads(response.text)['returnValue']['datas']for line in all_data:item = {}item['degree'] = line['degree'] # 学历要求item['name'] = line['name'] # 职位昵称item['description'] = line['description'] # 职位描述item_data = AliItem() # 实例化item_data['result'] = itemyield item_data
目录结构:
main.py为运行程序
# -*- coding=utf-8 -*-
from scrapy import cmdlinecmdline.execute("scrapy crawl alispider".split(" "))
scrapy爬取——阿里招聘信息相关推荐
- 【python爬虫02】使用Scrapy框架爬取拉勾网招聘信息
使用Scrapy框架爬取拉勾网招聘信息 最近接触了Scrapy爬虫框架,简单写了个爬虫爬取拉钩网的招聘信息,加深对Scrapy框架的理解,不得不说Scrapy框架其实还是蛮方便的,就像爬虫流水线一样, ...
- Python搭建代理池爬取拉勾网招聘信息
先来看一张图了解下爬虫 实现功能 多线程爬取拉勾网招聘信息 维护代理 ip 池 搭建 node 服务器 Taro 使用 echarts 做数据分析 1.多线程爬取拉勾网招聘信息 Tip:涉及知识 1. ...
- [Python 爬虫] 使用 Scrapy 爬取新浪微博用户信息(四) —— 应对反爬技术(选取 User-Agent、添加 IP代理池以及Cookies池 )
上一篇:[Python 爬虫] 使用 Scrapy 爬取新浪微博用户信息(三) -- 数据的持久化--使用MongoDB存储爬取的数据 最近项目有些忙,很多需求紧急上线,所以一直没能完善< 使用 ...
- [Python 爬虫] 使用 Scrapy 爬取新浪微博用户信息(二) —— 编写一个基本的 Spider 爬取微博用户信息
上一篇:[Python 爬虫] 使用 Scrapy 爬取新浪微博用户信息(一) -- 新建爬虫项目 在上一篇我们新建了一个 sina_scrapy 的项目,这一节我们开始正式编写爬虫的代码. 选择目标 ...
- [Python 爬虫] 使用 Scrapy 爬取新浪微博用户信息(三) —— 数据的持久化——使用MongoDB存储爬取的数据
上一篇:[Python 爬虫] 使用 Scrapy 爬取新浪微博用户信息(二) -- 编写一个基本的 Spider 爬取微博用户信息 在上一篇博客中,我们已经新建了一个爬虫应用,并简单实现了爬取一位微 ...
- 什么你还不知道招聘信息,小唐来教你——最新2021爬取拉勾网招聘信息(一)
文章目录 前言 一.准备我们的库 二.分析分析 三. 代码 四.数据展示 小唐的心路历程 上一篇:没有啦! 下一篇:什么你还不知道招聘信息,小唐来教你--最新2021爬取拉勾网招聘信息(二) 前言 有 ...
- 什么你还不知道招聘信息,小唐来教你——最新2021爬取拉勾网招聘信息(二)
文章目录 前言 一.准备我们的库 二.数据清洗 三.核密度图及词云制作 四.完整代码 五.扩展 上一篇:什么你还不知道招聘信息,小唐来教你--最新2021爬取拉勾网招聘信息(一) 下一篇:没有拉! 前 ...
- Python爬虫实战之一 - 基于Requests爬取拉勾网招聘信息,并保存至本地csv文件
Python爬虫实战之二 - 基于Requests抓取拉勾网招聘信息 ---------------readme--------------- 简介:本人产品汪一枚,Python自学数月,对于小白,本 ...
- requests+bs4+正则爬取前程无忧招聘信息进阶版
整理思路 获取所有职位信息的url 通过正则去掉不符合要求的url 爬取详情页信息 解析详情页 写入txt文件 循环抓取 提高速度多线程爬取 先放上url:https://search.51job.c ...
最新文章
- zookeeper脑裂
- Server.MapPath()目录详解
- 统计MySQL中某数据库硬盘占用量大小
- 银河麒麟通过命令行安装软件没有安装上
- PostgreSQL类似Oracle MERGE功能的实现
- gpio 树莓派3a+_树莓派4正式发布:35美元起售!真香
- 如何禁止用户安装应用程序,记下来,方便以后用
- 大数据处理的基本流程:数据抽取与集成+数据分析+数据解释
- ENSP教程---配置DHCP
- 留言列表模板HTML代码
- Dw cs6的详细下载安装教程对网页设计需要cs6的同学
- html怎么改变图片整体大小,html怎么改变图片大小?
- Chain ‘MASQUERADE‘ does not exist 报错解决
- halcon算子翻译——cooc_feature_matrix
- activemq管理页面
- 黑崎一护为什么没有和朽木露琪亚在一起
- LinuxRaid的基本知识点
- 阿龙学堂-算法-逻辑回归
- 【以太网硬件十八】网卡是什么?
- 现在Php、Java、Python横行霸道的市场,C++程序员们都在干什么呢?