scrapy爬取——阿里招聘信息

爬取网站地址:

https://job.alibaba.com/zhaopin/positionList.htm

1.创建项目

进入项目目录

输入cmd进入都是窗口创建项目,默认普通爬虫框架
分析页面找到network中的数据出口

2.爬虫伪装

爬虫规则(concurrent)改为False,将network中的user_agent(浏览器伪装)填写网页中的user_agent

3.定制爬取策略

从信息页面可以看出总页数和总记录条数,在提取信息的的页面可直接查询全部记录数。

查看需要提交的表单

查询全部记录

4.提交请求并获取数据。

查询最高限制仅有500条,总页面为26,做个简单循环爬取信息。

导入json库,将网页的json数据转换。(转换完成后可用字典形式提取指定数据)

简单提取几个指定数据也可以提取全部数据。(一次获取500数据,迭代数据)

5.数据存储+完整代码

item定义容器存储(定义一个,数据边写边存速度较慢)
item需要导入from items import AliItem

开启存储通道

pipelines.py

from itemadapter import ItemAdapter
from scrapy.exporters import JsonLinesItemExporterclass AliPipeline:def __init__(self):self.file = open('data.json', 'wb')self.porters = JsonLinesItemExporter(file=self.file, encoding='utf-8', ensure_ascii=False)def process_item(self, item, spider):self.porters.export_item(item['result'])return item

spiders–alispider.py

import scrapy
import json
from items import AliItemclass AlispiderSpider(scrapy.Spider):name = 'alispider'allowed_domains = ['alibaba.com']start_urls = ['http://alibaba.com/']def start_requests(self):url = "https://job.alibaba.com/zhaopin/socialPositionList/doList.json?"data = {"pageSize": str(500),"pageIndex": '',"t": str(0.15103070408703667)}for i in range(26+1):data['pageIndex'] = str(i)yield scrapy.FormRequest(url=url, formdata=data, callback=self.parse)def parse(self, response):all_data = json.loads(response.text)['returnValue']['datas']for line in all_data:item = {}item['degree'] = line['degree']     # 学历要求item['name'] = line['name']         # 职位昵称item['description'] = line['description']                 # 职位描述item_data = AliItem()       # 实例化item_data['result'] = itemyield item_data

目录结构:

main.py为运行程序

# -*- coding=utf-8 -*-
from scrapy import cmdlinecmdline.execute("scrapy crawl alispider".split(" "))

scrapy爬取——阿里招聘信息相关推荐

  1. 【python爬虫02】使用Scrapy框架爬取拉勾网招聘信息

    使用Scrapy框架爬取拉勾网招聘信息 最近接触了Scrapy爬虫框架,简单写了个爬虫爬取拉钩网的招聘信息,加深对Scrapy框架的理解,不得不说Scrapy框架其实还是蛮方便的,就像爬虫流水线一样, ...

  2. Python搭建代理池爬取拉勾网招聘信息

    先来看一张图了解下爬虫 实现功能 多线程爬取拉勾网招聘信息 维护代理 ip 池 搭建 node 服务器 Taro 使用 echarts 做数据分析 1.多线程爬取拉勾网招聘信息 Tip:涉及知识 1. ...

  3. [Python 爬虫] 使用 Scrapy 爬取新浪微博用户信息(四) —— 应对反爬技术(选取 User-Agent、添加 IP代理池以及Cookies池 )

    上一篇:[Python 爬虫] 使用 Scrapy 爬取新浪微博用户信息(三) -- 数据的持久化--使用MongoDB存储爬取的数据 最近项目有些忙,很多需求紧急上线,所以一直没能完善< 使用 ...

  4. [Python 爬虫] 使用 Scrapy 爬取新浪微博用户信息(二) —— 编写一个基本的 Spider 爬取微博用户信息

    上一篇:[Python 爬虫] 使用 Scrapy 爬取新浪微博用户信息(一) -- 新建爬虫项目 在上一篇我们新建了一个 sina_scrapy 的项目,这一节我们开始正式编写爬虫的代码. 选择目标 ...

  5. [Python 爬虫] 使用 Scrapy 爬取新浪微博用户信息(三) —— 数据的持久化——使用MongoDB存储爬取的数据

    上一篇:[Python 爬虫] 使用 Scrapy 爬取新浪微博用户信息(二) -- 编写一个基本的 Spider 爬取微博用户信息 在上一篇博客中,我们已经新建了一个爬虫应用,并简单实现了爬取一位微 ...

  6. 什么你还不知道招聘信息,小唐来教你——最新2021爬取拉勾网招聘信息(一)

    文章目录 前言 一.准备我们的库 二.分析分析 三. 代码 四.数据展示 小唐的心路历程 上一篇:没有啦! 下一篇:什么你还不知道招聘信息,小唐来教你--最新2021爬取拉勾网招聘信息(二) 前言 有 ...

  7. 什么你还不知道招聘信息,小唐来教你——最新2021爬取拉勾网招聘信息(二)

    文章目录 前言 一.准备我们的库 二.数据清洗 三.核密度图及词云制作 四.完整代码 五.扩展 上一篇:什么你还不知道招聘信息,小唐来教你--最新2021爬取拉勾网招聘信息(一) 下一篇:没有拉! 前 ...

  8. Python爬虫实战之一 - 基于Requests爬取拉勾网招聘信息,并保存至本地csv文件

    Python爬虫实战之二 - 基于Requests抓取拉勾网招聘信息 ---------------readme--------------- 简介:本人产品汪一枚,Python自学数月,对于小白,本 ...

  9. requests+bs4+正则爬取前程无忧招聘信息进阶版

    整理思路 获取所有职位信息的url 通过正则去掉不符合要求的url 爬取详情页信息 解析详情页 写入txt文件 循环抓取 提高速度多线程爬取 先放上url:https://search.51job.c ...

最新文章

  1. zookeeper脑裂
  2. Server.MapPath()目录详解
  3. 统计MySQL中某数据库硬盘占用量大小
  4. 银河麒麟通过命令行安装软件没有安装上
  5. PostgreSQL类似Oracle MERGE功能的实现
  6. gpio 树莓派3a+_树莓派4正式发布:35美元起售!真香
  7. 如何禁止用户安装应用程序,记下来,方便以后用
  8. 大数据处理的基本流程:数据抽取与集成+数据分析+数据解释
  9. ENSP教程---配置DHCP
  10. 留言列表模板HTML代码
  11. Dw cs6的详细下载安装教程对网页设计需要cs6的同学
  12. html怎么改变图片整体大小,html怎么改变图片大小?
  13. Chain ‘MASQUERADE‘ does not exist 报错解决
  14. halcon算子翻译——cooc_feature_matrix
  15. activemq管理页面
  16. 黑崎一护为什么没有和朽木露琪亚在一起
  17. LinuxRaid的基本知识点
  18. 阿龙学堂-算法-逻辑回归
  19. 【以太网硬件十八】网卡是什么?
  20. 现在Php、Java、Python横行霸道的市场,C++程序员们都在干什么呢?

热门文章

  1. mybatis postgres conflict 保存或更新
  2. 简单梳理大数据编年史
  3. 进程调度算法相关习题
  4. 老路《用得上的商学课》学习笔记(6-10课)
  5. java基础代码怎么学_新手入门Java,如何能学好
  6. Kafka的数据是如何存储的
  7. 微信小程序引入iconfont图标,解决渲染层失败(2022年7月11日)
  8. OmniPlan Pro 4:项目流程管理工具
  9. HTML静态网页设计基础
  10. 【屏蔽贴吧广告】贴吧广告屏蔽办法-解决方案 【普通用户 非会员】