使用scrapy框架爬取腾讯招聘信息
我之前已经写过爬取腾讯招聘的博客,我是用多线程,生产者与消费者模式结合的方式写的,有兴趣的欢迎看一看
以下是博客链接:https://blog.csdn.net/g_optimistic/article/details/90048696
下面写的是用scrapy框架爬腾讯招聘
目录
1.创建爬虫文件
2.找接口 url
3.访问url
4.解析数据并保存
5.运行项目
6.s_tencent.py文件的完整代码
1.创建爬虫文件
scrapy genspider s_tencent careers.tencent.com
2.找接口 url
详细的过程之前的博客写过了,在这里我直接给出:
pageIndex里面穿的参数是页码
https://careers.tencent.com/tencentcareer/api/post/Query?keyword=python&pageIndex={}&pageSize=10
3.访问url
start_urls = []
for page in range(1, 62):url = 'https://careers.tencent.com/tencentcareer/api/post/Query?keyword=python&pageIndex=%s&pageSize=10' % pagestart_urls.append(url)
4.解析数据并保存
content = response.body.decode('utf-8')data = json.loads(content)job_list = data['Data']['Posts']for job in job_list:name = job['RecruitPostName']country = job['CountryName']duty = job['Responsibility']# info=name+country+duty+'\n'info = {"name": name,"country": country,"duty": duty,}with open('job.txt', 'a', encoding='utf-8') as fp:fp.write(str(info)+'\n')
5.运行项目
scrapy crawl s_tencent
结果:程序运行结束,出现了job.txt
6.s_tencent.py文件的完整代码
# -*- coding: utf-8 -*-
import scrapy
import jsonclass STencentSpider(scrapy.Spider):name = 's_tencent'allowed_domains = ['careers.tencent.com']start_urls = []for page in range(1, 62):url = 'https://careers.tencent.com/tencentcareer/api/post/Query?keyword=python&pageIndex=%s&pageSize=10' % pagestart_urls.append(url)def parse(self, response):content = response.body.decode('utf-8')data = json.loads(content)job_list = data['Data']['Posts']for job in job_list:name = job['RecruitPostName']country = job['CountryName']duty = job['Responsibility']# info=name+country+duty+'\n'info = {"name": name,"country": country,"duty": duty,}with open('job.txt', 'a', encoding='utf-8') as fp:fp.write(str(info)+'\n')
使用scrapy框架爬取腾讯招聘信息相关推荐
- 利用Scrapy框架爬取前途无忧招聘信息
利用Scrapy框架爬取前途无忧招聘信息 关于安装和命令使用可参考:https://docs.scrapy.org/en/1.7/intro/install.html 先创建项目和爬虫文件 分析网站 ...
- python scrapy框架爬取知乎提问信息
前文介绍了python的scrapy爬虫框架和登录知乎的方法. 这里介绍如何爬取知乎的问题信息,并保存到mysql数据库中. 首先,看一下我要爬取哪些内容: 如下图所示,我要爬取一个问题的6个信息: ...
- Python爬虫实战+Scrapy框架 爬取当当网图书信息
1.环境准备 1.在python虚拟环境终端使用 pip install scrapy下载scrapy依赖库 2.使用scrapy startproject book创建scrapy心目工程 3.使用 ...
- 自动化爬虫爬取腾讯招聘信息
输入页数开始爬取 可设定是否无头浏览 有一个坑就是在翻页时无法直接click该元素 要写一个执行js 预览图: 上代码 import time from selenium import webdriv ...
- Python爬虫 scrapy框架 爬取智联招聘,并把数据存入数据库,存为json格式的数据
First:创建项目:执行下面三句命令: 1. scrapy startproject zhilianzhaopin2. cd zhilianzhaopin3.scrapy genspider zhi ...
- 杀鸡用用牛刀 scrapy框架爬取豆瓣电影top250信息
文章目录 一.分析网页 二.scrapy爬虫 三.处理数据 原文链接:https://yetingyun.blog.csdn.net/article/details/108282786 创作不易,未经 ...
- Python爬虫 scrapy框架爬取某招聘网存入mongodb解析
这篇文章主要介绍了Python爬虫 scrapy框架爬取某招聘网存入mongodb解析,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下 创建项目 sc ...
- 【Python】Scrapy爬虫框架小试牛刀:爬取某论坛招聘信息
Scrapy爬虫框架小试牛刀:爬取某论坛招聘信息 背景 Scrapy工作原理 创建项目 创建爬虫 确定数据爬取思路 编写对象:item.py 制作爬虫:muchongrecruit.py 存储内容:p ...
- 【python爬虫02】使用Scrapy框架爬取拉勾网招聘信息
使用Scrapy框架爬取拉勾网招聘信息 最近接触了Scrapy爬虫框架,简单写了个爬虫爬取拉钩网的招聘信息,加深对Scrapy框架的理解,不得不说Scrapy框架其实还是蛮方便的,就像爬虫流水线一样, ...
- scrapy获取a标签的连接_python爬虫——基于scrapy框架爬取网易新闻内容
python爬虫--基于scrapy框架爬取网易新闻内容 1.需求[前期准备] 2.分析及代码实现(1)获取五大板块详情页url(2)解析每个板块(3)解析每个模块里的标题中详情页信息 点击此处,获取 ...
最新文章
- ZigBee网络架构详解
- 网优测试软件p,网优到底是干啥的?
- Spring Boot的Properties和YAML配置文件详解:
- 从服务端接收数组_Kafka系列第6篇:消息是如何在服务端存储与读取的,你真的知道吗?...
- 拓端tecdat:R语言贝叶斯广义线性混合效应(多层次/水平/嵌套)模型GLMM、逻辑回归分析教育留级影响因素数据
- 分享一下好用的本地格式化软件hijson,这个居然还有人要收费才能下载,真是醉了
- oracle中group by rollup函数的的用法
- echarts入门教程(超级详细带案例)
- Doxyfile 生成CHM
- Windows11/10 环境下安装Madagascar (WSL Ubuntu)
- swift-UIStoryboard故事板
- BERT知识点汇总(en cour...)
- Vue-5 路由参数的传递和获取(query 和 params),导航守卫和路由元信息,History模式
- 用Matlab搞了个小工具,以后给你女朋友的证件照换底色再也不用发愁了
- 高中数学之向量外积的运用
- signature=b4b1c7e18770785c0aa672d85aa24d2b,Surveying Extended GMSB Models with mh=125 GeV
- 全球及中国专用肥行业供需态势与未来运行前景规划报告2022版
- plsql 删除一直在执行_固态硬盘开启Trim后,删除数据究竟能不能恢复?
- Python语言程序设计 习题5
- centos7中安装pip