准备工作

新建项目-新建pythonfile

安装爬虫模块

1

pip install requests

requests的常用函数

request.get(),对应http协议的get请求,也就是把网页下载下来。

request.post(),对应http协议的post请求,就是把数据上传到网页服务器。

观察boss直聘的url。

1

https://www.zhipin.com/c101250100-p110101/

通过观察发现,后面应该是城市代码和职位代码

通过检查-network发现,城市代码应该是储存在city.json里面

职位代码应该是储存在position.json里面

通过观察:city.json的url为

1

https://www.zhipin.com/wapi/zpcommon/data/city.json

postion.json的url为

1

https://www.zhipin.com/wapi/zpcommon/data/position.json

爬取城市代码

测试连接

1

2

3

4

5

import requests

# requests-->请求

url = 'https://www.zhipin.com/wapi/zpcommon/data/city.json' # boss直聘城市链接

response = requests.get(url)

print(response) # 打印响应

返回值:

1

200:代表返回成功

404:网络连接失败

500:服务器奔溃

加入浏览器伪装头’user-agent’,防止被服务器发现你是爬虫

1

headers = {'user-agent': 'mozilla/5.0 (x11; linux x86_64) applewebkit/537.36 (khtml, like gecko) chrome/80.0.3987.106 safari/537.36'}

第一次打印

1

2

3

4

5

6

7

8

import requests

from pprint import pprint

url = 'https://www.zhipin.com/wapi/zpcommon/data/city.json' # boss直聘城市代码

headers = {'user-agent': 'mozilla/5.0 (x11; linux x86_64) \

applewebkit/537.36 (khtml, like gecko) chrome/80.0.3987.106 safari/537.36'}

response = requests.get(url, headers=headers)

data = response.json() # 从返回对象中提取json

pprint(data)

结果如下:

根据上图观察,返回的json可以当成是一个多层字典。

数据均在zpdata\citylist下,于是对zpdata进行第一次解包。

对citylist进行第二次解包。

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

import requests

from pprint import pprint

url = 'https://www.zhipin.com/wapi/zpcommon/data/city.json' # boss直聘城市代码

headers = {'user-agent': 'mozilla/5.0 (x11; linux x86_64) \

applewebkit/537.36 (khtml, like gecko) chrome/80.0.3987.106 safari/537.36'}

response = requests.get(url, headers=headers)

data = response.json() # 从返回对象中提取json

data1 = data['zpdata']['citylist']

# pprint(data1)

for ii in data1:

province = ii['name'] # 省名

province_code = ii['code'] # 省对应的代码

city_list = ii['sublevelmodellist']

for ci in city_list:

city = ci['name'] # 城市名

city_code = ci['code'] # 城市代码

print(province, '\t', province_code, '\t', city, '\t', city_code)

省和城市代码就爬取完毕了,直接粘贴到excel就可以。至于如何直接导出excel,后面再说。

如您对本文有疑问或者有任何想说的,请点击进行留言回复,万千网友为您解惑!

boss直聘python_Boss直聘Python爬虫实战相关推荐

  1. Python爬虫实战之二 - 基于Scrapy框架抓取Boss直聘的招聘信息

    Python爬虫实战之三 - 基于Scrapy框架抓取Boss直聘的招聘信息 ---------------readme--------------- 简介:本人产品汪一枚,Python自学数月,对于 ...

  2. Python爬虫实战-数据可视化

    本文您将学到的东西包括: scrapy爬虫的设置 requests(一个用来发送HTTP请求的简单库) BeautifulSoup(一个从HTML和XML中解析数据的库) MongoDB的用法 Mon ...

  3. 我妈给我介绍对象了,我大学还没毕业呢,先在婚介市场也这么卷了的吗?【Python爬虫实战:甜蜜蜜婚介数据采集】

    大家好,我是辣条. 说出来你们可能不信,我一个在校还没毕业的学生家里竟然给我介绍对象了-这么着急的吗?现在结婚市场都这么卷了吗?男孩们女孩们不努力的话是会被家里捉回去结婚的哦. 这是和我妈的聊天对话, ...

  4. Python爬虫实战(1) | 爬取豆瓣网排名前250的电影(下)

    在Python爬虫实战(1) | 爬取豆瓣网排名前250的电影(上)中,我们最后爬出来的结果不是很完美,这对于"精益求精.追求完美的"程序猿来说怎么能够甘心 所以,今天,用pyth ...

  5. 线程,协程对比和Python爬虫实战说明

    此文首发于我的个人博客:线程,协程对比和Python爬虫实战说明 - zhang0peter的个人博客 这篇文章写的是我对线程和协程的理解,有错误之处欢迎指出. 举一个餐馆的例子.我们把一个餐厅当做一 ...

  6. python爬虫图片实例-【图文详解】python爬虫实战——5分钟做个图片自动下载器...

    我想要(下)的,我现在就要 python爬虫实战--图片自动下载器 之前介绍了那么多基本知识[Python爬虫]入门知识(没看的赶紧去看)大家也估计手痒了.想要实际做个小东西来看看,毕竟: talk ...

  7. python爬虫项目-32个Python爬虫实战项目,满足你的项目慌

    原标题:32个Python爬虫实战项目,满足你的项目慌 爬虫项目名称及简介 一些项目名称涉及企业名词,小编用拼写代替 1.[WechatSogou]- weixin公众号爬虫.基于weixin公众号爬 ...

  8. Python爬虫实战六之抓取爱问知识人问题并保存至数据库

    大家好,本次为大家带来的是抓取爱问知识人的问题并将问题和答案保存到数据库的方法,涉及的内容包括: Urllib的用法及异常处理 Beautiful Soup的简单应用 MySQLdb的基础用法 正则表 ...

  9. Python爬虫实战(5):模拟登录淘宝并获取所有订单

    Python爬虫入门(1):综述 Python爬虫入门(2):爬虫基础了解 Python爬虫入门(3):Urllib库的基本使用 Python爬虫入门(4):Urllib库的高级用法 Python爬虫 ...

  10. Python爬虫实战(4):抓取淘宝MM照片

    Python爬虫入门(1):综述 Python爬虫入门(2):爬虫基础了解 Python爬虫入门(3):Urllib库的基本使用 Python爬虫入门(4):Urllib库的高级用法 Python爬虫 ...

最新文章

  1. 逻辑回归(Logistic Regression)简介及C++实现
  2. c语言答案填空选择,C语言试题配答案
  3. C#7.0之ref locals and returns (局部变量和引用返回,之前欠大家的,现在补上)
  4. 向上取整的方法_瓷砖测量的方法有哪些?瓷砖尺寸一般是多少?
  5. 《啊哈!算法》笔记_Day03
  6. 河南测绘职业学院招生计算机,河南测绘职业学院代码
  7. android注册文件打开,Android项目实战系列—基于博学谷(三)注册与登录模块
  8. 单载波DSP模块介绍
  9. android 日历_适用于Android的十大最佳日历应用
  10. git stash暂存的操作
  11. 关于Win10已设置默认打开方式的清除方法
  12. 【Python 3.7】分子运动:修改 rw_visual.py,将其中的 plt.scatter() 替换为 plt.plot() 。为 模拟花粉在水滴表面的运动路径
  13. 花书 第十九章 第二十章
  14. 张丽俊最新演讲:要像竹子一样扎根,你终会一飞冲天
  15. REST API 最佳实践 – REST 端点设计示例
  16. 最狠的丞相李斯为何死在宦官赵高之手
  17. 光盘显示0字节可用_正点原子【STM32-F407探索者】第四十五章 汉字显示实验
  18. [一键CV] Blazor 拖放上传文件转换格式并推送到浏览器下载
  19. 结构体的大小如何计算
  20. 评“最惨创业者”:伪装的道德,轻松绑架了契约精神

热门文章

  1. 华为与小米赛跑,谁是胜利者?
  2. opencv实现二值图像孔洞填充
  3. 华为交换机记录日志_从S5700交换机获取日志文件
  4. 【数据结构】【c】关于malloc和realloc
  5. nus 计算机博士申请,新加坡博士留学|新加坡国立大学(NUS)博士申请条件
  6. Excel操作类-CSpreadSheet and BasicExcel
  7. 实现Excel文件的统一读取功能(包含xls、xlsx、csv格式)
  8. 微信小程序如何实现返回上一页功能
  9. svn 服务器 维护,SVN教程(2)svn常用命令说明
  10. 人生若只如初见(二)