python爬虫获取拉钩网在线搜索招聘信息(超实用!)

在之前的博客《用python爬虫制作图片下载器(超有趣!)》中,小菌为大家分享了如何制作一个快捷便利的图片下载器。本次分享,小菌为大家带来的同样是关于爬虫程序方面的分享——获取拉勾网在线搜索消息。话不多说,直接上代码!

# -*- encoding: utf-8 -*-
"""
@File    : 拉勾网在线搜索招聘信息(手动).py
@Time    : 2019/10/27 14:27
@Author  : 封茗囧菌
@Software: PyCharm转载请注明原作者创作不易，仅供分享"""
#  导入相应的包
import requests
import time
import json
from urllib.parse import quotedef get_page(url_start,url_parse,params,job):#  创建一个session对象s = requests.Session()#  用session对象发出get请求，请求首页获取cookiess.get(url_start, headers=headers, timeout=3)#  获取此处的cookiecookie = s.cookies#  获取此次的文本response = s.post(url_parse, data=params, headers=headers, cookies=cookie, timeout=3)#  设置每次请求间隔5秒钟time.sleep(5)#  获取json格式的数据json_data = json.loads(response.text)#  从json数据中获取到数据的总数total_Count = json_data['content']['positionResult']['totalCount']print("搜索结果一共有:"+str(total_Count)+"条")'''拉勾网每页是15条数据,默认只有30页的信息,如果抓取信息的总数/15>30,就取30页'''if int(total_Count/15) < 30 :page_number = int(total_Count/15)else:page_number = 30#  根据页数决定方法调用的次数for pn in range(1, page_number + 1):get_info(url_start, url_parse, pn, job)print("~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~")def get_info(url_start,url_parse,page_number,job):print("正在爬取第"+str(page_number)+"页数据")data = {'first': 'false','pn': page_number, # 页数'kd': job  # 搜索的关键字}#  创建一个session对象s = requests.Session()#  用session对象发出get请求，请求首页获取cookiess.get(url_start, headers=headers, timeout=3)#  获取此处的cookiecookie = s.cookies#  获取此次的文本response = s.post(url_parse, data=data, headers=headers, cookies=cookie, timeout=3)#  设置爬虫休眠5秒time.sleep(5)#  整理json格式text = json.loads(response.text)#  获取信息列表info = text['content']['positionResult']['result']for i in info :# 获取公司idprint('公司id', i['companyId'])# 获取公司全名print('公司全名', i['companyFullName'])# 获取位置print('位置', i['city'])# 获取薪资print('薪资', i['salary'])# 获取公司规模print('公司所在人数', i['companySize'])# 获取要求技能print('所需技能', i['skillLables'])# 招聘信息发布时间print('信息发布时间', i['createTime'])# 区域print('所在区域', i['district'])# 要求学历print('要求学历', i['education'])#  车站名称print('车站名称', i['stationname'])print("===========================================================")if __name__ == '__main__':      #  主程序入口job = input("欢迎来到拉勾网,请输入您想咨询的职位:")# 想要在URL中拼凑中文,需要将中文内容进行【转码】,用16进制表示job_transcode = quote(job)print("job", job_transcode)#  主url【要爬取数据页面首页】url_start = "https://www.lagou.com/jobs/list_"+job_transcode+"/p-city_0?&cl=false&fromSearch=true&labelWords=&suginput="#  ajax请求url_parse = "https://www.lagou.com/jobs/positionAjax.json?needAddtionalResult=false"print(url_start)params = {'first': 'true','pn': '1','kd': job}# 加入请求头,伪装成浏览器headers = {'Accept': 'application/json, text/javascript, */*; q=0.01','Referer': 'https://www.lagou.com/jobs/list_'+job_transcode+'/p-city_undefined?&cl=false&fromSearch=true&labelWords=&suginput=','User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Safari/537.36'}get_page(url_start, url_parse, params, job)

效果图

细心的小伙伴可能发现了,这次的爬虫程序跟上次分享的图片下载器完全不是一个级别的，怎么那么多处代码看不懂￣へ￣其实很正常啦,因为爬虫的下限很低,上限极高。(如果每个网站的数据都那么好获取,那让该网站背后的程序员情何以堪)可能对于初学爬虫不久的学者来说，理解该次爬虫的过程比较的困难。但莫言先生曾经说过：

当你的才华还撑不起你的野心的时候，你就应该静下心来学习；当你的能力还驾驭不了你的目标时，就应该沉下心来，历练。

流年笑掷未来可期!本次的分享就到这里,后续小菌还会推出更多有趣的爬虫，喜欢的小伙伴不要忘了点赞关注小菌~

python爬虫获取拉钩网在线搜索招聘信息(超实用!)相关推荐

python爬虫应聘信息_python爬虫获取拉钩网在线搜索招聘信息(超实用!)
# -*- encoding: utf-8 -*- """ """ # 导入相应的包 import requests import tim ...
Python爬虫获取最近七天天气预报信息
主要用到python的requests库和BeatifulSoup库,代码如下: #encoding:utf-8 import requests import psycopg2 import date ...
Python 爬虫获取 URP 教务系统学籍信息，你的信息正暴露在互联网中！
初衷本文旨在提醒同学们及时修改密码,增强保护个人隐私的意识,因此代码中一些关键数据以及校名等信息不会公开!复制粘贴文章中的代码不会爬到任何东西.只是作为学习 Python 爬虫的一点总结而已! 作者 ...
Python笔记-获取拉钩网南京关于python岗位数据
FIddler抓包如下: 程序打印如下: 源码如下: import re import requestsclass HandleLaGou(object):def __init__(self):sel ...
python爬虫获取华为应用商店app信息
最近项目需要几个品牌手机应用商店上app的一些数据,所以就上网找了一些爬虫的文章,一边学一边做,把方法记录下来,方便以后查看. 代码具体功能是爬取华为应用商店上app的数据,并把数据放到一个csv文件 ...
python爬虫入门教程04：招聘信息爬取
前言
python爬虫获取小米应用商店app信息
接着上一篇文章,这次爬取小米app的数据. 主要是爬取应用和游戏这两类的app数据 import requests from lxml import etree import re import da ...
python爬虫获取天猫店铺信息（更新到2020年）
python爬虫获取天猫店铺信息爬取需求在天猫搜索一个关键词,然后抓取这个关键词下的相关店铺,由于taobao的反爬策略,只能爬取到第十页大概200个店铺的信息. 效果预览最终爬取的数据用exc ...
python爬虫获取肯德基门店信息
python爬虫获取肯德基门店信息 1.在谷歌浏览器中打开肯德基官网,进入餐厅查询页面 2.在搜索框中输入地区并按f12打开开发者工具发现已经抓取到了一条Ajax请求,可以从中获取请求的url,以及 ...

python爬虫获取拉钩网在线搜索招聘信息(超实用!)

python爬虫获取拉钩网在线搜索招聘信息(超实用!)相关推荐

最新文章

热门文章