在之前的博客《用python爬虫制作图片下载器(超有趣!)》中,小菌为大家分享了如何制作一个快捷便利的图片下载器。本次分享,小菌为大家带来的同样是关于爬虫程序方面的分享——获取拉勾网在线搜索消息。话不多说,直接上代码!

# -*- encoding: utf-8 -*-
"""
@File    : 拉勾网在线搜索招聘信息(手动).py
@Time    : 2019/10/27 14:27
@Author  : 封茗囧菌
@Software: PyCharm转载请注明原作者创作不易,仅供分享"""
#  导入相应的包
import requests
import time
import json
from urllib.parse import quotedef get_page(url_start,url_parse,params,job):#  创建一个session对象s = requests.Session()#  用session对象发出get请求,请求首页获取cookiess.get(url_start, headers=headers, timeout=3)#  获取此处的cookiecookie = s.cookies#  获取此次的文本response = s.post(url_parse, data=params, headers=headers, cookies=cookie, timeout=3)#  设置每次请求间隔5秒钟time.sleep(5)#  获取json格式的数据json_data = json.loads(response.text)#  从json数据中获取到数据的总数total_Count = json_data['content']['positionResult']['totalCount']print("搜索结果一共有:"+str(total_Count)+"条")'''拉勾网每页是15条数据,默认只有30页的信息,如果抓取信息的总数/15>30,就取30页'''if int(total_Count/15) < 30 :page_number = int(total_Count/15)else:page_number = 30#  根据页数决定方法调用的次数for pn in range(1, page_number + 1):get_info(url_start, url_parse, pn, job)print("~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~")def get_info(url_start,url_parse,page_number,job):print("正在爬取第"+str(page_number)+"页数据")data = {'first': 'false','pn': page_number, # 页数'kd': job  # 搜索的关键字}#  创建一个session对象s = requests.Session()#  用session对象发出get请求,请求首页获取cookiess.get(url_start, headers=headers, timeout=3)#  获取此处的cookiecookie = s.cookies#  获取此次的文本response = s.post(url_parse, data=data, headers=headers, cookies=cookie, timeout=3)#  设置爬虫休眠5秒time.sleep(5)#  整理json格式text = json.loads(response.text)#  获取信息列表info = text['content']['positionResult']['result']for i in info :# 获取公司idprint('公司id', i['companyId'])# 获取公司全名print('公司全名', i['companyFullName'])# 获取位置print('位置', i['city'])# 获取薪资print('薪资', i['salary'])# 获取公司规模print('公司所在人数', i['companySize'])# 获取要求技能print('所需技能', i['skillLables'])# 招聘信息发布时间print('信息发布时间', i['createTime'])# 区域print('所在区域', i['district'])# 要求学历print('要求学历', i['education'])#  车站名称print('车站名称', i['stationname'])print("===========================================================")if __name__ == '__main__':      #  主程序入口job = input("欢迎来到拉勾网,请输入您想咨询的职位:")# 想要在URL中拼凑中文,需要将中文内容进行【转码】,用16进制表示job_transcode = quote(job)print("job", job_transcode)#  主url【要爬取数据页面首页】url_start = "https://www.lagou.com/jobs/list_"+job_transcode+"/p-city_0?&cl=false&fromSearch=true&labelWords=&suginput="#  ajax请求url_parse = "https://www.lagou.com/jobs/positionAjax.json?needAddtionalResult=false"print(url_start)params = {'first': 'true','pn': '1','kd': job}# 加入请求头,伪装成浏览器headers = {'Accept': 'application/json, text/javascript, */*; q=0.01','Referer': 'https://www.lagou.com/jobs/list_'+job_transcode+'/p-city_undefined?&cl=false&fromSearch=true&labelWords=&suginput=','User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Safari/537.36'}get_page(url_start, url_parse, params, job)

效果图

        细心的小伙伴可能发现了,这次的爬虫程序跟上次分享的图片下载器完全不是一个级别的,怎么那么多处代码看不懂 ̄へ ̄其实很正常啦,因为爬虫的下限很低,上限极高。(如果每个网站的数据都那么好获取,那让该网站背后的程序员情何以堪)可能对于初学爬虫不久的学者来说,理解该次爬虫的过程比较的困难。但莫言先生曾经说过:

当你的才华还撑不起你的野心的时候,你就应该静下心来学习;当你的能力还驾驭不了你的目标时,就应该沉下心来,历练。

流年笑掷 未来可期!本次的分享就到这里,后续小菌还会推出更多有趣的爬虫,喜欢的小伙伴不要忘了点赞关注小菌~

python爬虫获取拉钩网在线搜索招聘信息(超实用!)相关推荐

  1. python爬虫应聘信息_python爬虫获取拉钩网在线搜索招聘信息(超实用!)

    # -*- encoding: utf-8 -*- """ """ #  导入相应的包 import requests import tim ...

  2. Python爬虫获取最近七天天气预报信息

    主要用到python的requests库和BeatifulSoup库,代码如下: #encoding:utf-8 import requests import psycopg2 import date ...

  3. Python 爬虫获取 URP 教务系统学籍信息,你的信息 正暴露在 互联网中!

    初衷 本文旨在提醒同学们及时修改密码,增强保护个人隐私的意识,因此代码中一些关键数据以及校名等信息不会公开!复制粘贴文章中的代码不会爬到任何东西.只是作为学习 Python 爬虫的一点总结而已! 作者 ...

  4. Python笔记-获取拉钩网南京关于python岗位数据

    FIddler抓包如下: 程序打印如下: 源码如下: import re import requestsclass HandleLaGou(object):def __init__(self):sel ...

  5. python爬虫 获取华为应用商店app信息

    最近项目需要几个品牌手机应用商店上app的一些数据,所以就上网找了一些爬虫的文章,一边学一边做,把方法记录下来,方便以后查看. 代码具体功能是爬取华为应用商店上app的数据,并把数据放到一个csv文件 ...

  6. python爬虫入门教程04:招聘信息爬取

    前言

  7. python爬虫 获取小米应用商店app信息

    接着上一篇文章,这次爬取小米app的数据. 主要是爬取应用和游戏这两类的app数据 import requests from lxml import etree import re import da ...

  8. python爬虫获取天猫店铺信息(更新到2020年)

    python爬虫获取天猫店铺信息 爬取需求 在天猫搜索一个关键词,然后抓取这个关键词下的相关店铺,由于taobao的反爬策略,只能爬取到第十页大概200个店铺的信息. 效果预览 最终爬取的数据用exc ...

  9. python爬虫获取肯德基门店信息

    python爬虫获取肯德基门店信息 1.在谷歌浏览器中打开肯德基官网,进入餐厅查询页面 2.在搜索框中输入地区并按f12打开开发者工具 发现已经抓取到了一条Ajax请求,可以从中获取请求的url,以及 ...

最新文章

  1. HTML5 Placeholder实现input背景文字提示效果
  2. C语言结构体字节对齐
  3. mysql join buffer_MySQL cache之join buffer的优化
  4. 如何使用PerfSONAR测试网络
  5. python知识点总结一
  6. gps 捕获 matlab,基于FFT的GPS信号快速捕获方法
  7. k8s升级从1.13到1.16教程与采坑解决办法
  8. 批处理只执行第一句,其他的不被执行,怎么办?
  9. M1 Pro MacBook Pro下载Android11源码
  10. 如何利用Excel将文字颠倒顺序显示
  11. Python之Pandas文本处理
  12. 南邮——计算机图像学——光照、冯氏光照模型
  13. 被小伙伴要出来的文章[0]:英语学习
  14. 三阶齐次线性方程求通解_三阶常系数线性微分方程特解的简单求法
  15. 功能强大、多合一,Java性能调优VisualVM多合一工具
  16. 祝贺| 蚂蚁金服年轻交互设计师陈凯翔,荣获HCII 2018 最佳论文奖
  17. 如何启动 与配置tomcat 服务端,修改startup.bat乱码现象
  18. 人工智能:一种现代方法学习笔记(第六章)——约束满足问题
  19. echarts gl在地球上添加发光柱
  20. Swift常用语法示例代码(一)

热门文章

  1. 有限个无穷小的乘积也是无穷小
  2. 如何让孩子戒掉手机瘾游戏瘾,小学生迷恋游戏怎么办?
  3. 基于pandas的粗糙集依赖度约简算法思路及实现
  4. php微信开源框架,SOPHP免费微信开源框架 php版 v4.5
  5. Pandas: 交叉表(crosstab)和透视表(pivot_table)的用法
  6. 大脑分区不是功能关键!Science封面4文连发:智慧从脑区间连接中诞生
  7. 笔记本电脑重装系统后CPU风扇噪音很大怎么办
  8. MATLAB2019a中文设置的一些说明
  9. NewH3C—IP路由原理(静态路由)
  10. Git 提示Your branch is up-to-date with 'origin/master'