本文主要向大家介绍了Python语言爬虫——Python 岗位分析报告,通过具体的内容向大家展示,希望对大家学习Python语言有所帮助。

前两篇我们分别爬取了糗事百科和妹子图网站,学习了 Requests, Beautiful Soup 的基本使用。不过前两篇都是从静态 HTML 页面中来筛选出我们需要的信息。这一篇我们来学习下如何来获取 Ajax 请求返回的结果。 本篇以拉勾网为例来说明一下如何获取 Ajax 请求内容简单分析五个城市 Python 岗位平均薪资水平Python 岗位要求学历分布Python 行业领域分布Python 公司规模分布查看页面结构我们输入查询条件以 Python 为例,其他条件默认不选,点击查询,就能看到所有 Python 的岗位了,然后我们打开控制台,点击网络标签可以看到如下请求:从响应结果来看,这个请求正是我们需要的内容。后面我们直接请求这个地址就好了。从图中可以看出 result 下面就是各个岗位信息。到这里我们知道了从哪里请求数据,从哪里获取结果。但是 result 列表中只有第一页 15 条数据,其他页面数据怎么获取呢?分析请求参数我们点击参数选项卡,如下:发现提交了三个表单数据,很明显看出来 kd 就是我们搜索的关键词,pn 就是当前页码。first 默认就行了,不用管它。剩下的事情就是构造请求,来下载 30 个页面的数据了。构造请求,并解析数据构造请求很简单,我们还是用 requests 库来搞定。首先我们构造出表单数据 data = {'first': 'true', 'pn': page, 'kd': lang_name} 之后用 requests 来请求url地址,解析得到的 Json 数据就算大功告成了。由于拉勾对爬虫限制比较严格,我们需要把浏览器中 headers 字段全部加上,而且把爬虫间隔调大一点,我后面设置的为 10-20s,然后就能正常获取数据了。import requestsdef get_json(url, page, lang_name):

headers = { 'Host': 'www.lagou.com', 'Connection': 'keep-alive', 'Content-Length': '23', 'Origin': 'https://www.lagou.com', 'X-Anit-Forge-Code': '0', 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:61.0) Gecko/20100101 Firefox/61.0', 'Content-Type': 'application/x-www-form-urlencoded; charset=UTF-8', 'Accept': 'application/json, text/javascript, */*; q=0.01', 'X-Requested-With': 'XMLHttpRequest', 'X-Anit-Forge-Token': 'None', 'Referer': 'https://www.lagou.com/jobs/list_python?city=%E5%85%A8%E5%9B%BD&cl=false&fromSearch=true&labelWords=&suginput=', 'Accept-Encoding': 'gzip, deflate, br', 'Accept-Language': 'en-US,en;q=0.9,zh-CN;q=0.8,zh;q=0.7'

}

data = {'first': 'false', 'pn': page, 'kd': lang_name}

json = requests.post(url, data, headers=headers).json()

list_con = json['content']['positionResult']['result']

info_list = [] for i in list_con:

info = []

info.append(i.get('companyShortName', '无'))

info.append(i.get('companyFullName', '无'))

info.append(i.get('industryField', '无'))

info.append(i.get('companySize', '无'))

info.append(i.get('salary', '无'))

info.append(i.get('city', '无'))

info.append(i.get('education', '无'))

info_list.append(info) return info_list获取所有数据了解了如何解析数据,剩下的就是连续请求所有页面了,我们构造一个函数来请求所有 30 页的数据。def main():

lang_name = 'python'

wb = Workbook()

conn = get_conn() for i in ['北京', '上海', '广州', '深圳', '杭州']:

page = 1

ws1 = wb.active

ws1.title = lang_name

url = 'https://www.lagou.com/jobs/positionAjax.json?city={}&needAddtionalResult=false'.format(i) while page < 31:

info = get_json(url, page, lang_name)

page += 1

import time

a = random.randint(10, 20)

time.sleep(a) for row in info:

insert(conn, tuple(row))

ws1.append(row)

conn.close()

wb.save('{}职位信息.xlsx'.format(lang_name))if __name__ == '__main__':

main()完整代码import randomimport timeimport requestsfrom openpyxl import Workbookimport pymysql.cursorsdef get_conn():

'''建立数据库连接'''

conn = pymysql.connect(host='localhost',

user='root',

password='root',

db='python',

charset='utf8mb4',

cursorclass=pymysql.cursors.DictCursor) return conndef insert(conn, info):

'''数据写入数据库'''

with conn.cursor() as cursor:

sql = "INSERT INTO `python` (`shortname`, `fullname`, `industryfield`, `companySize`, `salary`, `city`, `education`) VALUES (%s, %s, %s, %s, %s, %s, %s)"

cursor.execute(sql, info)

conn.commit()def get_json(url, page, lang_name):

'''返回当前页面的信息列表'''

headers = { 'Host': 'www.lagou.com', 'Connection': 'keep-alive', 'Content-Length': '23', 'Origin': 'https://www.lagou.com', 'X-Anit-Forge-Code': '0', 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:61.0) Gecko/20100101 Firefox/61.0', 'Content-Type': 'application/x-www-form-urlencoded; charset=UTF-8', 'Accept': 'application/json, text/javascript, */*; q=0.01', 'X-Requested-With': 'XMLHttpRequest', 'X-Anit-Forge-Token': 'None', 'Referer': 'https://www.lagou.com/jobs/list_python?city=%E5%85%A8%E5%9B%BD&cl=false&fromSearch=true&labelWords=&suginput=', 'Accept-Encoding': 'gzip, deflate, br', 'Accept-Language': 'en-US,en;q=0.9,zh-CN;q=0.8,zh;q=0.7'

}

data = {'first': 'false', 'pn': page, 'kd': lang_name}

json = requests.post(url, data, headers=headers).json()

list_con = json['content']['positionResult']['result']

info_list = [] for i in list_con:

info = []

info.append(i.get('companyShortName', '无')) # 公司名

info.append(i.get('companyFullName', '无'))

info.append(i.get('industryField', '无')) # 行业领域

info.append(i.get('companySize', '无')) # 公司规模

info.append(i.get('salary', '无')) # 薪资

info.append(i.get('city', '无'))

info.append(i.get('education', '无')) # 学历

info_list.append(info) return info_list # 返回列表def main():

lang_name = 'python'

wb = Workbook() # 打开 excel 工作簿

conn = get_conn() # 建立数据库连接 不存数据库 注释此行

for i in ['北京', '上海', '广州', '深圳', '杭州']: # 五个城市

page = 1

ws1 = wb.active

ws1.title = lang_name

url = 'https://www.lagou.com/jobs/positionAjax.json?city={}&needAddtionalResult=false'.format(i) while page < 31: # 每个城市30页信息

info = get_json(url, page, lang_name)

page += 1

time.sleep(random.randint(10, 20)) for row in info:

insert(conn, tuple(row)) # 插入数据库,若不想存入 注释此行

ws1.append(row)

conn.close() # 关闭数据库连接,不存数据库 注释此行

wb.save('{}职位信息.xlsx'.format(lang_name))if __name__ == '__main__':

本文由职坐标整理并发布,希望对同学们学习Python有所帮助,更多内容请关注职坐标编程语言Python频道!

python爬大学生就业信息报告_Python语言爬虫——Python 岗位分析报告相关推荐

  1. python爬大学生就业信息报告_Python程序员招聘市场简要报告

    python部落原创,禁止转载,欢迎转发 近期,Python小助理整理了前程无忧上面Python程序员招聘的信息.搜集了150家公司的Python程序员招聘信息,整理成表格.今天,小编根据表格的数据绘 ...

  2. python爬取js动态网页_Python 从零开始爬虫(八)——动态爬取解决方案 之 selenium

    selenium--自动化测试工具,专门为Web应用程序编写的一个验收测试工具,测试其兼容性,功能什么的.然而让虫师们垂涎的并不是以上的种种,而是其通过驱动浏览器获得的解析JavaScript的能力. ...

  3. python爬大学生就业数据_小猪的Python学习之旅 —— 16.再尝Python数据分析:采集拉勾网数据分析Android就业行情...

    一句话概括本文: 爬取拉钩Android职位相关数据,利用numpy,pandas和matplotlib对招人公司 情况和招聘要求进行数据分析. 引言: 在写完上一篇<浅尝Python数据分析: ...

  4. python爬取去哪儿网_python网络爬虫(12)去哪网酒店信息爬取

    目的意义 爬取某地的酒店价格信息,示例使用selenium在Firefox中的使用. 来源 少部分来源于书.python爬虫开发与项目实战 构造 本次使用简易的方案,模拟浏览器访问,然后输入字段,查找 ...

  5. python爬取京东手机数据_Python数据爬虫学习笔记(21)爬取京东商品JSON信息并解析...

    一.需求:有一个通过抓包得到的京东商品的JSON链接,解析该JSON内容,并提取出特定id的商品价格p,json内容如下: jQuery923933([{"op":"75 ...

  6. python爬取数据的原理_python学习之python爬虫原理

    原标题:python学习之python爬虫原理 今天我们要向大家详细解说python爬虫原理,什么是python爬虫,python爬虫工作的基本流程是什么等内容,希望对这正在进行python爬虫学习的 ...

  7. python爬取网易云音乐_Python 从零开始爬虫(七)——实战:网易云音乐评论爬取(附加密算法)...

    前言 某宝评论区已经成功爬取了,jd的也是差不多的方法,说实话也没什么好玩的,我是看上它们分析简单,又没加密才拿来试手的.如果真的要看些有趣的评论的话,我会选择网易云音乐,里面汇聚了哲学家,小说家,s ...

  8. python爬去百度百科词条_python简单爬虫爬取百度百科python词条网页

    目标分析: 目标:百度百科python词条相关词条网页 - 标题和简介 入口页:https://baike.baidu.com/item/Python/407313 URL格式: - 词条页面URL: ...

  9. python爬取有道词典_python之爬虫爬有道词典

    首先我们先去有道词典网站 找到这个网址的格式 然后 右键网页源代码 找到翻译所在的部分 并记录下来 现在浏览器部分的任务就完成了 我们现在开始敲代码 首先是url 就是有道的网址和我们要查找的单词 u ...

  10. python爬取控制台信息_python爬虫实战之爬取智联职位信息和博客文章信息

    1.python爬取招聘信息 简单爬取智联招聘职位信息 # !/usr/bin/env python # -*-coding:utf-8-*- """ @Author  ...

最新文章

  1. B1091 N-自守数 (15分)
  2. LINUX下的APACHE的配置
  3. 线程故事:关于健壮的线程池
  4. ssh自动输入密码登录服务器/ssh免输入密码登录/非交互ssh 密码验证
  5. Linux学习之ARM开发板连接ubuntu18.04LTS及NFS相关配置
  6. 软件设计师 - UML图
  7. 现代成功男人的硬指标:盖房,种树,写书
  8. 高管访谈:AI 驱动的新兴金融市场改革,还有这三项障碍
  9. mysql 主从复制日志_mysql主从复制基于日志复制
  10. (day 16 - 双指针)剑指 Offer 35. 复杂链表的复制
  11. 利用ENVI自带全球DEM数据计算区域平距高程
  12. spring3.0学习之环境搭建
  13. 一年中最后一个月的最后一天说说_一年最后一天的说说
  14. rockchip wificountry code
  15. 吴恩达亲述:如何高效阅读论文,开启一个新的领域!
  16. VScode 的 code snippet 中可以使用的一些变量(时间,日期等)
  17. 天天学JAVA-JAVA基础(3)
  18. 医院IPTV系统搭建 智慧医疗解决方案
  19. PHP Fatal error: Uncaught Error: Class ‘\Elasticsearch\Serializers\SmartSerializer‘ not found in /h
  20. 电子密码锁——数电课设

热门文章

  1. 无线局域网和蜂窝移动网络_为什么 iPhone 的数据流量叫做「蜂窝移动网络」?...
  2. 世界观的内涵是认识论模型
  3. 微信第三方服务商高度同质化 刷量服务难以持久
  4. Colly 爬虫学习笔记(一)——爬虫框架,抓取中金公司行业市盈率数据
  5. 三张图片无缝合成一张图片_怎样把两张照片连在一起合成一张照片
  6. Java工程师需要学习哪些技术?
  7. 本周最新文献速递20211219
  8. 如何拆分PDF文件,PDF如何拆分页面
  9. css常用单位总结: px / em / rem / vw / vh / vmax / vmin
  10. F - 喜欢砍竹子的黑泽明