python爬取大学生就业分析专科和本科的信息https://edu.jobui.com/major/(上)JSON的存储
一,爬虫步骤
1.导入模块json,requests,lxml
2.url地址
3,请求头
4.get请求 200正常访问
5.解码
6.找到节点
7.创建一个存储所有信息的列表
8.循环遍历li节点
9.创建一个字典来存储每个li的内容
10.找到要爬取的内容将它们存储到字典里面
11.将每个字典存储到列表里面
12.将列表存储到JSON文件里面
13.爬取完成提示
二,爬虫源代码
import json
import requests as r
from lxml import etreeurl = 'https://edu.jobui.com/major/'
hea = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) ''AppleWebKit/537.36 (KHTML, like Gecko) ''Chrome/107.0.0.0 Safari/537.36 Edg/107.0.1418.42'}
rel = r.get(url, headers=hea)
# print(rel)
cenet = rel.content.decode()
# print(cenet)
html = etree.HTML(cenet)
list_ol = html.xpath(".//ol[@class='tblist-list']/li")
list_xx = []
for ol in list_ol:d = {}zhuany = ol.xpath("a[@class='c33 tblist-second fs16 text-ellipsis']/text()")[0]d['career'] = zhuanyzhishu = ol.xpath("span[@class='tblist-third']/text()")[0]d['employment_index'] = zhishulist_xx.append(d)
with open('xx.json', 'w', encoding='utf-8') as f:json.dump(list_xx, f, ensure_ascii=False, indent=2)
print("爬取完成")
三,结果JSON
[
{
"career": "工程管理",
"employment_index": "310974"
},
{
"career": "计算机科学与技术",
"employment_index": "182780"
},
{
"career": "英语",
"employment_index": "160630"
},
{
"career": "自动化",
"employment_index": "159615"
},
{
"career": "材料成型及控制工程",
"employment_index": "129387"
},
{
"career": "统计学",
"employment_index": "127199"
},
{
"career": "软件工程",
"employment_index": "108064"
},
{
"career": "教育学",
"employment_index": "103145"
},
{
"career": "信息工程",
"employment_index": "102968"
},
{
"career": "金融学",
"employment_index": "92212"
},
{
"career": "项目管理",
"employment_index": "439843"
},
{
"career": "市场营销",
"employment_index": "99011"
},
{
"career": "人力资源管理",
"employment_index": "84706"
},
{
"career": "商务管理",
"employment_index": "83531"
},
{
"career": "会计",
"employment_index": "69064"
},
{
"career": "软件测试技术",
"employment_index": "58940"
},
{
"career": "教育管理",
"employment_index": "57999"
},
{
"career": "通信技术",
"employment_index": "49287"
},
{
"career": "旅游管理",
"employment_index": "48738"
},
{
"career": "计算机通信",
"employment_index": "48508"
}
]
python爬取大学生就业分析专科和本科的信息https://edu.jobui.com/major/(上)JSON的存储相关推荐
- Python爬取并简单分析2024年普通高校招生专业(专业类)选考科目要求
推荐教材: <Python网络程序设计(微课版)>,ISBN:978-7-302-58312-7,董付国,清华大学出版社,2021年8月出版,京东.当当.淘宝均有销售 配套资源: 教学大纲 ...
- 我用Python爬取了14年所有的福彩3D信息,彩民们,只能帮你们到这了
作者|丁彦军 来源|恋习Python 前两天,在网上看到一个有意思的问题:彩票预测靠谱么?为什么还有那么多的人相信彩票预测? 暂且不说,彩票预测是否靠谱?彩票预测也分人而异,江湖上骗术很多,有些甚至会 ...
- python爬虫能秒杀么_面试题之用python爬取并夕夕不同时段秒杀商品信息
先上效果图吧(因为确实也是刚入门,很多细节没有注意到的,各位尽管提出来) 并夕夕很多时候都在不停的有秒杀商品的活动,对于价格问题,我就没法讨论了,但是人家能吸引到这么多流量,真本事还是有些的. 我只在 ...
- python 抓包秒杀_面试题之用python爬取并夕夕不同时段秒杀商品信息
先上效果图吧(因为确实也是刚入门,很多细节没有注意到的,各位尽管提出来) 并夕夕很多时候都在不停的有秒杀商品的活动,对于价格问题,我就没法讨论了,但是人家能吸引到这么多流量,真本事还是有些的. 我只在 ...
- python爬历年大学生就业数据_Python就业行情和前景分析之一爬取数据
Python就业行情和前景分析之一爬取数据 http://zzdxb.baikezh.com/ 最近Python大热,就想要分析一下相关的市场需求,看一下Python到底集中在哪些城市,企业对Pyth ...
- python爬取京东评论分析_【实战好文】|爬取京东书籍评论并分析
原标题:[实战好文]|爬取京东书籍评论并分析 这是菜鸟学Python的粉丝第10篇原创投稿 阅读本文大概需要5分钟 本篇作者:小郑同学 上周的赠书活动中,收到了楼主送的<利用Python进行数据 ...
- python爬取全国房价并分析
使用方法 程序原理 数据来源 数据爬取 mac下mysql安装&使用&创建库和表 网站爬取分析 网站数据抓取代码基础 数据分析 我相信国内房价一直都是苦逼程序员比较关注的事情,我也非常 ...
- 哪吒票房逼近40亿,用python爬取哪吒短评分析
目录 前言 分析 具体步骤 登录 爬取与存储 可视化分析 结语 前言 暑期档电影惨淡,但随着哪吒爆红开拓了新局面.这也是国产动画的首次爆红.在哪吒刚出,笔者以为最多10亿就算不错的了.没想过仅过了几天 ...
- python画哪吒_哪吒票房逼近30亿,python爬取哪吒短评分析
目录 前言 分析 具体步骤 登录 爬取与存储 可视化分析 结语 前言 暑期档电影惨淡,但随着哪吒爆红开拓了新局面.这也是国产动画的首次爆红.在哪吒刚出,笔者以为最多10亿就算不错的了.没想过仅过了几天 ...
最新文章
- 图书借阅系统java_基于JAVAWEB的图书借阅系统
- linux 测试vim编译器_推荐几个好用的在线编译器
- java后台访问接口
- CVPR 2019 | 实体零售场景下密集商品的精确探测
- Json字符串和Json对象的简单总结
- 透过汇编另眼看世界之函数调用
- MySQL三层逻辑架构
- GUID generation RSS_SYSTEM_GET_UNIQUE_ID
- 【TensorFlow】TensorFlow函数精讲之tf.nn.conv2d()
- python多元线性回归代码_Python实现梯度下降算法求多元线性回归(一)
- OI、ACM大佬楼天城的回忆录
- 用神经网络实现手写数字识别
- 中元节,会吃的民族带你了解“鬼节”的习俗
- 石柯送点 国足0:2不敌韩国小组第二出线
- iPhone媒体服务器修改,逆天!手工暴改iPhone 6 内存秒变2GB
- 英语写作翻译-形容词(一)
- 网址在QQ微信被拦截怎么办?怎么样才能让被微信屏蔽的网址正常访问
- 【电源设计】06正激式开关电源
- python量化分析系列之---5行代码实现1秒内获取一次所有股票的实时分笔数据
- P6专题:P6 EPPM和PPM基本概念
热门文章
- 重学Elasticsearch第1章 : Elasticsearch, Kibana概念、Elasticsearch相关术语
- 记一次 controller manager and scheduler 重复重启问题分析
- volatile保证可见性的验证
- 算法图解——广度优先搜索
- 【网络流量识别】【聚类】【二】FCM和GMM—使用聚类技术和性能比较进行网络流量异常检测
- PPTV多屏互动服务器可以看文档吗,关闭或删除PPTv多屏互动服务器的方法
- ffmpeg流媒体视频合并(画中画)效果并推流
- 基于JAVA郑州卷烟厂库存管理系统计算机毕业设计源码+系统+mysql数据库+lw文档+部署
- 马来西亚之旅——吉隆坡、马六甲、槟城和亚庇攻略
- stm32f407探索者开发板(二)——新建工程(基于固件库)