一,爬虫步骤
1.导入模块json,requests,lxml
2.url地址
3,请求头
4.get请求 200正常访问
5.解码
6.找到节点
7.创建一个存储所有信息的列表
8.循环遍历li节点
9.创建一个字典来存储每个li的内容
10.找到要爬取的内容将它们存储到字典里面
11.将每个字典存储到列表里面
12.将列表存储到JSON文件里面
13.爬取完成提示

二,爬虫源代码

import json
import requests as r
from lxml import etreeurl = 'https://edu.jobui.com/major/'
hea = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) ''AppleWebKit/537.36 (KHTML, like Gecko) ''Chrome/107.0.0.0 Safari/537.36 Edg/107.0.1418.42'}
rel = r.get(url, headers=hea)
# print(rel)
cenet = rel.content.decode()
# print(cenet)
html = etree.HTML(cenet)
list_ol = html.xpath(".//ol[@class='tblist-list']/li")
list_xx = []
for ol in list_ol:d = {}zhuany = ol.xpath("a[@class='c33 tblist-second fs16 text-ellipsis']/text()")[0]d['career'] = zhuanyzhishu = ol.xpath("span[@class='tblist-third']/text()")[0]d['employment_index'] = zhishulist_xx.append(d)
with open('xx.json', 'w', encoding='utf-8') as f:json.dump(list_xx, f, ensure_ascii=False, indent=2)
print("爬取完成")

三,结果JSON

[
  {
    "career": "工程管理",
    "employment_index": "310974"
  },
  {
    "career": "计算机科学与技术",
    "employment_index": "182780"
  },
  {
    "career": "英语",
    "employment_index": "160630"
  },
  {
    "career": "自动化",
    "employment_index": "159615"
  },
  {
    "career": "材料成型及控制工程",
    "employment_index": "129387"
  },
  {
    "career": "统计学",
    "employment_index": "127199"
  },
  {
    "career": "软件工程",
    "employment_index": "108064"
  },
  {
    "career": "教育学",
    "employment_index": "103145"
  },
  {
    "career": "信息工程",
    "employment_index": "102968"
  },
  {
    "career": "金融学",
    "employment_index": "92212"
  },
  {
    "career": "项目管理",
    "employment_index": "439843"
  },
  {
    "career": "市场营销",
    "employment_index": "99011"
  },
  {
    "career": "人力资源管理",
    "employment_index": "84706"
  },
  {
    "career": "商务管理",
    "employment_index": "83531"
  },
  {
    "career": "会计",
    "employment_index": "69064"
  },
  {
    "career": "软件测试技术",
    "employment_index": "58940"
  },
  {
    "career": "教育管理",
    "employment_index": "57999"
  },
  {
    "career": "通信技术",
    "employment_index": "49287"
  },
  {
    "career": "旅游管理",
    "employment_index": "48738"
  },
  {
    "career": "计算机通信",
    "employment_index": "48508"
  }
]

python爬取大学生就业分析专科和本科的信息https://edu.jobui.com/major/(上)JSON的存储相关推荐

  1. Python爬取并简单分析2024年普通高校招生专业(专业类)选考科目要求

    推荐教材: <Python网络程序设计(微课版)>,ISBN:978-7-302-58312-7,董付国,清华大学出版社,2021年8月出版,京东.当当.淘宝均有销售 配套资源: 教学大纲 ...

  2. 我用Python爬取了14年所有的福彩3D信息,彩民们,只能帮你们到这了

    作者|丁彦军 来源|恋习Python 前两天,在网上看到一个有意思的问题:彩票预测靠谱么?为什么还有那么多的人相信彩票预测? 暂且不说,彩票预测是否靠谱?彩票预测也分人而异,江湖上骗术很多,有些甚至会 ...

  3. python爬虫能秒杀么_面试题之用python爬取并夕夕不同时段秒杀商品信息

    先上效果图吧(因为确实也是刚入门,很多细节没有注意到的,各位尽管提出来) 并夕夕很多时候都在不停的有秒杀商品的活动,对于价格问题,我就没法讨论了,但是人家能吸引到这么多流量,真本事还是有些的. 我只在 ...

  4. python 抓包秒杀_面试题之用python爬取并夕夕不同时段秒杀商品信息

    先上效果图吧(因为确实也是刚入门,很多细节没有注意到的,各位尽管提出来) 并夕夕很多时候都在不停的有秒杀商品的活动,对于价格问题,我就没法讨论了,但是人家能吸引到这么多流量,真本事还是有些的. 我只在 ...

  5. python爬历年大学生就业数据_Python就业行情和前景分析之一爬取数据

    Python就业行情和前景分析之一爬取数据 http://zzdxb.baikezh.com/ 最近Python大热,就想要分析一下相关的市场需求,看一下Python到底集中在哪些城市,企业对Pyth ...

  6. python爬取京东评论分析_【实战好文】|爬取京东书籍评论并分析

    原标题:[实战好文]|爬取京东书籍评论并分析 这是菜鸟学Python的粉丝第10篇原创投稿 阅读本文大概需要5分钟 本篇作者:小郑同学 上周的赠书活动中,收到了楼主送的<利用Python进行数据 ...

  7. python爬取全国房价并分析

    使用方法 程序原理 数据来源 数据爬取 mac下mysql安装&使用&创建库和表 网站爬取分析 网站数据抓取代码基础 数据分析 我相信国内房价一直都是苦逼程序员比较关注的事情,我也非常 ...

  8. 哪吒票房逼近40亿,用python爬取哪吒短评分析

    目录 前言 分析 具体步骤 登录 爬取与存储 可视化分析 结语 前言 暑期档电影惨淡,但随着哪吒爆红开拓了新局面.这也是国产动画的首次爆红.在哪吒刚出,笔者以为最多10亿就算不错的了.没想过仅过了几天 ...

  9. python画哪吒_哪吒票房逼近30亿,python爬取哪吒短评分析

    目录 前言 分析 具体步骤 登录 爬取与存储 可视化分析 结语 前言 暑期档电影惨淡,但随着哪吒爆红开拓了新局面.这也是国产动画的首次爆红.在哪吒刚出,笔者以为最多10亿就算不错的了.没想过仅过了几天 ...

最新文章

  1. 图书借阅系统java_基于JAVAWEB的图书借阅系统
  2. linux 测试vim编译器_推荐几个好用的在线编译器
  3. java后台访问接口
  4. CVPR 2019 | 实体零售场景下密集商品的精确探测
  5. Json字符串和Json对象的简单总结
  6. 透过汇编另眼看世界之函数调用
  7. MySQL三层逻辑架构
  8. GUID generation RSS_SYSTEM_GET_UNIQUE_ID
  9. 【TensorFlow】TensorFlow函数精讲之tf.nn.conv2d()
  10. python多元线性回归代码_Python实现梯度下降算法求多元线性回归(一)
  11. OI、ACM大佬楼天城的回忆录
  12. 用神经网络实现手写数字识别
  13. 中元节,会吃的民族带你了解“鬼节”的习俗
  14. 石柯送点 国足0:2不敌韩国小组第二出线
  15. iPhone媒体服务器修改,逆天!手工暴改iPhone 6 内存秒变2GB
  16. 英语写作翻译-形容词(一)
  17. 网址在QQ微信被拦截怎么办?怎么样才能让被微信屏蔽的网址正常访问
  18. 【电源设计】06正激式开关电源
  19. python量化分析系列之---5行代码实现1秒内获取一次所有股票的实时分笔数据
  20. P6专题:P6 EPPM和PPM基本概念

热门文章

  1. 重学Elasticsearch第1章 : Elasticsearch, Kibana概念、Elasticsearch相关术语
  2. 记一次 controller manager and scheduler 重复重启问题分析
  3. volatile保证可见性的验证
  4. 算法图解——广度优先搜索
  5. 【网络流量识别】【聚类】【二】FCM和GMM—使用聚类技术和性能比较进行网络流量异常检测
  6. PPTV多屏互动服务器可以看文档吗,关闭或删除PPTv多屏互动服务器的方法
  7. ffmpeg流媒体视频合并(画中画)效果并推流
  8. 基于JAVA郑州卷烟厂库存管理系统计算机毕业设计源码+系统+mysql数据库+lw文档+部署
  9. 马来西亚之旅——吉隆坡、马六甲、槟城和亚庇攻略
  10. stm32f407探索者开发板(二)——新建工程(基于固件库)