资源下载地址:https://download.csdn.net/download/sheziqiong/86164528
资源下载地址:https://download.csdn.net/download/sheziqiong/86164528

二、课程设计目的

在即将面临毕业季找工作难的问题,恰逢这次课程设计,于是想要通过爬虫爬取个网站的招聘信息,并对其进行数据统计,找出适合自己的工作等。

2.1 课程设计内容

本次课设主要由两部分组成:

  1. 首先是网站数据的爬取,并且将一些有用的信息存在一个CSV文件中,由于网站较大,所以我们只是单纯爬取符合本专业的职位,一共爬取了8000多条数据信息。

  2. 然后是使用pandas库对这些数据进行分析出来,把岗位详细,公司名称,公司详情,薪资,工作地点,发布日期,更新日期,公司类型,行业,工作经验要求,学历,招聘人数等信息保存到CSV中

三、设计步骤与方法

实验环境:

Windows 10
pycharm 2021.2
python 3.9

3.1 步骤1,数据的爬取 requests,re

我们打开chromd 谷歌浏览器的开发人员工具查看该信息在网站时获取到的请求信息



发现其实它是一个静态网站

再通过翻页去查询它们的规律发现,其实每翻一页,这个数字就会加1,那么就可以构建出整个网站的页数,去批量爬取所有页数的招聘信息

构建页数的代码如下:

每次这个传递一个参数的时候,对应的url也会更新,这样就可以构造出全部的url方便我们爬取

因为上面说到的这个网站是一个静态网站,所以内容都是全部存放到HTML页面的,那么我们获取HTML的源码,那么对应的就是获取招聘信息的内容

通过这两句便是获取每一页的html源码信息

因为他是静态的,在获取源码之后我们还得用re来进行定位

正则表达式(英语:Regular Expression,常简写为regex、regexp或RE),又称正则表示式、正则表示法、规则表达式、常规表示法,是计算机科学的一个概念。

正则表达式使用单个字符串来描述、匹配一系列匹配某个句法规则的字符串。在很多文本编辑器里,正则表达式通常被用来检索、替换那些匹配某个模式的文本。

许多程序设计语言都支持利用正则表达式进行字符串操作。例如,在Perl中就内建了一个功能强大的正则表达式引擎。正则表达式这个概念最初是由Unix中的工具软件(例如sed和grep)普及开的。

具体的代码如下:


其中因为有很多数据在获取的图中并不干净,所以我们还得去构造函数对获取到的这些数据一定程度的清洗

对于获取URL的

对于其他信息的

对于获取薪资的

最后将内容用for循环依次写入csv文件中,

关于反爬虫,我们这边是通过构建headers

来伪造成浏览器去爬取对应的内容

然后再用session来构建cookie,减轻爬取数据的时候对服务器造成的压力

最后每爬取一页信息

便用time.sleep缓存一秒,防止爬取过快被系统检测出是爬虫程序

3.2 步骤2:数据处理pandas

在获取全部信息之后

我们先是创建一个dataframe用来保存数据

然后再依次把对应的数据内容传入到dataframe中

再用防错机制把获取到的数据一一保存到CSV中

最后数据的样式如下:


资源下载地址:https://download.csdn.net/download/sheziqiong/86164528
资源下载地址:https://download.csdn.net/download/sheziqiong/86164528

基于Python的招聘网站招聘信息分析相关推荐

  1. python 爬虫学习:抓取智联招聘网站职位信息(二)

    在第一篇文章(python 爬虫学习:抓取智联招聘网站职位信息(一))中,我们介绍了爬取智联招聘网站上基于岗位关键字,及地区进行搜索的岗位信息,并对爬取到的岗位工资数据进行统计并生成直方图展示:同时进 ...

  2. Java爬虫 爬取某招聘网站招聘信息

    Java爬虫 爬取某招聘网站招聘信息 一.系统介绍 二.功能展示 1.需求爬取的网站内容 2.实现流程 2.1数据采集 2.2页面解析 2.3数据存储 三.获取源码 一.系统介绍 系统主要功能:本项目 ...

  3. 基于python摄影作品展示网站django框架计算机毕业设计源码+系统+数据库+lw文档+调试部署

    基于python摄影作品展示网站django框架计算机毕业设计源码+系统+数据库+lw文档+调试部署 基于python摄影作品展示网站django框架计算机毕业设计源码+系统+数据库+lw文档+调试部 ...

  4. Python爬虫——12306网站车次信息

    Python爬虫--12306网站车次信息 相信每一个人都听说过谷歌.百度等浏览器,我们在在输入栏中输入我们想要的关键字,便会出现与我们输入关键字有关的网页.那么这些数据时是怎么来的呢?其实这跟网络爬 ...

  5. 基于python的公众号课堂教学_基于Python的微信公众号数据挖掘分析

    基于Python的微信公众号数据挖掘分析 华南农业大学电子工程学院 王 建 黄宁香 [期刊名称]电子世界 [年(卷),期]2019(000)011 [总页数]3 运用Python网络爬虫技术对某时事类 ...

  6. 基于python的租房网站

    1,项目功能: 1).主页管理:管理员权限查看相应信息,用户权限登录.注册.条件检索.区域检索信息. 2).房屋列表:管理员权限负责维护房屋信息,用户权限可以发布房源,查询房源相应信息. 3).房屋详 ...

  7. 基于URL特征的网站结构信息挖掘

    基于URL特征的网站结构信息挖掘 王晓飞11 (北京邮电大学模式识别实验室) 摘要:本章首先深入的研究了网站的结构和URL的特征,然后制定了三元组节点的URL层次树的构建规则,利用建立的URL层次树描 ...

  8. 基于Python企业公司网站设计与实现 开题报告

      本科生毕业论文 基于Python校园网站系统(Django框架) 开题报告 学    院: 专    业: 计算机科学与技术 年    级: 学生姓名: 指导教师: 黄菊华   XXXX大学本科生 ...

  9. 基于React的PC网站前端架构分析

    代码地址如下: http://www.demodashi.com/demo/12252.html 本文适合对象 有过一定开发经验的初级前端工程师: 有过完整项目的开发经验,不论大小: 对node有所了 ...

  10. python信用评分卡_基于Python的信用评分卡模型分析(二)

    上一篇文章基于Python的信用评分卡模型分析(一)已经介绍了信用评分卡模型的数据预处理.探索性数据分析.变量分箱和变量选择等.接下来我们将继续讨论信用评分卡的模型实现和分析,信用评分的方法和自动评分 ...

最新文章

  1. 上标3下标6算法_插入排序算法导学案
  2. IMAX影厅专候天神下凡 巨幕电影2010年观影指南
  3. __asm__ __volatile__内嵌汇编用法简述
  4. gdb打印STL和boost容器
  5. 基于 SSH 的远程操作以及安全,快捷的数据传输转
  6. 高级文件系统管理——Linux基本命令(15)
  7. svn增量打包部署_实现Jenkins+svn+bat批处理构建svn版本差异增量的自动化打zip包
  8. TCP压测工具 终极 全新版
  9. EMI/EMC设计经典问答
  10. 来自雨林木风的Linux发行版: Ylmf Linux
  11. Java 随机数之从指定数据范围内随机选取n个不重复的数据
  12. 买就赚到的以色列人工智能
  13. 三点共线判断方法分析
  14. java计算机毕业设计智能外包管理平台源码+数据库+系统+lw文档
  15. 23种设计模式之单例模式、工厂模式、原型模式、建造者模式
  16. 王老吉做奶茶 是要火还是要凉?
  17. 计算机的工作原理是二进制原理吗,计算机是怎么通过二进制原理来工作的?
  18. 硬货来了,RTE2022 大会技术专场:人性化、软硬件结合
  19. 写给仿真软件研发的“一篇文章入门”系列(终)
  20. linux u盘启动工具unetbootin

热门文章

  1. 用非门74HC04与无源晶振产生时钟信号的两种电路
  2. neo4j springboot 日志_springBoot 与neo4j的简单整合示例
  3. 青岛科技大学计算机转专业,2021年青岛科技大学大一新生转专业及入学考试相关规定...
  4. uniapp动态图片加载不出来
  5. 数据结构(主席树,Bit):XTU 1247/COGS 2344. pair-pair
  6. php携程源码,Swoole2.0协程的使用和源码解读
  7. 图文并茂:超可爱的12星座猫
  8. 省市区前端json格式 上
  9. osm数据导入mysql_导入OSM数据至PostgreSQL数据库
  10. 螃蟹在剥我的壳,笔记本在写我。 漫天的我落在枫叶上雪花上。 而你在想我。