/***本人代码小白 ,第一次做爬虫,代码仅供参考,欢迎大神指点,***/

项目背景和功能

毕业将近,身为大三的我们,面临找工作的压力,如何快速的找到自己心仪的岗位并且及时投递简历成为同学们关心的问题,我们设计爬取XX网站的爬虫,能够快速浏览各个公司、行业的招聘信息

引用第三方库

功能选择模块

函数fun()1实现了输入岗位名称,爬取对应岗位名称的数据,导入数据库中

函数fun()2实现了输入公司名称,爬取对应公司招聘信息的数据,导入数据库中

函数fun()3实现了项目分析

代码:

fun1()函数:

定义fun1函数,再运用selenium库中options隐藏浏览器界面

用谷歌浏览器连接网页并运用selenium库去除进入网页的选择地址界面

再搜索框中输入你想搜索的岗位信息

爬取数据:xpath来定位所选择的框架位置,while循环来跳转至下一页,直至最后一页结束(这里设置的爬取至20页),for循环来以一个div为一块地爬取信息(多项信息在一起地用切片将数据分割在爬取出来,最后注释部分是未成功部分),最后连接数据库,将爬取数据存入数据库中

爬取效果:

 fun2()函数

原理:定义函数(此函数没有隐藏浏览器),加载进入页面,输入想要搜索的公司,运用selenium库进入公司的主页,点进主页后浏览器会出现新的界面,运用selenium库将光标定位至最右的界面,进行招聘信息的爬取(因为公司主页界面运用span标签写的页面跳转,能力有限,所以只能爬取第一页的10条数据,暂未实现页面跳转功能)

爬取效果:

fun3()函数

定义fun3()函数和四个字典,count_exp、total_exp、count_edu、total_edu来记录数据并赋予初始值,然后用查询数据库数据中数据,在for循环中count_exp和count_edu来接收各个学历段和工作经历段出现的次数,total_exp和total_edu来接收各个学历段和各个工作经验的薪水总数。再连接数据库并查询需要的数据

运用for循环来将数据一条一条存入定义字典中,当存关键字相符,count_exp和count_edu就+1,薪水都是最高和最低薪水,将最高和最低薪水相加除以2取得这个岗位的平均薪水,然后再将所有与关键字相符的岗位的平均薪水相加求和,再除以与关键字相符的次数count_exp和count_edu,就可以获取到对应工作经验的平均工资和对应学历的平均工资

在运用matplotlib库中的pyplot来制成分析柱状图

爬取效果:

/***本人代码小白 ,第一次做爬虫,代码仅供参考,欢迎大神指点***/

爬虫项目 | 爬取XX网站招聘信息相关推荐

  1. Python爬虫项目--爬取某宝男装信息

    本次爬取用到的知识点有: 1. selenium 2. pymysql 3  pyquery ''' 文章:Python爬虫项目--爬取某宝男装信息 作者:Star_Zhao 源自:https://w ...

  2. (转)python爬虫实例——爬取智联招聘信息

    受友人所托,写了一个爬取智联招聘信息的爬虫,与大家分享. 本文将介绍如何实现该爬虫. 目录 网页分析 实现代码分析 结果 总结 github代码地址 网页分析 以https://xiaoyuan.zh ...

  3. python爬虫实例——爬取智联招聘信息

    受友人所托,写了一个爬取智联招聘信息的爬虫,与大家分享. 本文将介绍如何实现该爬虫. 目录 网页分析 实现代码分析 结果 总结 github代码地址 网页分析 以https://xiaoyuan.zh ...

  4. 爬虫项目--爬取安居客二手房信息

    爬虫实战(爬取安居客二手房信息-成都天府新区) 环境:python3.6 pycharm bs4库 解析方式:bs4 需求:爬取二手房信息字段(titile,house_type,build_time ...

  5. python爬虫爬取房源_Python爬虫项目--爬取自如网房源信息

    本次爬取自如网房源信息所用到的知识点: 1. requests get请求 2. lxml解析html 3. Xpath 4. MongoDB存储 正文 1.分析目标站点 1. url: http:/ ...

  6. python3小项目——爬取智联招聘信息(二)

    这两天,心血来潮又把前几天的爬取招聘信息程序丰富了一下,是对爬取到的信息再处理以及分类保存. 具体功能: 将全部信息保存成矩阵形式,去除无用信息,并在当前目录下生成文件夹并此文件夹下把信息分类保存成. ...

  7. Python爬虫项目--爬取某宝男装信息 附带源码

    本次爬取用到的知识点有: 1. selenium 2. pymysql 3  pyquery 正文 1. 分析目标网站 1. 打开某宝首页, 输入"男装"后点击"搜索&q ...

  8. 【Python】Scrapy爬虫框架小试牛刀:爬取某论坛招聘信息

    Scrapy爬虫框架小试牛刀:爬取某论坛招聘信息 背景 Scrapy工作原理 创建项目 创建爬虫 确定数据爬取思路 编写对象:item.py 制作爬虫:muchongrecruit.py 存储内容:p ...

  9. Python爬虫实战爬取租房网站2w+数据-链家上海区域信息(超详细)

    Python爬虫实战爬取租房网站-链家上海区域信息(过程超详细) 内容可能有点啰嗦 大佬们请见谅 后面会贴代码 带火们有需求的话就用吧 正好这几天做的实验报告就直接拿过来了,我想后面应该会有人用的到吧 ...

最新文章

  1. C语言实现SHA-1
  2. PyCharm的隐藏技巧(Tips)-快捷键等积累
  3. 论天空、太空、航空、航天
  4. Seek the Name, Seek the Fame POJ - 2752 (理解KMP函数的失配)既是S的前缀又是S的后缀的子串
  5. php标签扩展,标签扩展 · ThinkPHP5.0完全开发手册 · 看云
  6. python离线录音转文字_python3实现语音转文字(语音识别)和文字转语音(语音合成)...
  7. Android开发学习之仿手机QQ消息列表侧滑删除效果
  8. 深度学习--- GAN网络原理解析
  9. Error running ...: No jdk for module
  10. 载波聚合或双连接的方式进行_一文读懂5G基站和4G基站如何协同工作
  11. 通过光纤收发器指示灯判断网络状态
  12. 图像与视频处理中的优化方法
  13. pta 7-5 输出2到n之间的全部素数 (15 分)
  14. 简单实现SYN端口扫描
  15. 【JIRA 学习】JIRA 配置缺陷的reopen 次数
  16. Verilog学习笔记-——Verilog模块例化
  17. readline library not found
  18. 软件企业税收优惠政策2023
  19. Android Binder驱动的工作机制之要旨
  20. unirech阿里云国际版元宇宙解决方案

热门文章

  1. 如何在PowerPoint中嵌入字体
  2. 修改IDEA提交到git的昵称
  3. html页面栅格系统,分享响应式CSS栅格系统
  4. java int几个字节_java中的int占几个字节
  5. 基于51单片机智能小车(超声波+舵机)
  6. 如何对文献进行阅读与整理
  7. windows 桌面 图标间距 调整
  8. 我们是什么时候开始,不再一有空闲就玩游戏了呢?
  9. 第44周定投基金建底仓沪深300
  10. 二维数组排序-qsort