python + selenium 爬取猎聘招聘网
Selenium 本是一个用于Web应用程序测试的工具。Selenium测试直接运行在浏览器中,模拟用户操作。而这一特性为爬虫开发提供了一个选择及方向,由于其本身依赖于浏览器,所以使用Python的selenium库的前提是:需要下载相应的浏览器驱动程序,这里附上Chromedriver的下载地址:chromedriver
爬取猎聘职位标题 及 标题链接
代码块
from selenium import webdriver启动谷歌浏览器
driver=webdriver.Chrome()driver.implicitly_wait(10) # 隐式等待爬取猎聘网
driver.get(url='https://www.liepin.com/')定位输入框 并输入 python
driver.find_element_by_xpath('//*[@id="home"]/div[3]/div[1]/div/div/form/div/div/input').send_keys('python')定位搜索按钮 并点击
driver.find_element_by_xpath('//[@id="home"]/div[3]/div[1]/div/div/form/div/button'.click()爬取职位标题
name = driver.find_elements_by_xpath('//*[@id="sojob"]/div[2]/div/div[1]/div[1]/ul/li/div/div[1]/h3/a')# 因为是elements 爬取内容是个列表 需要遍历
listall = []
for j in range(len(name)):dict = {} text 取出文本dict['name'] = name[j].textget_attribute('href') 取出href属性中的超链接dict['url'] = name[j].get_attribute('href')
效果
输出结果
点击链接进入对应的详情页
接下来可以用超链接 爬取职位描述等信息 在这里我就不爬取了
selenium常用方法
常用方法总结
往期推荐
python中对list去重的方法
flask框架之分页
django框架之分页
机器学习之绘图
爬虫学习之selenium(一)
python + selenium 爬取猎聘招聘网相关推荐
- python+selenium爬取智联招聘信息
python+selenium爬取智联招聘信息 需求 准备 代码 结果 需求 老板给了我一份公司名单(大概几百家如下图),让我到网上看看这些公司分别在招聘哪些岗位,通过分析他们的招聘需求大致能推断出我 ...
- python笔记-爬取猎聘网招聘信息
目录 猎聘网信息爬取 爬取职位链接 1. 构建URL: 2. 获取网页 3. 解析网页 4. 保存数据到表格 爬取职位详情信息 1. 基本步骤 2. 获取表格链接 3. 获取职位详情信息网页 4. 解 ...
- 给大家整理了一篇Python+selenium爬取智联招聘的职位信息
整个爬虫是基于selenium和Python来运行的,运行需要的包 1 mysql,matplotlib,selenium 需要安装selenium火狐浏览器驱动,百度的搜寻. 整个爬虫是模块化组织的 ...
- python爬虫兼职-python爬虫爬取拉勾招聘网
# -*- coding: utf-8 -*- """ Created on Mon Sep 7 21:44:39 2020 @author: ASUS "&q ...
- 使用python+selenium爬取同城旅游网机票信息
最近使用python+selenium爬取了同城旅游网机票信息 相关主要代码如下,通过模拟人为操作,拿下了这个机票列表的html代码,然后就可以使用xpath或者re等方式从中提取需要的字段信息了. ...
- 使用python爬取猎聘网的职位信息
闲来无事,就像看看现在各个行业找工作的情况,写了个简单的爬虫,爬取猎聘网的职位信息. 话不多说,直接上代码. #-*- coding:utf-8 -*- # 抓取猎聘的职位 import time i ...
- python爬虫:爬取猎聘网站职位详情
python爬虫:爬取猎聘网站职位详情 第一次学习python,也是刚开始学习爬虫,完成的第一个实例,记录一下. baseurl.py # @author centao # @time 2020.10 ...
- python爬取网易云歌单_详解python selenium 爬取网易云音乐歌单名
目标网站: 首先获取第一页的数据,这里关键要切换到iframe里 打印一下 获取剩下的页数,这里在点击下一页之前需要设置一个延迟,不然会报错. 结果: 一共37页,爬取完毕后关闭浏览器 完整代码: u ...
- python爬取2019年计算机就业_2019年最新Python爬取腾讯招聘网信息代码解析
原标题:2019年最新Python爬取腾讯招聘网信息代码解析 前言 初学Python的小伙们在入门的时候感觉这门语言有很大的难度,但是他的用处是非常广泛的,在这里将通过实例代码讲解如何通过Python ...
最新文章
- MD5加密 登录用户名密码
- leangoo领歌敏捷工具工作台可查看最近访问脑图和项目
- Cerebras发布全球首个人类大脑规模的AI解决方案
- java循环购物车结算系统_原生JS实现购物车结算功能代码
- 【C++ 语言】面向对象 ( 类定义 | 限制头文件引用次数 | 构造方法 | 析构方法 )
- 音视频技术“塔尖”之争,网易云信如何C位出道?
- EJB3与Spring的集成
- neo4jd3的使用流程(转载)
- 网络 计算机不显示不出来,网页图片显示不出来怎么办 网络故障解决【详解】...
- 搭建NFS使多个服务器中的web项目共享图片资源
- XX公司定制开发的仓库管理系统
- 解释一下pack和unpack
- 【阅读笔记】频率视角下的机器学习
- 安全用电技能实训装置
- 一文教会你使用 Neo4j 快速构建明星关系图谱
- 3533: 黑白图像
- 矢量绘图设计AI 2022
- python搜索关键词自动提交_Python如何爬取百度搜索关键词提交
- 恒指赵鑫:8.9恒指德指实盘指导记录总结与晚盘前瞻
- 掌握这个思维,你的文案也能价值百万
热门文章
- linux写脚本实现作业检查,救大神帮忙调试linux系统上用qsub提交MS作业的脚本,万分感激!!! - 第一原理 - 小木虫 - 学术 科研 互动社区...
- 人生的利益交换:探索内在和外在的平衡
- linux下查看光驱文件夹,LINUX中为什么没有DEV下的光驱设备文件
- 计算机毕业设计Java工作流流程编辑OA系统(源码+系统+mysql数据库+Lw文档)
- 【深度学习项目三】ResNet50多分类任务【十二生肖分类】
- [小e分享]之[Oracle数据库管理艺术_11g新特性].(美)阿拉派蒂电子书(附pdf下载)
- [Java] 算是毕业设计吧 医药管理系统
- 全新升级高精度甲醛传感器
- 重大交通事故责任的认定要多长时间
- [原创]2018世界杯 克罗地亚 VS 英格兰 赛后总结