爬取网站:前程无忧网站

from selenium import webdriver
from selenium.webdriver import ChromeOptions
import time
import csvoption=ChromeOptions()
option.add_experimental_option('excludeSwitches',['enable-logging'])
driver=webdriver.Chrome(options=option)
driver.implicitly_wait(10)#爬取51job网站获得相关岗位信息
driver.get('https://www.51job.com/')
#csv
fp = open('qcwy.csv', 'wt', newline='', encoding='utf-8')
writer = csv.writer(fp)
#输入职位信息
driver.find_element_by_xpath('//*[@id="kwdselectid"]').send_keys('python')
#点击搜索
driver.find_element_by_xpath('/html/body/div[3]/div/div[1]/div/button').click()
#选择地区
driver.find_element_by_xpath('/html/body/div[2]/div[2]/div[1]/div[1]/div[2]/div[2]').click()
#取消当前已选择的城市
delcity=driver.find_elements_by_css_selector('.tin>span')
for i in delcity:  #可能有多个i.click()
#目标城市-福州
driver.find_element_by_xpath('//*[@id="popop"]/div/div[2]/div[1]/div[3]/div/table/tbody[5]/tr/td[5]/em').click()
#点击确定
driver.find_element_by_xpath('//*[@id="popop"]/div/div[3]/span').click()
time.sleep(1)#等待1秒#获取最大页码
pages=driver.find_elements_by_css_selector('.p_in')
for i in pages:page_s=i.find_elements_by_tag_name('span')string=[field.text for field in page_s]page=int(string[0][1:-2])#提取数字#判断是否到了最后一页
def lastpage(driver):nextpage=driver.find_element_by_css_selector('div.p_in li:last-child')#倒数第一个lihaslink=nextpage.find_elements_by_tag_name('a')#是否包含a这个tagif haslink:#不是最后一页return Falseelse:#是最后一页return Truefor n in range(1,page+1):time.sleep(1)xp=driver.find_element_by_xpath('/html/body/div[2]/div[3]/div/div[2]/div[4]/div[1]')jobs=xp.find_elements_by_css_selector('.e')for job in jobs:rows=[(','.join(job.text.split('\n')))]#获取所有文本信息,回车符变,,存列表#print(rows)writer.writerow(rows)#写入csvif lastpage(driver):#最后一页退出循环breakdriver.find_element_by_css_selector('.next').click()#点击下一页按钮
fp.close()

爬取结果

51job(前程无忧)网站爬虫相关推荐

  1. 讲解51job(前程无忧)网站数据

    # 讲解51job(前程无忧)网站数据 from urllib.request import urlopen, Request, urlretrieve import re, jsondef pars ...

  2. 51job前程无忧网站打不开,51job网站进不了,51job打不开

    之前电脑一DNS一直用的四个114或者四个8,后面突然51job不能打开了,感觉莫名其妙地,因为手机上都能打开啊,虽然说51job上投简历没多大反应,但投了总比没投好吧.后面搞了好久,原来是DNS作怪 ...

  3. 前程无忧python爬虫

    前程无忧python爬虫 实践要求做一个数据分析以及处理的实验,我负责的是爬取数据的这一块任务.做爬虫的话,python是比较好用的,于是学习了一小段时间,专门学着写了一个小爬虫.爬取的是一些静态网页 ...

  4. 通过爬取前程无忧网站数据分析上海互联网行业招聘状况

    1.项目要求 内容完整程度.可用性(可操作.易操作.美观).时间先后.先进性等. 2.项目内容 爬取前程无忧网站(网址:https://www.51job.com/)上的工作招聘信息(截止2018年1 ...

  5. 招聘网站代码模板 mysql_招聘网站爬虫模板

    招聘网站爬虫模板 项目的创建 项目的设置 中间件的理解与使用 selenium的基本使用 爬虫项目的创建: scrapy startproject spiderName cd spiderName s ...

  6. 前程无忧网站,职位信息一步到位函数爬取!!!真一步到位

    前程无忧网站,职位信息一步到位函数爬取!!!真一步到位 又到了毕业季了,阿巴阿巴阿巴.那么对于自己何去何从有什么好的规划呢?不如爬取点职位的数据来分析分析吧,纵观各大网站,要么就是数据少,要么就是很难 ...

  7. 爬取前程无忧网站数据

    1.爬取中华英才网,前程无忧网站的数据. spiders下: # -*- coding: utf-8 -*- import scrapy,copy from ..items import QcwyIt ...

  8. 【Python网络爬虫】前程无忧网爬虫+可视化

    文章目录 前言 一.页面分析 二.代码实现 三.运行结果 四.数据统计及可视化 1.学历占比饼图 2.工作地点TOP10 3.福利词云 4.经验要求 5.公司性质占比圆环图 6.招聘人数玫瑰图 前言 ...

  9. python爬虫小说代码示例-中文编程,用python编写小说网站爬虫

    原标题:中文编程,用python编写小说网站爬虫 作者:乘风龙王 原文:https://zhuanlan.zhihu.com/p/51309019 为保持源码格式, 转载时使用了截图. 原文中的源码块 ...

最新文章

  1. BERT模型蒸馏有哪些方法?
  2. 【Python】random库的使用
  3. 《数据驱动安全:数据安全分析、可视化和仪表盘》一3.7 推荐阅读
  4. 海思芯片怎么使用tde给qt加速_基于Hisi芯片,交叉编译、移植Qt4.8.6(可旋转)
  5. 时间处理总结(二)oracle
  6. window.opener.location.reload() and href()的区别
  7. 一文理清散乱的物联网里开发者必须关注的技术!
  8. mysql 4604,mysql--centos(7)安装
  9. 7.2 HAVING子句
  10. java开发常用的linux命令,Java开发中最常用的Linux命令整理
  11. 最经济方案 谈P2P电影服务器
  12. FID - Web特征数据来了
  13. html设置单元格不可编辑状态,excel单元格不能编辑 如何取消Excel 2013中单元格的直接编辑状态...
  14. ChatGPT专业应用:撰写节日营销活动方案
  15. 直击人心的数据可视化设计作品
  16. 数学之美番外篇:平凡而又神奇的贝叶斯方法(转自刘未鹏)
  17. UE4家装系统工程源码/内含模型/材质/模型拖拽
  18. 基于FPGA的DDS信号发生器
  19. 基于python3.x的爬取马蜂窝旅游的游记照片
  20. 新华三H3CMagic系列路由器获取不到IPV6地址解决方法

热门文章

  1. 高速串口通信稳定_长虹配套珠峰5G通信装备 保障直播信号稳定高速传输
  2. VLC播放器调试经验总结
  3. C# .Net EasyHttp (Http Library for C#) 应用实例
  4. 美图秀秀 v 3.7.1.1002 [最新版]
  5. 英国《金融时报》:北京房奴VS纽约房奴
  6. 一些搜索引擎的提交地址
  7. 医学计算机基础上机指导,医学信息技术基础实验指导--详细介绍
  8. 乐檬k5note android6.0,乐檬K5 NOTE有全网通版本吗? 乐檬K5 NOTE全网通版什么时候上市...
  9. 抖音上css照片动态旋转怎么做,抖音里单张图片平移视频怎么制作?影音制作实现一张图片从左到右滑动视频效果...
  10. 美妆算法---人脸审美标准