Python爬虫，爬取51job上有关大数据的招聘信息

爬虫初学者，练手实战

最近在上数据收集课，分享一些代码。

分析所要爬取的网址

https://search.51job.com/list/000000,000000,0000,00,9,99,+关键词+,2,"+str(页数)+".html

导入selenium包

from selenium import webdriver#导入selenium包
from lxml import etree
from time import sleep
import xlwt
import requests

监测的规避

from selenium.webdriver import ChromeOptions
option = ChromeOptions()
option.add_experimental_option('excludeSwitches',['enable-automation'])

使用谷歌浏览器的方法实例化一个浏览器对象，传入谷歌浏览器驱动程序

brs=webdriver.Chrome(executable_path='C:\\Users\\v\\Desktop\\86chromedriver.exe')#执行此语句可以打开一个浏览器

伪装头部

如何获取自己电脑浏览器的伪装头部

打开浏览器
按F12，或者在浏览器空白处右击，点击检查（以谷歌为例）
查找自己的伪装头部

headers={"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.38 (KHTML, like Gecko) Chrome/86.0.4240.193 Safari/537.38"}

完整代码

from selenium import webdriver#导入selenium包
from lxml import etree
from time import sleep
import xlwt#写表格模块
import requests
#监测的规避
from selenium.webdriver import ChromeOptions
option = ChromeOptions()
option.add_experimental_option('excludeSwitches',['enable-automation'])
#使用谷歌浏览器的方法实例化一个浏览器对象，传入谷歌浏览器驱动程序
brs=webdriver.Chrome(executable_path='C:\\Users\\v\\Desktop\\86chromedriver.exe')#执行此语句可以打开一个浏览器
#伪装头部
headers={"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.38 (KHTML, like Gecko) Chrome/86.0.4240.193 Safari/537.38"}
# response=requests.get(url=url,headers=headers)
salary=[]
city=[]
time=[]
job_name=[]
company_name=[]
p=0
x=1
workbook=xlwt.Workbook('utf-8')#写入表格编码方式
mysheet=workbook.add_sheet(sheetname='bigdata')
for i in range(1,65):#爬取1-65页url="https://search.51job.com/list/000000,000000,0000,00,9,99,数据分析,2,"+str(i)+".html"brs.get(url)page_text=brs.page_source#通过这个属性获取页面源码数据html=etree.HTML(page_text)# brs.find_element_by_xpath('//*[@id="keywordInput"]').send_keys('大数据')# brs.find_element_by_xpath('//*[@id="search_btn"]').click()page_text=brs.page_source#通过这个属性获取页面源码数据html=etree.HTML(page_text)brs.execute_script("window.scrollTo(0, document.body.scrollHeight);")#把页面下拉到底部job_name=job_name+html.xpath('//div[@class="e"]/a/p/span/@title')time=time+html.xpath('//div[@class="e"]/a/p/span[@class="time"]/text()')city=city+html.xpath('//div[@class="e"]/a/p[2]/span[2]/text()')   company_name=company_name+html.xpath('//div[@class="er"]/a/text()')salary=salary+html.xpath('//div[@class="e"]/a/p/span[@class="sal"]/text()')sleep(1)#睡眠1秒，防止被网站监测到for x in range(1,51):element = brs.find_element_by_xpath('//div[@class="j_joblist"]/div[{}]/a'.format(x))brs.execute_script("arguments[0].click();", element)all_h=brs.window_handlesbrs.switch_to.window(all_h[1])html =etree.HTML(brs.page_source)describe=html.xpath('//div[@class="tCompany_main"]//div[@class="bmsg job_msg inbox"]/p/text()')mysheet.write(p,5,describe)p=p+1print(describe)brs.close()brs.switch_to.window(all_h[0])
#把列表中的数据写入表格
for i in range(len(company_name)):mysheet.write(i,0,company_name[i])
for i in range(len(job_name)):mysheet.write(i,1,job_name[i])
for i in range(len(city)):mysheet.write(i,2,city[i])
for i in range(len(salary)):mysheet.write(i,3,salary[i])
for i in range(len(time)):mysheet.write(i,4,time[i])sleep(5)#停留5秒关闭浏览器
brs.quit()#关闭浏览器
workbook.save('bigdata.xlsx')#保存表格

运行结果

python代码运行结果：

表格内容：

Python爬虫，爬取51job上有关大数据的招聘信息相关推荐

python爬虫爬取网页上的天气数据
目录一:获取网页重要信息二:爬取网页数据三:源码分享一:获取网页重要信息在要爬取数据信息的网页上,F12进入查看网页内容二:爬取网页数据 1 导入模块 import requests fr ...
python 浏览器下载文件_同样一个下载地址，用python爬虫爬取的种子文件大小为0，而用浏览器是可以正常下载下来的？...
1.访问某个网页,用浏览器可以下载其中嵌入的种子文件,种子文件大小是正常的,用迅雷工具也可以正常下载,但是用python爬虫爬取,并且下载下来的数据大小为0? 2.这是我自己写的代码. url = ' ...
【教程+实例】Python爬虫实例——用Python爬虫爬取bangumi上的galgame资讯
文章目录 0.前言 1.什么是爬虫? 2.什么东西可以爬? 3.简易爬虫示例 4.如何筛选数据? 5.正则表达式 6.最终代码如何修改代码,以适应自己的需求效果截图 7.彩蛋本人与知乎用户间宫羽 ...
轻松利用Python爬虫爬取你想要的数据
网络爬虫的基本工作流程如下: 1.首先选取一部分精心挑选的种子URL. 2.将这些URL放入待抓取URL队列. 3.从待抓取URL队列中读取待抓取队列的URL,解析DNS,并且得到主机的IP,并将UR ...
Python爬虫爬取酷狗TOP500的数据
根据书籍<从零开始学Python网络爬虫>P41,综合案例2-爬取酷狗TOP500的数据修改而来. 使用模块requests和模块BeautifukSoup进行爬取. 不得不说,酷狗拿来跑 ...
Python爬虫—爬取某网站上面所有的世界港口信息数据
最近学习了一段时间的Python基础语法后,写了一个爬取世界港口数据的爬虫,并且保存到SQL Server 数据库. 前提公司之前有个需求是想监控集装箱如果进出某个港口的时候能给出信息提示,并且与海 ...
python爬虫|爬取亚马逊商品库存数据(Selenium实战)
前言很多人把selenium爬虫称之为可视化爬虫,之所以这样认为,主要在于selenium爬虫主要是模拟人的点击操作,而selenium驱动浏览器并进行操作的过程是可以观察到的.换言之,就是你在看着 ...
Python爬虫:爬取知乎上的视频，并把下载链接保存到md文件中
Python爬虫:爬取知乎上的视频,并把下载链接保存到md文件中 1.需要的Python模块主要是requests模块,用于得到的网页的数据安装命令为:pip install requests 2 ...
Python爬虫---爬取数据(上)
又是女票,拿了3万多条的13年某地区的公司信息,但是三年过去了,工商局的注册信息发生了巨大变化,有的注册资本增加了,有的公司老板变多了,更有不少公司不存在了,因此,需要一份最新的信息以便于她进行使用. ...

Python爬虫，爬取51job上有关大数据的招聘信息

爬虫初学者，练手实战

分析所要爬取的网址

导入selenium包

监测的规避

使用谷歌浏览器的方法实例化一个浏览器对象，传入谷歌浏览器驱动程序

伪装头部

如何获取自己电脑浏览器的伪装头部

完整代码

运行结果

Python爬虫，爬取51job上有关大数据的招聘信息相关推荐

最新文章

热门文章