前程无忧51job爬虫利用selenium爬取岗位信息-2021年10月29日

# 2021年10月29日完成，爬取51job网站获得相关岗位信息
from selenium import webdriver
from selenium.webdriver import FirefoxOptions
from lxml import etree
from xpinyin import Pinyin
import time
import re
import csv
import ast
import requestsoption = FirefoxOptions()
driver = webdriver.Firefox()
driver.implicitly_wait(10)# 输入职位目标城市
goal = input("目标城市：")
jobName = input("目标岗位：")
# 将城市名转为拼音
p = Pinyin()
cityPinyin = p.get_pinyin(goal, '')
# 跳转至目标城市网页
cityUrl = 'https://www.51job.com/'+cityPinyin+'/'
driver.get(cityUrl)
# 岗位搜索框输入
driver.find_element_by_xpath('//*[@id="kwdselectid"]').send_keys(jobName)
# 点击搜索，网页跳转至搜索结果页面
driver.find_elements_by_xpath('//button')[0].click()
# 等待1秒
time.sleep(1)
# 定位到目前网页的url,就是搜索结果的第一页
url = driver.current_url
# 正则匹配，得到其他页的URL
url1 = re.compile('https://search.51job.com/list/(\S+).html?').search(url).group()[:-6]
url2 = re.compile('.html?(\S+)').search(url).group()
print(url1+str(2)+url2)
# UA伪装
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:93.0) Gecko/20100101 Firefox/93.0'
}# 定义根据页面的index获取页面职位列表的函数
def getPage(index):# 获取当前URL的HTML页面responseNow = requests.get(url=url1+str(index)+url2, headers=headers)htmlNow = etree.HTML(responseNow.text)# 使用lxml库的xpath查找script元素的内容（提前观察前程无忧搜索结果页面源代码的结构，可以发现岗位列表在script中）resultNow = htmlNow.xpath('//script/text()')contentNow = resultNow[-2]# 使用lxml库的xpath查找script元素的内容（提前观察前程无忧搜索结果页面源代码的结构，可以发现岗位列表在script中）# 正则表达式获取岗位，一个岗位存储在一个字典中，所有岗位存储在a list of dict，# 广告岗位和普通岗位又存储在不同的两个list中，在这里我只统计普通岗位jobList = re.compile('"engine_jds":(.*)"adid":"(\S*)"}]').search(str(contentNow)).group()[13:]return ast.literal_eval(jobList)# 定义将字典列表写入jobs.csv的函数
def write_dict(value):table = ["type", "jt", "tags","ad_track", "jobid","coid", "effect","is_special_job", "job_href","job_name", "job_title","company_href", "company_name","providesalary_text", "workarea", "workarea_text", "updatedate", "iscommunicate","companytype_text", "degreefrom", "workyear", "issuedate", "isFromXyz", "isIntern","isdiffcity", "attribute_text", "companysize_text","companyind_text", "adid"]# table = ["job_href","job_name", "job_title", "company_name","providesalary_text","workarea_text", "updatedate",#          "companytype_text", "workyear", "issuedate","jobwelf_list", "attribute_text", "companysize_text","companyind_text"]with open('51jobs.csv', 'a+', newline='') as f:xieru = csv.DictWriter(f, table)xieru.writerows(value)# 获取当前URL的HTML页面
response = requests.get(url=url, headers=headers)
html = etree.HTML(response.text)
# 使用lxml库的xpath查找script元素的内容（提前观察前程无忧搜索结果页面源代码的结构，可以发现岗位列表在script中）
result = html.xpath('//script/text()')
content = result[-2]
# 正则表达式获取搜索结果总页数,可以匹配1位数，两位数，三位数，四位数，五位数，可以涵盖所有可能性了
pattern = re.compile('"total_page":"(\d\d?\d?\d?\d?)"')
total_page = int(pattern.search(str(content)).group()[14:-1])for pageNow in range(1,total_page+1):time.sleep(1)li = getPage(pageNow)write_dict(li)

前程无忧51job爬虫利用selenium爬取岗位信息-2021年10月29日相关推荐

利用Selenium爬取淘宝商品信息
文章来源:公众号-智能化IT系统. 一. Selenium和PhantomJS介绍 Selenium是一个用于Web应用程序测试的工具,Selenium直接运行在浏览器中,就像真正的用户在操作一样. ...
爬虫之selenium爬取斗鱼网站
爬虫之selenium爬取斗鱼网站示例代码: from selenium import webdriver import timeclass Douyu(object):def __init__(s ...
layui获取input信息_python爬虫—用selenium爬取京东商品信息
python爬虫--用selenium爬取京东商品信息 1.先附上效果图(我偷懒只爬了4页) 2.京东的网址https://www.jd.com/ 3.我这里是不加载图片,加快爬取速度,也可以用Hea ...
python爬虫——使用selenium爬取微博数据（一）
python爬虫--使用selenium爬取微博数据(二) 写在前面之前因为在组里做和nlp相关的项目,需要自己构建数据集,采用selenium爬取了几十万条微博数据,学习了很多,想在这里分享一下如 ...
python抓取文献关键信息,python爬虫——使用selenium爬取知网文献相关信息
python爬虫--使用selenium爬取知网文献相关信息写在前面: 本文章限于交流讨论,请不要使用文章的代码去攻击别人的服务器如侵权联系作者删除文中的错误已经修改过来了,谢谢各位爬友指出错误 ...
python爬虫——用selenium爬取淘宝商品信息
python爬虫--用selenium爬取淘宝商品信息 1.附上效果图 2.淘宝网址https://www.taobao.com/ 3.先写好头部 browser = webdriver.Chrome ...
利用python爬取天气预报_python实现天气爬虫——利用xpath爬取七天天气预报数据...
python实现天气爬虫--利用xpath爬取七天天气预报数据 import pandas as pd import lxml import requests import csv from lxml ...
python爬虫：Selenium爬取B站视频标题、播放量、发布时间
上次尝试了利用Ajax机制爬取B站视频播放量等数据(链接在下方),但是发现响应的JSON数据中没有发布时间的数据,这次决定用Selenium试一下. python爬虫:Ajax爬取B站视频标题.播放量 ...
Python之网络爬虫（selenium爬取动态网页、爬虫案例分析、哈希算法与RSA加密）
文章目录一.selenium爬取动态网页二.爬虫案例分析三.哈希hash算法与RSA加密一.selenium爬取动态网页 1.动态网页认知爬虫其实就是在模仿浏览器的行为应对要多次数据的交互 ...

前程无忧51job爬虫利用selenium爬取岗位信息-2021年10月29日

前程无忧51job爬虫利用selenium爬取岗位信息-2021年10月29日相关推荐

最新文章

热门文章