02-01 boss直聘招聘信息爬取（xpath解析）

1、目标内容：

①公司名称
②岗位名称
③薪资
④岗位描述

2、分析

①该网页不是动态加载的
②岗位介绍在岗位详情页面中

3、代码

import requests
from lxml import etreeheaders={'user_agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.104 Safari/537.36 ',
'cookie':'__zp_stoken__=726dbCy1tLBIXeHQmfhIgT25JD0QjA1J8L2lHCiR3W3hDSycPYBdgfwRScDpSE0Z%2BHlcSTEhXRGZefhhCMHFefBxwPCM7eyBSU1EsO2d6C1gqDnorA1taCXcxCk5iMEsHGAYYdXV3NWw0VVEhJQ%3D%3D; Hm_lvt_194df3105ad7148dcf2b98a91b5e727a=1612097537,1612097576,1612098084; Hm_lpvt_194df3105ad7148dcf2b98a91b5e727a=1612100740; __zp_sseed__=4QBWahlMfc0Gt3952nnSYMIKpGbUYCpNYUVqQHVvMRA=; __zp_sname__=429da30c; __zp_sts__=1612100739859'}
url='https://www.zhipin.com/job_detail/?query=python%E7%88%AC%E8%99%AB%E5%B7%A5%E7%A8%8B%E5%B8%88&city=101010100&industry=&position='
page=requests.get(url,headers=headers).text
page
tree=etree.HTML(page)
li_list=tree.xpath('//div[@class="job-list"]/ul/li')  #定位获取了所有的li标签
print(li_list)
for li in li_list:#现在需对li表示的局部页面中的相关数据进行提取job_name=li.xpath('//div[@class="job-title"]/span/a/text()')[0] '''注： '/div' --错误的，首个'/'后必须跟跟标签html但是'./' 表示从当前标签开始，是正确的'''company=li.xpath('//div[@class="company-text"]/h3/a/text()')[0]salary=li.xpath('//div[@class="job-limit clearfix"]/span/text()')[0]detail_url='https://www.zhipin.com'+li.xpath('//div[@class="job-title"]/span/a/@href')[0]detail_page=requests.get(detail_url,headers=headers).texttree=etree.HTML(detail_page)detail=tree.xpath('//div[@class="text]//text()') # //text() 返回的是listjob_detail=''.join(job_detail)print(job_name,company,salary,job_detail)

4、备注：

访问多次，IP被封；
cookie也是头信息中的一部分

02-01 boss直聘招聘信息爬取（xpath解析）相关推荐

Boss直聘招聘信息爬取
利用selenium进行爬取,数据为CSV文件编写时间:2020年03月16日(若爬取失败,应该是网站更新造成的.) from selenium import webdriver from sele ...
Boss直聘职位信息爬取+分析
BOSS直聘职位信息爬取分析先上结果,本次抓取了732条职位的信息入库: 代码实现: import requests import json from lxml import etree from ...
实战-selenium实现BOSS直聘网信息爬取
实现了monodb和csv的文件写入 mongodb如下: 这里学历要求获取错了,取错列表下标了...,代码已经改正 Excel如下: 这里学历要求获取错了,取错列表下标了...,代码已经改正待解决 ...
python爬取招聘信息_python 爬取boss直聘招聘信息实现
原标题:python 爬取boss直聘招聘信息实现 1.一些公共方法的准备获取数据库链接: importpymysql ''' 遇到不懂的问题?Python学习交流群:821460695满足你的需求 ...
python爬取boss直聘招聘信息_Python 爬取boss直聘招聘信息！
原标题:Python 爬取boss直聘招聘信息! 1.一些公共方法的准备获取数据库链接: importpymysql ''' 遇到不懂的问题?Python学习交流群:821460695满足你的需求, ...
python爬取boss直聘招聘信息_Python爬虫实战-抓取boss直聘招聘信息
Python Python开发 Python语言 Python爬虫实战-抓取boss直聘招聘信息实战内容:爬取boss直聘的岗位信息,存储在数据库,最后通过可视化展示出来 PS注意:很多人学Pyth ...
基于‘BOSS直聘招聘信息’分析企业到底需要什么样的PHPer
基于'BOSS直聘招聘信息'分析企业到底需要什么样的PHPer 前两篇文章都没看,好意思直接看结果? Python爬虫框架Scrapy实战 - 抓取BOSS直聘招聘信息 Pyhton爬虫实战 - 抓取 ...
【2020-10-27】 scrapy爬虫之猎聘招聘信息爬取
声明:本文只作学习研究,禁止用于非法用途,否则后果自负,如有侵权,请告知删除,谢谢! scrapy爬虫之猎聘招聘信息爬取 1.项目场景目标网址:https://www.liepin.com/zhao ...
python爬取boss直聘招聘信息_Python笔记-爬取Boss直聘的招聘信息
2018-05-09笔记: 最近迷上了爬虫,爬取招聘信息,存在MongoDB上代码思路和上一篇爬取酷狗TOP500差不多,但是在使用CSS选择器的时候,有两组信息是连在一起,所以使用正则来获取本来 ...

02-01 boss直聘招聘信息爬取（xpath解析）

02-01 boss直聘招聘信息爬取（xpath解析）相关推荐

最新文章

热门文章