02-01 boss直聘招聘信息爬取(xpath解析)
1、 目标内容:
①公司名称
②岗位名称
③薪资
④岗位描述
2、分析
①该网页不是动态加载的
②岗位介绍在岗位详情页面中
3、 代码
import requests
from lxml import etreeheaders={'user_agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.104 Safari/537.36 ',
'cookie':'__zp_stoken__=726dbCy1tLBIXeHQmfhIgT25JD0QjA1J8L2lHCiR3W3hDSycPYBdgfwRScDpSE0Z%2BHlcSTEhXRGZefhhCMHFefBxwPCM7eyBSU1EsO2d6C1gqDnorA1taCXcxCk5iMEsHGAYYdXV3NWw0VVEhJQ%3D%3D; Hm_lvt_194df3105ad7148dcf2b98a91b5e727a=1612097537,1612097576,1612098084; Hm_lpvt_194df3105ad7148dcf2b98a91b5e727a=1612100740; __zp_sseed__=4QBWahlMfc0Gt3952nnSYMIKpGbUYCpNYUVqQHVvMRA=; __zp_sname__=429da30c; __zp_sts__=1612100739859'}
url='https://www.zhipin.com/job_detail/?query=python%E7%88%AC%E8%99%AB%E5%B7%A5%E7%A8%8B%E5%B8%88&city=101010100&industry=&position='
page=requests.get(url,headers=headers).text
page
tree=etree.HTML(page)
li_list=tree.xpath('//div[@class="job-list"]/ul/li') #定位获取了所有的li标签
print(li_list)
for li in li_list:#现在需对li表示的局部页面中的相关数据进行提取job_name=li.xpath('//div[@class="job-title"]/span/a/text()')[0] '''注: '/div' --错误的,首个'/'后必须跟跟标签html但是'./' 表示从当前标签开始,是正确的'''company=li.xpath('//div[@class="company-text"]/h3/a/text()')[0]salary=li.xpath('//div[@class="job-limit clearfix"]/span/text()')[0]detail_url='https://www.zhipin.com'+li.xpath('//div[@class="job-title"]/span/a/@href')[0]detail_page=requests.get(detail_url,headers=headers).texttree=etree.HTML(detail_page)detail=tree.xpath('//div[@class="text]//text()') # //text() 返回的是listjob_detail=''.join(job_detail)print(job_name,company,salary,job_detail)
4、 备注:
访问多次,IP被封;
cookie也是头信息中的一部分
02-01 boss直聘招聘信息爬取(xpath解析)相关推荐
- Boss直聘招聘信息爬取
利用selenium进行爬取,数据为CSV文件 编写时间:2020年03月16日(若爬取失败,应该是网站更新造成的.) from selenium import webdriver from sele ...
- Boss直聘职位信息爬取+分析
BOSS直聘职位信息爬取分析 先上结果,本次抓取了732条职位的信息入库: 代码实现: import requests import json from lxml import etree from ...
- 实战-selenium实现BOSS直聘网信息爬取
实现了monodb和csv的文件写入 mongodb如下: 这里学历要求获取错了,取错列表下标了...,代码已经改正 Excel如下: 这里学历要求获取错了,取错列表下标了...,代码已经改正 待解决 ...
- python爬取招聘信息_python 爬取boss直聘招聘信息实现
原标题:python 爬取boss直聘招聘信息实现 1.一些公共方法的准备 获取数据库链接: importpymysql ''' 遇到不懂的问题?Python学习交流群:821460695满足你的需求 ...
- python爬取boss直聘招聘信息_Python 爬取boss直聘招聘信息!
原标题:Python 爬取boss直聘招聘信息! 1.一些公共方法的准备 获取数据库链接: importpymysql ''' 遇到不懂的问题?Python学习交流群:821460695满足你的需求, ...
- python爬取boss直聘招聘信息_Python爬虫实战-抓取boss直聘招聘信息
Python Python开发 Python语言 Python爬虫实战-抓取boss直聘招聘信息 实战内容:爬取boss直聘的岗位信息,存储在数据库,最后通过可视化展示出来 PS注意:很多人学Pyth ...
- 基于‘BOSS直聘招聘信息’分析企业到底需要什么样的PHPer
基于'BOSS直聘招聘信息'分析企业到底需要什么样的PHPer 前两篇文章都没看,好意思直接看结果? Python爬虫框架Scrapy实战 - 抓取BOSS直聘招聘信息 Pyhton爬虫实战 - 抓取 ...
- 【2020-10-27】 scrapy爬虫之猎聘招聘信息爬取
声明:本文只作学习研究,禁止用于非法用途,否则后果自负,如有侵权,请告知删除,谢谢! scrapy爬虫之猎聘招聘信息爬取 1.项目场景 目标网址:https://www.liepin.com/zhao ...
- python爬取boss直聘招聘信息_Python笔记-爬取Boss直聘的招聘信息
2018-05-09笔记: 最近迷上了爬虫,爬取招聘信息,存在MongoDB上 代码思路和上一篇爬取酷狗TOP500差不多,但是在使用CSS选择器的时候,有两组信息是连在一起,所以使用正则来获取 本来 ...
最新文章
- ISME: 北大吴晓磊课题组揭示合作演化新机制:“自私”驱动合作关系的建立?...
- Oracle笔记(十四) 用户管理
- WinCE BSP中的DAT文件介绍
- UI2Code智能生成Flutter代码——机器生成代码
- 年底,喜庆红色中国风C4D电商促销背景,美工收好!
- Web项目之网络爬虫
- 机器学习、AI那么火,千万小心别掉进前人的坑
- php课设报告致谢_奇安信CERT发布1月安全监测报告:需警惕这19个高危漏洞
- 用Android自带的signapk.jar + .x509.pem + .pk8签名应用程序 - anfflee
- 绝地求生刺激战场辅助卧底外挂群,菜鸟一秒变高手
- Python期末复习题及代码
- TesterHome android app 编写历程(二)
- 卖计算机配件的二手平台,电脑哪些配件适合买二手,哪些最好入新?
- 查看win11激活状态
- 制作NGUI动态字体
- (Amazon)亚马逊GIF动态验证码识别,95识别率
- CPU彪高分析及解决
- 蜘蛛会抓取html框架,百度蜘蛛抓取网站的基本规则
- 用pygame写像素游戏地图编辑器
- iOS开发中解决第三方静态库符号冲突的终极方案