1、 目标内容:

①公司名称
②岗位名称
③薪资
④岗位描述

2、分析

①该网页不是动态加载的
②岗位介绍在岗位详情页面中

3、 代码

import requests
from lxml import etreeheaders={'user_agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.104 Safari/537.36 ',
'cookie':'__zp_stoken__=726dbCy1tLBIXeHQmfhIgT25JD0QjA1J8L2lHCiR3W3hDSycPYBdgfwRScDpSE0Z%2BHlcSTEhXRGZefhhCMHFefBxwPCM7eyBSU1EsO2d6C1gqDnorA1taCXcxCk5iMEsHGAYYdXV3NWw0VVEhJQ%3D%3D; Hm_lvt_194df3105ad7148dcf2b98a91b5e727a=1612097537,1612097576,1612098084; Hm_lpvt_194df3105ad7148dcf2b98a91b5e727a=1612100740; __zp_sseed__=4QBWahlMfc0Gt3952nnSYMIKpGbUYCpNYUVqQHVvMRA=; __zp_sname__=429da30c; __zp_sts__=1612100739859'}
url='https://www.zhipin.com/job_detail/?query=python%E7%88%AC%E8%99%AB%E5%B7%A5%E7%A8%8B%E5%B8%88&city=101010100&industry=&position='
page=requests.get(url,headers=headers).text
page
tree=etree.HTML(page)
li_list=tree.xpath('//div[@class="job-list"]/ul/li')  #定位获取了所有的li标签
print(li_list)
for li in li_list:#现在需对li表示的局部页面中的相关数据进行提取job_name=li.xpath('//div[@class="job-title"]/span/a/text()')[0] '''注: '/div' --错误的,首个'/'后必须跟跟标签html但是'./' 表示从当前标签开始,是正确的'''company=li.xpath('//div[@class="company-text"]/h3/a/text()')[0]salary=li.xpath('//div[@class="job-limit clearfix"]/span/text()')[0]detail_url='https://www.zhipin.com'+li.xpath('//div[@class="job-title"]/span/a/@href')[0]detail_page=requests.get(detail_url,headers=headers).texttree=etree.HTML(detail_page)detail=tree.xpath('//div[@class="text]//text()') # //text() 返回的是listjob_detail=''.join(job_detail)print(job_name,company,salary,job_detail)

4、 备注:

访问多次,IP被封;
cookie也是头信息中的一部分

02-01 boss直聘招聘信息爬取(xpath解析)相关推荐

  1. Boss直聘招聘信息爬取

    利用selenium进行爬取,数据为CSV文件 编写时间:2020年03月16日(若爬取失败,应该是网站更新造成的.) from selenium import webdriver from sele ...

  2. Boss直聘职位信息爬取+分析

    BOSS直聘职位信息爬取分析 先上结果,本次抓取了732条职位的信息入库: 代码实现: import requests import json from lxml import etree from ...

  3. 实战-selenium实现BOSS直聘网信息爬取

    实现了monodb和csv的文件写入 mongodb如下: 这里学历要求获取错了,取错列表下标了...,代码已经改正 Excel如下: 这里学历要求获取错了,取错列表下标了...,代码已经改正 待解决 ...

  4. python爬取招聘信息_python 爬取boss直聘招聘信息实现

    原标题:python 爬取boss直聘招聘信息实现 1.一些公共方法的准备 获取数据库链接: importpymysql ''' 遇到不懂的问题?Python学习交流群:821460695满足你的需求 ...

  5. python爬取boss直聘招聘信息_Python 爬取boss直聘招聘信息!

    原标题:Python 爬取boss直聘招聘信息! 1.一些公共方法的准备 获取数据库链接: importpymysql ''' 遇到不懂的问题?Python学习交流群:821460695满足你的需求, ...

  6. python爬取boss直聘招聘信息_Python爬虫实战-抓取boss直聘招聘信息

    Python Python开发 Python语言 Python爬虫实战-抓取boss直聘招聘信息 实战内容:爬取boss直聘的岗位信息,存储在数据库,最后通过可视化展示出来 PS注意:很多人学Pyth ...

  7. 基于‘BOSS直聘招聘信息’分析企业到底需要什么样的PHPer

    基于'BOSS直聘招聘信息'分析企业到底需要什么样的PHPer 前两篇文章都没看,好意思直接看结果? Python爬虫框架Scrapy实战 - 抓取BOSS直聘招聘信息 Pyhton爬虫实战 - 抓取 ...

  8. 【2020-10-27】 scrapy爬虫之猎聘招聘信息爬取

    声明:本文只作学习研究,禁止用于非法用途,否则后果自负,如有侵权,请告知删除,谢谢! scrapy爬虫之猎聘招聘信息爬取 1.项目场景 目标网址:https://www.liepin.com/zhao ...

  9. python爬取boss直聘招聘信息_Python笔记-爬取Boss直聘的招聘信息

    2018-05-09笔记: 最近迷上了爬虫,爬取招聘信息,存在MongoDB上 代码思路和上一篇爬取酷狗TOP500差不多,但是在使用CSS选择器的时候,有两组信息是连在一起,所以使用正则来获取 本来 ...

最新文章

  1. ISME: 北大吴晓磊课题组揭示合作演化新机制:“自私”驱动合作关系的建立?...
  2. Oracle笔记(十四) 用户管理
  3. WinCE BSP中的DAT文件介绍
  4. UI2Code智能生成Flutter代码——机器生成代码
  5. 年底,喜庆红色中国风C4D电商促销背景,美工收好!
  6. Web项目之网络爬虫
  7. 机器学习、AI那么火,千万小心别掉进前人的坑
  8. php课设报告致谢_奇安信CERT发布1月安全监测报告:需警惕这19个高危漏洞
  9. 用Android自带的signapk.jar + .x509.pem + .pk8签名应用程序 - anfflee
  10. 绝地求生刺激战场辅助卧底外挂群,菜鸟一秒变高手
  11. Python期末复习题及代码
  12. TesterHome android app 编写历程(二)
  13. 卖计算机配件的二手平台,电脑哪些配件适合买二手,哪些最好入新?
  14. 查看win11激活状态
  15. 制作NGUI动态字体
  16. (Amazon)亚马逊GIF动态验证码识别,95识别率
  17. CPU彪高分析及解决
  18. 蜘蛛会抓取html框架,百度蜘蛛抓取网站的基本规则
  19. 用pygame写像素游戏地图编辑器
  20. iOS开发中解决第三方静态库符号冲突的终极方案

热门文章

  1. 施乐服务器显示25,施乐服务器设置
  2. 解密蓝牙防丢器工作原理,让您避免遗失物品
  3. 2016全球最强数据库大盘点
  4. RGB三色查询对照表
  5. 2023年上半年软件设计师上午真题及答案解析
  6. 网站配置 ip+端口 访问外网
  7. 固定电话+手机号码正则表达式
  8. 学生平板电脑android,学生平板电脑哪种好(最受学生追捧的4款平板电脑)
  9. python爬虫爬取58网站数据_python实战学习笔记:爬取58同城平板电脑数据
  10. 基于LSTM、RNN及滑动窗口CNN模型的股票价格预测