python之requests爬虫Boss数据

需要用到的库:reqeusts、lxml

没有的可以用直接下载

pip install requests

pip install lxm

这里以python岗位,地点北京为例

爬取的数据就是岗位名称、薪资、地点

首先导入需要用到的模块

import requests

from lxml import etree

岗位可以通过input提前输入好,传参给url

job = input('输入职位')

将需要访问的url赋给一个变量

url = 'https://www.zhipin.com/job_detail/?query=%s&city=101010100&industry=&position='%job

query=%s(%s是一个占位)在引号后面的%job就是占的值

访问这个页面需要加一个头部(headers)降低被识别爬虫的概率

在当前页面按f12点击Network,如果没有东西的话可以刷新一下页面

这里只用到两个参数,一个user-agent,一个cookie

headers = {

'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Safari/537.36',

'cookie': '_uab_collina=157853739340991408682799; Hm_lvt_194df3105ad7148dcf2b98a91b5e727a=1578537393,1578554153; __c=1578554153; __g=-; Hm_lpvt_194df3105ad7148dcf2b98a91b5e727a=1578554168; __zp_stoken__=d0e7eq77rh2ql3R%2F5VwP4mPjHKu%2BjYVQMbIFSPnpEWipSXfKaWf%2FM%2FxBRat22vE%2FR4PdiD%2BDhDiSNaW%2FTjVMpYOEMTTUmxg7WSFqYfpdWi5SSIMEcHuwoKbmd%2B6tlv5ONmSF; __l=l=%2Fwww.zhipin.com%2Fjob_detail%2F%3Fquery%3D%25E4%25BA%25BA%25E5%25B7%25A5%25E6%2599%25BA%25E8%2583%25BD%26city%3D101010100%26industry%3D%26position%3D&r=&friend_source=0&friend_source=0; __a=32343010.1578537387.1578537387.1578554153.9.2.2.9'

}

请求数据并且返回值

res = requests.get(url,headers=headers).text

利用etree中的HTML解析数据

html = etree.HTML(res)

#岗位名称

job_name = html.xpath('//*[@id="main"]/div/div[2]/ul/li/div/div[1]/h3/a/div[1]/text()')

#薪资

salary = html.xpath('//*[@id="main"]//ul/li//h3/a/span/text()')

#地点、工作经验、学历

site = html.xpath('//*[@id="main"]/div/div[2]/ul/li/div/div[1]/p')

print('工作岗位:',job)

print('薪资:',salary)

print('地点:',site)

输出的数据如下

整体代码

import requests

from lxml import etree

import json

job = input('输入职位')

url = 'https://www.zhipin.com/job_detail/?query=%s&city=101010100&industry=&position='%job

headers = {

'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Safari/537.36',

'cookie': '_uab_collina=157853739340991408682799; Hm_lvt_194df3105ad7148dcf2b98a91b5e727a=1578537393,1578554153; __c=1578554153; __g=-; __l=l=%2Fwww.zhipin.com%2Fjob_detail%2F%3Fquery%3D%25E4%25BA%25BA%25E5%25B7%25A5%25E6%2599%25BA%25E8%2583%25BD%26city%3D101010100%26industry%3D%26position%3D&r=&friend_source=0&friend_source=0; lastCity=101010100; Hm_lpvt_194df3105ad7148dcf2b98a91b5e727a=1578556532; __zp_stoken__=d0e7eq77rh2ql3R%2F5VwP4mPjHOT%2BY0u%2F2GMG6hriOPZlx6iA6NPb%2FycP1M1RRJxkLq%2FdiD%2BDhDiSNaW%2FTjVMpYOEMScFTSjVVO31G%2B8%2Bwf%2Bxs7gEcHuwoKbmd%2B6tlv5ONmSF; __a=32343010.1578537387.1578537387.1578554153.29.2.22.29'

}

res = requests.get(url,headers=headers).text

html = etree.HTML(res)

job_name = html.xpath('//*[@id="main"]/div/div[2]/ul/li/div/div[1]/h3/a/div[1]/text()')

salary = html.xpath('//*[@id="main"]//ul/li//h3/a/span/text()')

site = html.xpath('//*[@id="main"]/div/div[2]/ul/li/div/div[1]/p/text()')

print('工作岗位:',job_name)

print('薪资:',salary)

print('地点:',site)

最后需要注意网站中的cookie是实时更新,如果数据没有出来再去网页中查看cookie值

python爬boss网站_python之requests爬虫Boss数据相关推荐

  1. python爬音乐网站_python爬虫-爬取高逼格音乐网站《落网》

    关于 落网,一个高逼格的音乐网站,是很多文艺青年经常逛的网站.经常下载落网音乐到本地,一首一首的下载十分的痛苦.最近刚好在学习python爬虫的东西,刚好把落网音乐的爬取当做一个练习项目来实践(IT从 ...

  2. 利用python爬取天气预报_python实现天气爬虫——利用xpath爬取七天天气预报数据...

    python实现天气爬虫--利用xpath爬取七天天气预报数据 import pandas as pd import lxml import requests import csv from lxml ...

  3. python爬取系统_python应用:爬虫框架Scrapy系统学习第四篇——scrapy爬取笔趣阁小说...

    使用cmd创建一个scrapy项目: scrapy startproject project_name (project_name 必须以字母开头,只能包含字母.数字以及下划线) 项目目录层级如下: ...

  4. python爬虫怎么爬取图片_怎么用python爬取网站Jpg图片

    用python爬取网站图片,通过引用requests库就可完成.下面,小编将以爬取百度图片为例 工具/原料 python环境,网络 安装requests库 1 cmd打开命令行界面,输入pip ins ...

  5. python爬取网站的图片

    python爬取网站的图片 本次爬取图片所需要用到的库:Requests库,BeautifulSoup库,正则表达式,os库. 思路:先爬一张图片,再爬一个网站的图片 先爬一张图片: 首先要得到这张图 ...

  6. python爬取网站源代码+图片

    python爬取网站源代码+图片 需求分析 基础知识 正则表达式 python网络请求 文件读写 实现 基本思路 具体实现 结果 总结 需求分析 大部分有志青年都想建立属于自己的个人网站,从零开始设计 ...

  7. 如何利用python爬取网站数据

    Python是一种非常适合用于网络爬虫的编程语言,以下是Python爬取网站数据的步骤: 1. 确定目标网站和所需数据:首先要找到需要爬取数据的网站,确定你需要爬取的数据是哪一部分. 2. 发送请求: ...

  8. python爬取网站时,一键获取headers、url等信息(真的是让我爬取网站时,省了不少力气,作为小秘密分享给大家喽)

    python爬取网站时,一键获取headers.url等信息 (真的是让我爬取网站时,省了不少力气,作为小秘密分享给大家喽) 作为Python的使用者,我今天就和大家来分享分享我学习python的经验 ...

  9. python如何爬取网页视频_快就完事了!10分钟用python爬取网站视频和图片

    原标题:快就完事了!10分钟用python爬取网站视频和图片 话不多说,直接开讲!教你如何用Python爬虫爬取各大网站视频和图片. 638855753 网站分析: 我们点视频按钮,可以看到的链接是: ...

最新文章

  1. python中函数的作用域_Python中的函数作用域
  2. 阿里云ubuntu14.04下lamp环境搭建の备忘
  3. 英特尔AIDC秀肌肉:展示AI软硬件+生态全景图
  4. 数据结构:链表(c语言)
  5. 2sum、3sum、4sum以及任意连续的数的和为sum、任意连续或者不连续的数的和为sum...
  6. c语言实现 windows socket_C语言实现Socket简单通信
  7. jw player 5去掉share,info,embed页面
  8. JavaScript断点调试高级教程
  9. html个人网页完整代码模板,静态 html 个人主页 模板
  10. idea工程在maven projects中显示灰色的解决办法
  11. python模拟桌球运动_python基础教程 [台球运动基础教程]
  12. echarts:中国地图-省市区二级联动
  13. MySQL5.6 community从下载到安装
  14. 后台管理系统之用JQuery-validate做表单验证
  15. Navicat 常见操作
  16. 第二篇:呈现内容_第三节:CompositeControl呈现
  17. 洲际酒店集团加速布局粤港澳大湾区,与华侨城酒店集团达成合作
  18. 王峻涛: 传统B2C企业(指纯网络型B2C企业)错过黄金时期,传统企业将是电子商务未来赢家
  19. Tesseract:识别知乎网站登录验证码
  20. LLVM IR 语法

热门文章

  1. 民间75个不传之密 ,医院都不知道的秘密
  2. 264 参考帧 list0 list1
  3. 12个有趣的C语言面试题
  4. windows系统下_ffmpeg编译_2011年
  5. 解决 IDEA 在 commit 代码时 git 日志乱码 (提交时填写的中文说明乱码)
  6. 【Quartz】Spring3.2.9 + Quqrtz2.2.1 实现定时实例
  7. xcode windows版安装使用教程
  8. C#题目及答案(1)
  9. UVA 11383 - Golden Tiger Claw(二分图完美匹配扩展)
  10. 素数路(prime)