"""普通爬取数据爬虫,只要有反爬,cookie就不是很稳定。并不利于数据爬取"""

importrequestsimportrefrom lxml importetree

headers={"User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3554.0 Safari/537.36","Referer": "https://www.lagou.com/jobs/list_python?labelWords=&fromSearch=true&suginput=",#Cookie需要时常换取

"Cookie": "_ga=GA1.2.1553999204.1538311958; user_trace_token=20180930205504-0cebb367-c4b0-11e8-bb68-5254005c3644;"

"LGUID=20180930205504-0cebbcd1-c4b0-11e8-bb68-5254005c3644; showExpriedIndex=1; showExpriedCompanyHome=1;"

"showExpriedMyPublish=1; index_location_city=%E6%B7%B1%E5%9C%B3; sensorsdata2015jssdkcross=%7B%22distinct_"

"id%22%3A%22166811f974d15e-026ab47692a8d1-181c7151-2073600-166811f974e549%22%2C%22%24device_id%22%3A%2216681"

"1f974d15e-026ab47692a8d1-181c7151-2073600-166811f974e549%22%7D; LG_LOGIN_USER_ID=1d0d39f3227c1f914a3f9c4d95f"

"4816a5c6667141cc1313edac4603b4bd6d789; hasDeliver=6; _gid=GA1.2.2026255269.1540465512; WEBTJ-ID=2018102519420"

"2-166ab0808f9cb-06806b898438ec-181c7151-2073600-166ab0808fb7ef; Hm_lvt_4233e74dff0ae5bd0a3d81c6ccf756e6=15401"

"21809,1540210602,1540465512,1540467723; LGSID=20181025194505-6ab63d2a-d84b-11e8-8168-5254005c3644; PRE_UTM=m_cf_"

"cpt_baidu_pc; PRE_HOST=www.baidu.com; PRE_SITE=https%3A%2F%2Fwww.baidu.com%2Fs%3Fie%3Dutf-8%26f%3D8%26rsv_bp%3D0%2"

"6rsv_idx%3D1%26tn%3Dbaidu%26wd%3D%25E6%258B%2589%25E5%258B%25BE%25E7%25BD%2591%26rsv_pq%3D8d0dc05a0000aada%26rsv_t%"

"3D4664T41fswButqvfw6ZM6FGWfkWjtwR%252Fmpsskb6hctTVnUHewMo9o1%252BqRGk%26rqlang%3Dcn%26rsv_enter%3D1%26rsv_sug3%3D7%26r"

"sv_sug1%3D8%26rsv_sug7%3D100; PRE_LAND=https%3A%2F%2Fwww.lagou.com%2Flp%2Fhtml%2Fcommon.html%3Futm_source%3Dm_cf_cpt_baidu_pc;"

"_putrc=1D33894D7A6BEB76123F89F2B170EADC; JSESSIONID=ABAAABAAAGFABEF9CEC8B1F38F5075A286961D31667AC5C; login=true; unick=%E6%9D%A"

"8%E7%A6%B9; gate_login_token=b0629019d50bbe97eb829d61be9770ad4b570c1e68e239c68ae16cc71c68c808; _gat=1; Hm_lpvt_4233e74dff0ae5bd0a"

"3d81c6ccf756e6=1540469398; LGRID=20181025201301-5183464a-d84f-11e8-a347-525400f775ce; TG-TRACK-CODE=index_search; SEARCH_ID=06714"

"3e245964eb7af08d8c8d316cd44"}defrequest_list_page():#获取详情页面url

url = "https://www.lagou.com/jobs/positionAjax.json?city=%E6%B7%B1%E5%9C%B3&needAddtionalResult=false"data={"first": "false","pn": 1,"kd": "Python"}for x in range(1, 31):

data["pn"] =x

rep= requests.post(url=url, headers=headers, data=data)#json方法,如果返回来的是json数据,自动转换为字典

result =rep.json()#json在线解析分析数据格式

positions = result["content"]["positionResult"]["result"]for position inpositions:

positionId= position["positionId"]#找到详情页url,并传递给解析函数

position_url = "https://www.lagou.com/jobs/{}.html".format(positionId)

parse_position_detail(position_url)break

break

defparse_position_detail(url):#页面解析

res = requests.get(url, headers=headers)

text=res.text

html=etree.HTML(text)

position_depart= html.xpath("//div[@class='company']/text()")

position_names= html.xpath("//span[@class='name']/text()")

job_requests= html.xpath("//dd[@class='job_request']//span/text()")

salary_span= re.sub(r"[\s/]", "", job_requests[0].strip())

addr_span= re.sub(r"[\s/]", "", job_requests[1].strip())

exper_span= re.sub(r"[\s/]", "", job_requests[2].strip())

education_span= re.sub(r"[\s/]", "", job_requests[3].strip())

full_span= re.sub(r"[\s/]", "", job_requests[4].strip())

desc= "".join(html.xpath("//dd[@class='job_bt']//text()")).strip()print(position_depart, position_names, salary_span, addr_span, exper_span, education_span, full_span, desc)if __name__ == '__main__':

request_list_page()

python selenium下载优缺点_Python下selenium的实战和普通爬虫的对比相关推荐

  1. python模拟浏览器下载文件在哪里_python下selenium模拟浏览器基础操作

    1.安装及下载 selenium安装: pip install selenium  即可自动安装selenium geckodriver下载:https://github.com/mozilla/ge ...

  2. python requests下载图片_Python requests库如何下载一个图片资源

    原文地址https://blog.csdn.net/u011541946/article/details/77700074 前面一篇文章介绍了response对象的一些常用API,也已经提到,我们的重 ...

  3. python镜像下载包_python包详解

    干货大礼包!21天带你轻松学Python(文末领取更多福利) 点击查看课程视频地址 本课程来自于千锋教育在阿里云开发者社区学习中心上线课程<Python入门2020最新大课>,主讲人姜伟. ...

  4. python国内下载地址_python下载链接

    广告关闭 腾讯云11.11云上盛惠 ,精选热门产品助力上云,云服务器首年88元起,买的越多返的越多,最高返5000元! 1.需要的python库requests2.代码(复制可用)#引用 reques ...

  5. python 批量下载 代码_python 批量下载文件

    有时候看到好看的视频就想保存到本地,但是有的网站视频都是分段的,先去请求一个文件列表,再按照列表去拼接请求分段视频. 就类似这样:(这是开讲了某期的视频请求列表 http://hls.cntv.mya ...

  6. 利用Python递归下载文件夹下所有文件

    最近想备份网站,但是php下载文件的大小是有大小限制的,而我也懒得装ftp再下载了,就想着暂时弄个二级域名站,然后用python(python3)的requests库直接下载网站根目录下的所有文件以及 ...

  7. python的优点有哪些-python的优点和缺点是什么|python有哪些优缺点 - PS下

    相对于其它编程语言来说,Python对于新手来说非常友善.原因我总结大概三点:「语法简单」.「工法完整」.「应用广泛」.当然,它也有缺点,那就是「执行缓慢」.接下来我来细讲一下,大家再来断定这门语言. ...

  8. python 小说下载工具_python 制作网站小说下载器

    基本开发环境 ・ Python 3.6 ・ Pycharm 相关模块使用 目标网页分析 输入想看的小说内容,点击搜索 这里会返回很多结果,我只选择第一个 网页数据是静态数据,但是要搜索,是post请求 ...

  9. python 批量下载财务数据_Python+Wind 批量下载上市公司年报 - Part 1/2

    Python+Wind 批量下载上市公司年报 - Part 1/2作者:张捷 目录1.背景介绍 2.安装Python 3.爬取万得上市公司年报3.1Wind下载公告信息 3.2获得年报地址 4.使用P ...

最新文章

  1. javascript:正则表达式、一个表单验证的例子
  2. 英特尔紧急召回SB主板,Intel 6系列芯片组设计缺陷
  3. html表ge模板_16款用户体验优秀的HTML CSS价格表格模板 附演示及下载
  4. MFC 加载并显示图片的四种方法
  5. 使用静态代理模式实现公用的报表导出功能
  6. 鸡肉和鸡蛋–测试前解决Spring属性
  7. linux怎么装vnc插件,linux下安装基于GNOME的VNC连接工具Vinagre
  8. 2021最新抖音H5电玩城游戏平台多玩法模式全套源码
  9. 班主任工作总结中职计算机网络,中职班主任工作总结(优秀篇).doc
  10. Harmonious
  11. input正则邮箱_常用正则表达式—邮箱(Email)
  12. 【OpenGL学习笔记⑤】——纹理变换【glm配置+两张图片交替渐变变换 + 纹理平移 + 实现雪花飘落】
  13. 怎样才能实现表格背景图片拉伸
  14. QQ表情里的股市晴雨表
  15. Excel:文本型日期转化为数值型日期
  16. Docker容器处于Removal in process 无法删除解决方案
  17. 菜鸟教程java的list_Java菜鸟教程
  18. base64字符串实现下载文件
  19. 英语文章书写规则总结
  20. C语言:任意从键盘输入一个三位整数,要求正确分离它的个位,十位和百位数,并分别在屏幕上输出。

热门文章

  1. WEB安全基础-WEB服务器相关知识
  2. Java基础入门笔记-对象与引用
  3. 合并多个python list以及合并多个 django QuerySet 的方法
  4. java web 分页技术_javaweb分页的后端实现
  5. kvmweb管理工具_KVM web管理工具——WebVirtMgr(一)
  6. python修改xml标签的值_对python修改xml文件的节点值方法详解
  7. tomcat如何配置文件读取路径
  8. linux ulimit
  9. sqlmap --os-shell反制小思路
  10. 从零开始学PowerShell(9)创建PowerShell对象