######################首先使用requests获取前程无忧一级网页
import requests
from lxml.etree import HTML
import re
import time
page=1
while True:
url=‘https://search.51job.com/list/020000,000000,0000,01,2,99,%2B,2,{}.html?lang=c&stype=1&postchannel=0000&workyear=99&cotype=99&degreefrom=99&jobterm=99&companysize=99&lonlat=0%2C0&radius=-1&ord_field=0&confirmdate=9&fromType=5&dibiaoid=0&address=&line=&specialarea=00&from=&welfare=’
try:
rst=requests.get(url.format(page))
rst.apparent_encoding
rst.encoding=‘GB2312’
rst=rst.text
html=HTML(rst)
ls=html.xpath(’//[@id=“resultList”]/div[.]/p/span/a/@href’) #Xpath获取所有岗位的url
tatal=re.compile('共(.
?)页’).findall(rst) #正则获取总页数
tatal=int(tatal[0])
################################获取二级网页的url(所有岗位的url) 储存起来

    with open('sh1.txt','a',encoding='utf-8') as f:for i in ls:f.write(str(i)+'\n')f.flush()print(i)
except Exception:print('失败')with open('shibai1.txt','a',ending='utf-8') as s:s.write(url)
if page < tatal:page=page +1
else:break

############################分析获取到的信息
with open(‘sh1.txt’,‘r’,encoding=‘utf-8’) as e: #读取已存url
ls1=e.readlines()
n=1
for j in ls1:
try:
rst=requests.get(j)
rst.encoding = ‘gbk’
rst = rst.text
with open(‘D:\ClassWork\Python\前程无忧1\’+str(n)+’.html’,‘a’,encoding=‘gbk’) as h:
###############下载所有岗位的二级网页,保存本地
h.write(rst)
print(‘第’+str(n)+‘个网页’)
n=n+1
except Exception:
print(‘失败’)
with open(‘失败1.txt’,‘a’,encoding=‘gbk’) as g:
g.write(str(j)+’\n’)
timeout=10
continue

python爬取前程无忧招聘岗位信息相关推荐

  1. 用python爬取前程无忧招聘网

    直接上代码了,相比前篇文章智联招聘网的数据,前程无忧网的数据可以爬取很多. 网址:https://search.51job.com/list/040000,000000,0000,00,9,99,%2 ...

  2. python爬取前程无忧招聘网站数据搭建Hadoop、Flume、Kafka、Spark用Hive做数据分析Sqoop存储到Mysql并实现可视化

    文章目录 一.项目总体要求 二.环境搭建 1.安装包准备 2.安装jdk (1)查询是否安装java (2)卸载jdk (3)安装jdk (4)配置jdk环境变量 3.配置ssh免密登录 (1)进入到 ...

  3. 大数据项目开发hadoop集群搭建 python爬取前程无忧招聘网信息以及进行数据分析和数据可视化

    大数据项目开发实训报告 一.Hadoop环境搭建 1: jdk的安装 1):在linux系统下的opt目录下创建software 和 module 两个目录 2):利用filezilla工具将 jdk ...

  4. 使用Python爬取51job招聘网的数据

    使用Python爬取51job招聘网的数据 进行网站分析 获取职位信息 存储信息 最终代码 进行网站分析 进入https://www.51job.com/这个网站 我在这就以python为例搜索职位跳 ...

  5. python爬取前程无忧scrapy存mogondb案例

    一.分析网页 新:python爬取前程无忧scrapy存mogondb案例+可视化 原网页直达 1.比如java字段,可以先拿到全部的el获取java字段的href,然后在逐个访问进入详情页 2.编写 ...

  6. python爬取前程无忧当日的全部招聘信息

    用了几天时间写成的爬取前程无忧的当日的招聘信息,通过多线程的方式同时爬取多个城市的信息,作为资料保存下来,一下是完整代码,可以直接复制粘贴爬取 这里爬取的数据条件是是24小时内,周末双休的,会在当前文 ...

  7. python爬取前程无忧_用python爬取前程无忧网,看看我们是否真的“前程无忧”?...

    The best time to plant a tree was 10 years ago,the second best time is now. 种一棵树最好的时间是十年前,其次是现在. 利用p ...

  8. 用python爬取前程无忧网,看看我们是否真的“前程无忧”?

    作者:旧时晚风拂晓城 公众号:凹凸数据 The best time to plant a tree was 10 years ago,the second best time is now. 种一棵树 ...

  9. Python3爬取前程无忧招聘数据教程

    文章来自群友 易某某 的投稿,在此表示感谢! 原文链接:https://blog.csdn.net/weixin_42572590/article/details/103443213 前几天,我发表了 ...

最新文章

  1. 当世界模型被用于sim2real:机器人通过视觉想象和交互尝试来学习
  2. 信息系统项目管理师论文评分标准
  3. 中国六个漂亮的古镇风景名胜区网站欣赏
  4. python医学应用_数据分析工具鄙视链:Python、R语言是老大,Excel只能称小弟?
  5. 【深度学习】去掉softmax后Transformer会更好吗?复旦华为诺亚提出SOFT:轻松搞定线性近似...
  6. [北京微软技术直通车]前端 Visual Studio Code 开发 Angular 与亿级 SQL Servern
  7. ARMS在APM工具选型中的实践
  8. php在那个位置加载语言包,thinkphp 3.23语言包加载
  9. 西电计算机达标测试挂科保研,西电竞赛保研
  10. 编译原理第三版课后习题
  11. (17)DialogBox和DialogBoxParam函数
  12. windows快捷键大全
  13. UltraCompare 激活
  14. 互联网骨干网及国际通用结算介绍
  15. 饿了么-T技术沙龙活动感悟。
  16. pdfpcell 怎么设置单元格大小_word怎么设置单元格大小
  17. C# 数字转换成数组
  18. java真有一个关键字叫strictfp啊
  19. 《西瓜书》笔记-第0章-引言
  20. 递归求阶乘和--PTA

热门文章

  1. EJB学习日记(7)
  2. D3.js的v5版本入门教程(第十三章)—— 饼状图
  3. 付款申请单控制申请金额,1、每行记录不可高于采购订单金额减去已申请金额,2、申请时判断之前的已付款项,供应商采购发票有没有到齐。
  4. Kinect结合Unity3D引擎开发体感游戏(一
  5. 计算机技能节活动作文,技能节观后感这500字作文
  6. java字体库_java使用第三方字体库的方法,使用第三方ttf/ttc等字体库的方法
  7. python图像去污_图像去雾----暗通道
  8. winbox配置静态IP上网步骤
  9. PAT (Advanced Level) Practice 1165 Block Reversing
  10. Linux 流量监控软件 NetHogs