首先F12对搜索的网页进行分析,51job网址

我们可以观察到,其网页结构比较简单,基本信息都在 p标签下
这种情况利用正则表达式可以很容易的把信息提取出来

代码如下:

import urllib.request
import re#获取原码
def get_content(page,name):name = urllib.request.quote(name)url ='http://search.51job.com/list/000000,000000,0000,00,9,99,'+name+',2,'+ str(page)+'.html'a = urllib.request.urlopen(url)#打开网址html = a.read().decode('gbk')#读取源代码并转为unicodereturn htmldef get(html):reg1 = re.compile(r'class="t1 ">.*?<a target="_blank" title=".*?" href="(.*?)".*?<span class="t2">', re.S)#公司招人详情detail_url=re.findall(reg1, html)print(detail_url)reg = re.compile(r'class="t1 ">.*? <a target="_blank" title="(.*?)".*?<span class="t2"><a target="_blank" title="(.*?)" href="(.*?)".*?<span class="t3">(.*?)</span>.*?<span class="t4">(.*?)</span>.*? <span class="t5">(.*?)</span>',re.S)#基本信息items=re.findall(reg,html)return items,detail_url
def run():name = input('请输入想要爬取的职业:')#多页处理,下载到文件for  j in range(1,3):print("正在爬取第"+str(j)+"页数据...")html=get_content(j,name)#调用获取网页原码items, detail_url=get(html)for i,c in zip(items,detail_url):#print(i[0],i[1],i[2],i[3],i[4])with open ('51job.txt','a',encoding='utf-8') as f:f.write(i[0]+'\t'+i[1]+'\t'+i[3]+'\t'+i[4]+'\t'+i[5]+'\t'+i[2]+'\t'+c+'\n')f.close()
if __name__ == '__main__':run()

演示如下:

txt文件:

总结:本代码只是对搜索网页上的职位进行简单的爬取,后续将将对detail_url网页内的职业内容详情进行爬取,并进行数据清洗等操作,对数据文本进行挖掘与分析。

**对于51job详情爬取并生成Excel文件请移步这篇文章:**https://blog.csdn.net/weixin_43746433/article/details/90490227

python爬虫实战之爬取51job前程无忧简历相关推荐

  1. 携程ajax,Python爬虫实战之爬取携程评论

    一.分析数据源 这里的数据源是指html网页?还是Aajx异步.对于爬虫初学者来说,可能不知道怎么判断,这里辰哥也手把手过一遍. 提示:以下操作均不需要登录(当然登录也可以) 咱们先在浏览器里面搜索携 ...

  2. Python爬虫实战之爬取糗事百科段子

    Python爬虫实战之爬取糗事百科段子 完整代码地址:Python爬虫实战之爬取糗事百科段子 程序代码详解: Spider1-qiushibaike.py:爬取糗事百科的8小时最新页的段子.包含的信息 ...

  3. Python爬虫实战之爬取百度贴吧帖子

    Python爬虫实战之爬取百度贴吧帖子 大家好,上次我们实验了爬取了糗事百科的段子,那么这次我们来尝试一下爬取百度贴吧的帖子.与上一篇不同的是,这次我们需要用到文件的相关操作. 本篇目标 对百度贴吧的 ...

  4. Python爬虫实战(1) | 爬取豆瓣网排名前250的电影(下)

    在Python爬虫实战(1) | 爬取豆瓣网排名前250的电影(上)中,我们最后爬出来的结果不是很完美,这对于"精益求精.追求完美的"程序猿来说怎么能够甘心 所以,今天,用pyth ...

  5. Python爬虫实战之爬取网站全部图片(一)

    Python爬虫实战之爬取网站全部图片(二) Python爬虫实战之通过ajax获得图片地址实现全站图片下载(三) 一.获得图片地址 和 图片名称 1.进入网址之后 按F12  打开开发人员工具点击e ...

  6. Python爬虫实战:爬取解放日报新闻文章

    上一篇<Python 网络爬虫实战:爬取人民日报新闻文章>发布之后,确实帮到了不少朋友. 前几天,我好哥们问我:我想爬另一个日报新闻网站,网页结构几乎跟人民日报几乎一模一样,但是我用你的那 ...

  7. Python爬虫实战之 爬取全国理工类大学数量+数据可视化

    上次爬取高考分数线这部分收了个尾,今天咱们来全面爬取全国各省有多少所理工类大学,并简单实现一个数据可视化.话不多说,咱们开始吧. 第一步,拿到url地址 第二步,获取高校数据 第三步,地图可视化 第四 ...

  8. Python爬虫实战 | (12) 爬取万方数据库文献摘要并存入MongoDB

    之前在Python爬虫实战(7)中曾爬取过万方,本篇博客的爬取解析过程和之前几乎完全一样,不同的是数据存储方式,之前是存储到文件中(csv,txt,json,excel等),这次我们将提取的论文信息存 ...

  9. Python爬虫实战之爬取web网易云音乐——解析

    找到存储歌曲地址的url界面 首先我们要进入网易云的web页面在页面中我们随意选择一首歌曲,打开开发者工具查看响应的界面. 在这些页面中我们需要查找存储有音乐文件的url,这是我们可以打开全局搜索直接 ...

最新文章

  1. 为何苹果为何苹果甘愿冒险自主研发芯片?
  2. Windows 8 :妥协的产物
  3. 【C语言练习】将100~200之间的素数输出
  4. 防火墙(9)——禁止某个时间段内访问我们的web
  5. python整体缩进笔记_python笔记1
  6. 《Linux命令行与shell脚本编程大全 第3版》Shell脚本编程基础---23
  7. mysql 修改表名的方法:sql语句
  8. AFTER触发器与INSTEAD OF触发器的区别
  9. Web后端学习笔记 Flask(1)基础知识
  10. 如何使用SIGFOX技术连接物联网?
  11. 你写的JSP就是JSP么?
  12. Zero-Shot相关论文阅读报告
  13. 网口up不起来问题排查
  14. 【历史上的今天】10 月 6 日:互联网先驱诞生日;莲花公司宣布上市
  15. 网秦大战奇虎360?先看看双方实力对比
  16. MAVEN环境搭建中遇到的问题及解决方案
  17. 2009年4月10日
  18. OpenSSH dropbear
  19. OFFER狂魔成长指南
  20. arcsoft totalmedia theatre 播放电视

热门文章

  1. 不平等博弈_不平等与全球性大流行:完美的风暴?
  2. python基础入门1:输入输出,二进制字符编码,数据类型与注释
  3. Unity_视频背景
  4. 模拟飞秋客户端给别人发消息
  5. win2008 r2 配置程序office访问权限
  6. Android掌中游斗地主游戏源码完整版
  7. 基于传感器时钟跟踪的ADS-B异常和入侵的检测
  8. vscode 文件格式化
  9. B. Alyona and a Narrow Fridge( Codeforces Global Round 2)二分
  10. C语言题解:谁是凶手!