前言

临近毕业,设计一份好的,具有个性化的简历是必须的。

当然,简历的样式也有很多种,比如单页的,多页的,表格类的…现在我用python中的requests+bs4+正则表达式编写代码爬取网上的简历模板用作参考。

数据来源:http://www.gerenjianli.com(个人简历网)

简历获取

分析网站

打开网站我们看到如图所示的界面

点击简历模板进入我们所需要的界面如图:

图上所示便是我们所需要的简历模板种类只需要点击相应的类别便可查看和下载对应的模板,现在我们需要批量下载,这些简历模板。

爬取思路

通过对网站的分析我们可以得到如下的爬取思路:

数据获取思路

解析初始界面数据

获取对应简历种类的链接

进入相应种类模板的界面

解析界面

获取每份简历的链接

进入每份简历所在界面

解析界面获取数据

数据爬取

首先,先导入爬取数据所对应的库,如下:

import requests

from bs4 import BeautifulSoup

import re

import urllib

再定义一个Jianli类用来爬取和下载数据:

class Jianli:

def __init__(self,url):

self.url = url

现在用正则表达式和BeautifulSoup对初始界面进行解析,获取到每个种类简历模板链接:

def jie1(self):

data = requests.get(self.url)

data.encoding = data.apparent_encoding

soup = BeautifulSoup(data.text,'lxml')

#编写正则表达式提取链接

url_1 = re.compile(r'')

soup = str(soup)

repons = re.findall(url_1,soup)

运行测试截图:

获取每个种类模板后需要做的就是在每个种类的简历中解析出每个模板的链接:

for i in repons:

data1 = requests.get(i)

data1.encoding = data1.apparent_encoding

soup1 = BeautifulSoup(data1.text,'lxml')

soup2 = soup1.find_all('div','donwurl2')

soup2 = str(soup2)

#编写正则表达式提取下载链接

url_2 = re.compile(r'

repons1 = re.findall(url_2,soup2)

运行测试截图:

到此我们已经获得了所有种类的每个简历模板,现在需要做的就是将其保存。

数据保存

将获取的简历链接下载到本地文件,方便以后的使用:

for a in repons1:

try:

urllib.request.urlretrieve(a,'简历模板下载/' + w_name[n] + '.docx') # 开始下载模板

print('正在下载第' + str(n) + ' few.' + w_name[n])

n += 1

except:

print('第' + str(n) + ' 失败')

n += 1

Jianli类的编写到此就结束,现在需要初始化Jianli类运行整个代码块:

if __name__ == "__main__":

urls_list = ['http://www.gerenjianli.co33m/moban/']

for u in range(2,11):

urls = 'http://www.gerenjianli.com/moban/index_'+str(u)+'.html'

urls_list.append(urls)

for url in urls_list:

ppt = Jianli(url)

ppt.jie1()

以上代码先新建一个urls_list列表用以存放所有的种类链接,然后遍历链接列表分别取出链接并调用Jianli类的实例再调用其中的jie1方法下载模板,下载截图如下:

完整代码如下:

import requests

from bs4 import BeautifulSoup

import re

import urllib

class Jianli:

def __init__(self,url):

self.url = url

def jie1(self):

data = requests.get(self.url,headers = 'ksodvcpk')

data.encoding = data.apparent_encoding

soup = BeautifulSoup(data.text,'lxml')

#编写正则表达式提取链接

url_1 = re.compile(r'

soup = str(soup)

w_name = re.findall('

repons = re.findall(url_1,soup)

print(repons)

n = 0

for i in repons:

data1 = requests.get(i)

data1.encoding = data1.apparent_encoding

soup1 = BeautifulSoup(data1.text,'lxml')

soup2 = soup1.find_all('div','donwurl2')

soup2 = str(soup2)

#编写正则表达式提取下载链接

url_2 = re.compile(r'

python爬取简历模板_python爬取简历模板相关推荐

  1. python爬取简历模板_python 爬取免费简历模板网站的示例

    代码 # 免费的简历模板进行爬取本地保存 # http://sc.chinaz.com/jianli/free.html # http://sc.chinaz.com/jianli/free_2.ht ...

  2. python爬取动态网页_python爬取动态网页数据,详解

    原理:动态网页,即用js代码实现动态加载数据,就是可以根据用户的行为,自动访问服务器请求数据,重点就是:请求数据,那么怎么用python获取这个数据了? 浏览器请求数据方式:浏览器向服务器的api(例 ...

  3. python 柱状图上显示字体_Python爬取百部电影数据,我发现了这个惊人真相!

    2019年就这么匆匆过去了,就在前几天国家电影局发布了2019年中国电影市场数据,数据显示去年总票房为642.66亿元,同比增长5.4%:国产电影总票房411.75亿元,同比增长8.65%,市场占比 ...

  4. python抓取微博评论_Python爬取新浪微博评论数据,你有空了解一下?

    开发工具 Python版本:3.6.4 相关模块: argparse模块: requests模块: jieba模块: wordcloud模块: 以及一些Python自带的模块. 环境搭建 安装Pyth ...

  5. python爬取手机微信_Python爬取微信好友

    前言 今天看到一篇好玩的文章,可以实现微信的内容爬取和聊天机器人的制作,所以尝试着实现一遍,本文记录了实现过程和一些探索的内容 itchat安装 对微信的控制可以使用itchat来实现,我们找到itc ...

  6. python开源代码百度盘_python爬取百度云网盘资源-源码

    今天测试用了一下python爬取百度云网盘资源. 代码片段import urllib import urllib.request import webbrowser import re def yun ...

  7. python爬关键词百度指数_Python 抓取指定关键词的百度指数

    百度指数很多时候在我们做项目的时候会很有帮助,从搜索引擎的流量端给到我们一些帮助,比如:家具行业的销量跟"装修","新房","二手房"等关键 ...

  8. python爬取ppt代码_Python爬取PPT模板小工具

    由于很多PPT抓取工具都会因为版本问题无法使用,所以论坛大神就自己写了这款Python爬取PPT模板小工具,可以帮助用户轻松获取各种PPT模板,使用的时候注意一次只能下载一种类型.软件仅供交流学习,下 ...

  9. python爬取pdf内容_Python爬取读者并制作成PDF

    学了下beautifulsoup后,做个个网络爬虫,爬取读者杂志并用reportlab制作成pdf.. crawler.py #!/usr/bin/env python #coding=utf-8 & ...

  10. python背景怎么自定义铃声_python爬取手机铃声

    相信每个人都会给自己的手机调一个好听的音乐作为铃声,但是对于iphone用户来说换铃声一般都会去找第三方平台来进行更换,众多平台当中不得不说的就是爱思手机助手,今天我将带你通过python爬虫来批量进 ...

最新文章

  1. SCRUM敏捷实践—任务看板
  2. ELK结合logback搭建日志中心
  3. 说说项目从0-1过程中的那点事儿
  4. 舞蹈里需要用计算机的地方,【舞蹈教学论文】计算机多媒体技术在舞蹈教学中的应用(共2080字)...
  5. 服务器排障 之 nginx 499 错误的解决
  6. 中山大学曾兆阳_2010—2011学年度中山大学信科院优秀学生奖学金评选结果名单...
  7. 信息学奥赛一本通(1192:放苹果)
  8. vue_cli全局变量使用
  9. python调用js文件报错_python - selenium 运行网页中js脚本报错,提示未定义
  10. matlab 上穿,Matlab混入模式(Mixin)
  11. 谷歌浏览器:解决Chrome加载扩展程序提示程序包无效:
  12. PCIe/PCI插槽不够用怎么办
  13. arduino编译失败_保存后,Arduino代码将无法编译
  14. 软考-系统架构设计师(软件架构风格)
  15. JZOJ5424. 【NOIP2017提高A组集训10.25】凤凰院凶真
  16. 字节跳动2018.11校招测试岗笔试(回忆版)
  17. WPS:将彻底关闭广告
  18. vc6.0中用GDIPlus实现加载动态gif图片(非MFC实现)
  19. CSC7715 同步整流
  20. python查答案_大学慕课Python编程基础答案查题公众号

热门文章

  1. lesson 12 goodbye and good luck 再见,一路顺风-将来时态-early in the morning
  2. MyBatis 简单手写的 实现
  3. Thief-Book:上班摸鱼看小说必备神器
  4. 小武实习的debug日记
  5. 局域网服务器共享文件夹设置,局域网共享设置如何操作?怎么实现局域网文件夹共享?...
  6. 什么是ColdFusion
  7. 尝试Ajax数据爬取微博
  8. MyBatis之one2one与one2many
  9. 转:『代码』JS封装 Ajax级联下拉列表
  10. JDF的实质与走向(转)