import requests
from lxml import etree
import os
# 分页:
if __name__ == "__main__":if not os.path.exists('./jianli'):os.mkdir('./jianli')for pageName in range(1, 4):if pageName == 1:url = 'https://sc.chinaz.com/jianli/free.html'print('正在爬取网站第1页内容')else:url = format('https://sc.chinaz.com/jianli/free_%d.html' % pageName)print('正在爬取网站第%d页内容' % pageName)# 1.爬取网页信息 https://sc.chinaz.com/jianli/free.htmlheaders = {'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.103 Safari/537.36'}# 爬取到页面源码数据url = 'https://sc.chinaz.com/jianli/free.html'page_text = requests.get(url=url,headers=headers).text# 2.数据解析tree = etree.HTML(page_text)jl_href= tree.xpath('//div[@id="container"]/div/a/@href')# 拿到每个简历的urlfor jl in jl_href:one_url = 'https:' + jl# print(one_url)# 3.拿到每个简历的下载地址one_page_taxt = requests.get(url=one_url,headers=headers).textone_tree = etree.HTML(one_page_taxt)one_adress = one_tree.xpath('//div[@id="down"]/div[2]/ul/li[1]/a/@href')[0]# print(one_adress)# 4.持久化存储# 拿到每个简历的名字jl_name = one_tree.xpath('//*[@class="bgwhite"]/div[1]/h1/text()')[0] + '.rar'jl_name = jl_name.encode('iso-8859-1').decode('utf-8')# print(jl_name)download = requests.get(url=one_adress, headers=headers).contentadress_path = './jianli/' + jl_namewith open(adress_path, 'wb') as fp:fp.write(download)print(jl_name, '下载成功!!!')print('over')

爬虫:python爬取简历模板相关推荐

  1. python爬取简历模板_python 爬取免费简历模板网站的示例

    代码 # 免费的简历模板进行爬取本地保存 # http://sc.chinaz.com/jianli/free.html # http://sc.chinaz.com/jianli/free_2.ht ...

  2. Python—爬取简历模板案例(Xpath方法)

    源码: import requests import os from lxml import etreeif not os.path.exists('./简历模板'):os.mkdir('./简历模板 ...

  3. Python爬取PPT模板(requests+BeautifulSoup+多线程)

    Python爬取PPT模板(requests+BeautifulSoup+多线程) 快到做毕业设计的时间了,得去找点好看的PPT模板了,在http://www.ypppt.com这个网站上发现了很多不 ...

  4. python 24位图转 8位_Python爬取PPT模板小工具下载-Python爬取PPT模板小工具免费版下载v1.0...

    由于很多PPT抓取工具都会因为版本问题无法使用,所以论坛大神就自己写了这款Python爬取PPT模板小工具,可以帮助用户轻松获取各种PPT模板,使用的时候注意一次只能下载一种类型.软件仅供交流学习,下 ...

  5. Python批量爬取简历模板

    文章目录 前言 一.需求 二.分析 1. 查看网页源码(ctrl+u) 2.进一步分析 三.处理 四.运行效果 前言 为了更好的掌握数据处理的能力,因而开启Python网络爬虫系列小项目文章. 小项目 ...

  6. python爬取地图地址_网络爬虫-python爬取高德地图地点

    python爬取你想要的数据,近期由于业务需求,用python爬取了高德地图一些地点的数据,爬出来数据大致情况如下: image 下面是基本流程: 2.安装网络爬取第三方库,主要是下面三个(pip i ...

  7. [爬虫-python]爬取京东100页的图书(机器学习)的信息(价格,打折后价格,书名,作者,好评数,差评数,总评数)

    Python爬取京东的机器学习类图书的信息 一,配置搜索关键字和页数, 二,查找用到的三个URL的过程 1. 搜索图书的URL 2. 评论总数,差评数,好评数的URL 3. 当前价格与打折前价格URL ...

  8. [爬虫]Python爬取网易云音乐搜索并下载歌曲!

    Python爬取网易云音乐搜索并下载歌曲! 文章目录 Python爬取网易云音乐搜索并下载歌曲! 1.准备工作 2."实地"观察 3.开始码代码! 4.搜索并下载 结束语 1.准备 ...

  9. python爬虫 爬取简历模板

    简介:爬取"个人简历网"中的简历模板并存储到本地(http://www.gerenjianli.com/moban/index.html) 代码: import requests ...

最新文章

  1. 【Paper】2020_GrHDP Solution for Optimal Consensus Control of Multiagent Discrete-Time Systems
  2. 迟到的2017年终总结与2018目标规划
  3. archlinux yaourt安装 以及出错细节 database file for archlinuxfr does not exist.
  4. 测试人员眼中的问题解决策略
  5. 29.yii2 RBAC
  6. Otsu算法原理及实现
  7. 从武则天的故事看职场生涯规划的一个最重要方面
  8. Eclipse 安装离线版 Jrebel
  9. 一加7pro电脑模式_一加7pro值不值得买?
  10. 创新创意ssm计算机毕业设计题目300例之java农村电商网站3252s
  11. 2016计算机课程设计,2016年ps课程设计心得体会范文
  12. UI设计中图标设计的有几大原则
  13. MOOS-ivp 实验四 MOOS编程入门(2)MOOS类讲解
  14. 五一劳动节,向劳动者致敬!
  15. PXE自动安装Linux系统
  16. 自如上线分期支付,租金贷发展受限后充分利用流量变现
  17. 《机器学习》 线性模型
  18. 单项选择标准化考试系统
  19. 所有的 Boost 库文档的索引
  20. nasm汇编器的安装与基本使用方法

热门文章

  1. 一条蠕虫长1寸,在一口深为N寸的井的底部。已知蠕虫每1分钟可以向上爬U寸,但必须休息1分钟才能接着往上爬。在休息的过程中,蠕虫又下滑了D寸。就这样,上爬和下滑重复进行。请问,蠕虫需要多长时间才能爬出井
  2. Spring Cloud 入门教程(二): 配置管理
  3. Log4j 爆发“核弹级”漏洞、工信部力推开源软件发展、“龙腾计划”启动|开源月报 Vol. 02...
  4. R语言中K-Means聚类算法
  5. 鸿蒙系统兼容微软,效仿华为鸿蒙系统!微软放大招:新版Win10系统兼容安卓应用...
  6. 数学与计算机科学奖的是,2018未来科学数学与计算机科学奖揭晓:林本坚获奖
  7. 阿里云 SLB证书记录
  8. 职场必备技之二阶堂红丸
  9. 系统更新荣耀play服务器,华为宣布:荣耀Play推送EMUI 9.1正式版更新!
  10. Werid Tips