代码

# 免费的简历模板进行爬取本地保存

# http://sc.chinaz.com/jianli/free.html

# http://sc.chinaz.com/jianli/free_2.html

import requests

from lxml import etree

import os

dirName = './resumeLibs'

if not os.path.exists(dirName):

os.mkdir(dirName)

headers = {

'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.83 Safari/537.36'

}

url = 'http://sc.chinaz.com/jianli/free_%d.html'

for page in range(1,2):

if page == 1:

new_url = 'http://sc.chinaz.com/jianli/free.html'

else:

new_url = format(url%page)

page_text = requests.get(url=new_url,headers=headers).text

tree = etree.HTML(page_text)

a_list = tree.xpath('//div[@id="container"]/div/p/a')

for a in a_list:

a_src = a.xpath('./@href')[0]

a_title = a.xpath('./text()')[0]

a_title = a_title.encode('iso-8859-1').decode('utf-8')

# 爬取下载页面

page_text = requests.get(url=a_src,headers=headers).text

tree = etree.HTML(page_text)

dl_src = tree.xpath('//div[@id="down"]/div[2]/ul/li[8]/a/@href')[0]

resume_data = requests.get(url=dl_src,headers=headers).content

resume_name = a_title

resume_path = dirName + '/' + resume_name + '.rar'

with open(resume_path,'wb') as fp:

fp.write(resume_data)

print(resume_name,'下载成功!')

爬取结果

以上就是python 爬取免费简历模板网站的示例的详细内容,更多关于python 爬取网站的资料请关注随便开发网其它相关文章!

python爬取简历模板_python 爬取免费简历模板网站的示例相关推荐

  1. python爬取动态网页_python爬取动态网页数据,详解

    原理:动态网页,即用js代码实现动态加载数据,就是可以根据用户的行为,自动访问服务器请求数据,重点就是:请求数据,那么怎么用python获取这个数据了? 浏览器请求数据方式:浏览器向服务器的api(例 ...

  2. python 柱状图上显示字体_Python爬取百部电影数据,我发现了这个惊人真相!

    2019年就这么匆匆过去了,就在前几天国家电影局发布了2019年中国电影市场数据,数据显示去年总票房为642.66亿元,同比增长5.4%:国产电影总票房411.75亿元,同比增长8.65%,市场占比 ...

  3. python爬虫知乎图片_python 爬取知乎图片

    先上完整代码 1 importrequests2 importtime3 importdatetime4 importos5 importjson6 importuuid7 from pyquery ...

  4. python抓取微博评论_Python爬取新浪微博评论数据,你有空了解一下?

    开发工具 Python版本:3.6.4 相关模块: argparse模块: requests模块: jieba模块: wordcloud模块: 以及一些Python自带的模块. 环境搭建 安装Pyth ...

  5. python爬取手机微信_Python爬取微信好友

    前言 今天看到一篇好玩的文章,可以实现微信的内容爬取和聊天机器人的制作,所以尝试着实现一遍,本文记录了实现过程和一些探索的内容 itchat安装 对微信的控制可以使用itchat来实现,我们找到itc ...

  6. python开源代码百度盘_python爬取百度云网盘资源-源码

    今天测试用了一下python爬取百度云网盘资源. 代码片段import urllib import urllib.request import webbrowser import re def yun ...

  7. python爬关键词百度指数_Python 抓取指定关键词的百度指数

    百度指数很多时候在我们做项目的时候会很有帮助,从搜索引擎的流量端给到我们一些帮助,比如:家具行业的销量跟"装修","新房","二手房"等关键 ...

  8. python爬取ppt代码_Python爬取PPT模板小工具

    由于很多PPT抓取工具都会因为版本问题无法使用,所以论坛大神就自己写了这款Python爬取PPT模板小工具,可以帮助用户轻松获取各种PPT模板,使用的时候注意一次只能下载一种类型.软件仅供交流学习,下 ...

  9. python爬取pdf内容_Python爬取读者并制作成PDF

    学了下beautifulsoup后,做个个网络爬虫,爬取读者杂志并用reportlab制作成pdf.. crawler.py #!/usr/bin/env python #coding=utf-8 & ...

最新文章

  1. maven实现依赖的“全局排除”
  2. jquery zoom jquery放大镜特效
  3. 零基础自学python看什么书-学习Python可以看书籍学习吗?老男孩Python入门课程
  4. 彻底掌握Linux文件与目录管理命令?进来看看硬核总结
  5. boost::hana::equal用法的测试程序
  6. linux+不同分区mv,mv操作深入浅出
  7. 电脑卡顿不流畅怎么解决_如何解决因电脑内存容量不足引起的卡顿?
  8. 使用idea本地运行mapreduce程序,控制台log4j日志没有打印出来,可以这样解决
  9. [Selenium]如何通过Selenium实现Ctrl+click,即按住Ctrl的同时进行单击操作
  10. java基本变量的堆栈_JAVA经验谈:尽可能使用堆栈变量
  11. (转)switch与ifelse的效率问题 .
  12. System.getProperty(user.dir)
  13. Anthony Zee《Quantum Field Theory in a Nutshell (2nd)》(徐一鸿《简明量子场论(第二版)》)中文目录
  14. 【ESD专题】案例:同样是RS485芯片,ESD的性能却天差地别?
  15. pr用什么显卡比较好_用 PR 剪辑视频应该用什么 CPU 和显卡?
  16. 机器学习的transformer
  17. java 从已知日期计算干支纪日_天干地支纪日纪时计算公式
  18. 什么是字节码?采用字节码的好处是什么?
  19. c语言中负数的读取和存储,C语言中负数的存储方式
  20. 定义Mat类型显示未定义

热门文章

  1. 华硕hd7850_参测产品之华硕Dragon HD7850 2G_华硕 龙骑士DRAGON HD7850-DC2O-2GD5 _显卡评测-中关村在线...
  2. 树莓派更换源后update/upgrade更新后无法启动
  3. CAD中 OLE不能旋转_CAD制图初学入门教程:阵列功能的使用技巧
  4. linux自学笔记(三)
  5. ROS麦克纳姆轮底盘制作(上)
  6. 神经网络ANN算法——鸢尾花案例python实现
  7. l3119双闪_爱普生打印机两个指示灯一直在闪是为什么
  8. 网易2018内推编程题——操作序列
  9. 删除文件右键及打开方式下的HBuiderX 已成功
  10. PHP常用函数总结(180多个)