爬取目标网站https://sc.chinaz.com/jianli/free.html

思路

思路捋清,直接上代码

# -*- codeing = utf-8 -*-
# @Time : 2021/7/20 10:13
# @Author : ArthurHuang
# @File : 10_xpath解析案例_站长素材中免费简历模板爬取.py
# @Software : PyCharm
import requestsfrom lxml import html
etree = html.etree #新版本etree现在需要这样导入import  osif __name__ == "__main__":url = 'http://sc.chinaz.com/jianli/free_%d.html'for page in range(1, 6):  # 循环取前5页,每页20张简历# UA伪装:将对应的User-Agent封装到一个字典中headers = {"User-Agent": "Mozilla / 5.0(Windows NT 10.0;Win64;x64) AppleWebKit / 537.36(KHTML, like Gecko) Chrome / 91.0.4472.77 Safari / 537.36"}if page == 1:  # 第一页与其余几页的url不同,需要分开写new_url = 'http://sc.chinaz.com/jianli/free.html'else:new_url = format(url % page)page_text = requests.get(url=new_url, headers=headers).text# 实例化etree对象tree = etree.HTML(page_text)# 创建一个文件夹保存图片if not os.path.exists('./jianliLibs'):os.mkdir('./jianliLibs')a_list = tree.xpath('//div[@id="container"]/div/a')for a in a_list:# 获取简历名称列表all_titles = a.xpath('./img/@alt')[0]+'.zip'all_titles = all_titles.encode('iso-8859-1').decode('utf-8')  # 通用处理中文乱码的解决方案#print(all_titles)# 获取每个简历对应的单独网页地址all_href = 'https:'+a.xpath('./@href')[0]response = requests.get(url=all_href, headers=headers)resume_data = response.textresumetree = etree.HTML(resume_data)resume_download_list = resumetree.xpath('//div[@id="down"]/div[2]/ul/li[1]')# 每个简历对应的点击下载的地址for download in resume_download_list:all_downloads = download.xpath('./a/@href')[0]resume_rar_page = requests.get(url=all_downloads, headers=headers).content  # 向点击下载的url发送请求,把简历下载到本地resume_path = 'jianliLibs/' + all_titleswith open(resume_path, 'wb')as fp:fp.write(resume_rar_page )print(all_titles, "下载成功!!!")

成功获取

python爬虫爬取免费简历模板实例相关推荐

  1. python爬取简历模板_python 爬取免费简历模板网站的示例

    代码 # 免费的简历模板进行爬取本地保存 # http://sc.chinaz.com/jianli/free.html # http://sc.chinaz.com/jianli/free_2.ht ...

  2. 【爬虫】批量爬取免费简历模板

    目的 初学爬虫进程池练习,批量爬取网站免费简历模板:点击跳转爬取网站 分析 先利用网页抓包工具可以找到每个模板所在的 div,可以看见每个模板都在一个class = "clearfix mt ...

  3. java爬虫抓取nba_利用Python爬虫爬取NBA数据功能实例分享

    Python实现爬虫爬取NBA数据功能示例 本文实例讲述了Python实现爬虫爬取NBA数据功能.分享给大家供大家参考,具体如下: 爬取的网站为:stat-nba.com,这里爬取的是NBA2016- ...

  4. python爬网站数据实例-利用Python爬虫爬取NBA数据功能实例分享

    Python实现爬虫爬取NBA数据功能示例 本文实例讲述了Python实现爬虫爬取NBA数据功能.分享给大家供大家参考,具体如下: 爬取的网站为:stat-nba.com,这里爬取的是NBA2016- ...

  5. python个人简历爬取_python 爬取免费简历模板网站的示例

    代码 # 免费的简历模板进行爬取本地保存 # http://sc.chinaz.com/jianli/free.html # http://sc.chinaz.com/jianli/free_2.ht ...

  6. 在当当买了python怎么下载源代码-python爬虫爬取当当网

    [实例简介]python爬虫爬取当当网 [实例截图] [核心代码] ''' Function: 当当网图书爬虫 Author: Charles 微信公众号: Charles的皮卡丘 ''' impor ...

  7. Python爬虫爬取美女写真实例

    Python爬虫爬取美女写真实例 微信关注公众号:夜寒信息 致力于为每一位用户免费提供更优质技术帮助与资源供给,感谢支持!     这是我写的一个较为简单的爬虫代码,用于爬取美女写真(咳咳,当然是正规 ...

  8. python爬虫代码实例-Python爬虫爬取百度搜索内容代码实例

    这篇文章主要介绍了Python爬虫爬取百度搜索内容代码实例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下 搜索引擎用的很频繁,现在利用Python爬 ...

  9. python爬虫图片实例-Python爬虫爬取煎蛋网图片代码实例

    这篇文章主要介绍了Python爬虫爬取煎蛋网图片代码实例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下 今天,试着爬取了煎蛋网的图片. 用到的包: ...

最新文章

  1. 元器件基础知识--排阻命名
  2. ASP.NET Web API 中 特性路由(Attribute Routing) 的重名问题
  3. JAVA 获取格林威治时间(GMT)
  4. 在Linux上启动oracle 11g OEM
  5. mysql数据库备份shell_mysql数据库备份shell脚本分享
  6. Magento 添加 google font Adding a google fonts into Magento
  7. linux内核时钟工作原理,linux内核的时钟机制
  8. box-sizing的不同属性值间的区别
  9. 基于layui的select区域联动
  10. linux ubuntu系统安装dotnet / Azcopy
  11. Java日期查询:日、周、旬、月、季度、年等时间操作
  12. RabbitMQ使用案例
  13. android是什么意思
  14. import math在python种中的意思,Python中import使用
  15. 学校计算机的使用英语作文180字,计算机(Computer)
  16. websocket给指定客户端推送消息
  17. 关于Warning: 'https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/' already的解决方法
  18. 2022年的第一个夕阳
  19. 致终将火爆的NFC——ISO14443 TypeA(二)
  20. 常见DDOS攻击原理

热门文章

  1. 《互联网+ 电商平台设计与运营》一一1.2 回归本质——互联网电商的商业逻辑...
  2. 云开发在教育应用开发、运维全流程实践
  3. CreateFile 函数
  4. 南京邮电大学离散数学实验一【计算主范式(Java)】
  5. 实验室新生成长指南[2.1.0]·电路仿真概述
  6. Dell计算机装Win8,戴尔笔记本用U盘重装原版win8操作系统图文详解
  7. 好莱坞十宗“最” 不得不说的十大热门话题
  8. 通过换手率来发现大庄股
  9. 【Python网络爬虫与数据可视化实战案例】未来15天气温走势图
  10. .NET中那些所谓的新语法之四:标准查询运算符与LINQ