python爬虫爬取免费简历模板实例
爬取目标网站https://sc.chinaz.com/jianli/free.html
思路
思路捋清,直接上代码
# -*- codeing = utf-8 -*-
# @Time : 2021/7/20 10:13
# @Author : ArthurHuang
# @File : 10_xpath解析案例_站长素材中免费简历模板爬取.py
# @Software : PyCharm
import requestsfrom lxml import html
etree = html.etree #新版本etree现在需要这样导入import osif __name__ == "__main__":url = 'http://sc.chinaz.com/jianli/free_%d.html'for page in range(1, 6): # 循环取前5页,每页20张简历# UA伪装:将对应的User-Agent封装到一个字典中headers = {"User-Agent": "Mozilla / 5.0(Windows NT 10.0;Win64;x64) AppleWebKit / 537.36(KHTML, like Gecko) Chrome / 91.0.4472.77 Safari / 537.36"}if page == 1: # 第一页与其余几页的url不同,需要分开写new_url = 'http://sc.chinaz.com/jianli/free.html'else:new_url = format(url % page)page_text = requests.get(url=new_url, headers=headers).text# 实例化etree对象tree = etree.HTML(page_text)# 创建一个文件夹保存图片if not os.path.exists('./jianliLibs'):os.mkdir('./jianliLibs')a_list = tree.xpath('//div[@id="container"]/div/a')for a in a_list:# 获取简历名称列表all_titles = a.xpath('./img/@alt')[0]+'.zip'all_titles = all_titles.encode('iso-8859-1').decode('utf-8') # 通用处理中文乱码的解决方案#print(all_titles)# 获取每个简历对应的单独网页地址all_href = 'https:'+a.xpath('./@href')[0]response = requests.get(url=all_href, headers=headers)resume_data = response.textresumetree = etree.HTML(resume_data)resume_download_list = resumetree.xpath('//div[@id="down"]/div[2]/ul/li[1]')# 每个简历对应的点击下载的地址for download in resume_download_list:all_downloads = download.xpath('./a/@href')[0]resume_rar_page = requests.get(url=all_downloads, headers=headers).content # 向点击下载的url发送请求,把简历下载到本地resume_path = 'jianliLibs/' + all_titleswith open(resume_path, 'wb')as fp:fp.write(resume_rar_page )print(all_titles, "下载成功!!!")
成功获取
python爬虫爬取免费简历模板实例相关推荐
- python爬取简历模板_python 爬取免费简历模板网站的示例
代码 # 免费的简历模板进行爬取本地保存 # http://sc.chinaz.com/jianli/free.html # http://sc.chinaz.com/jianli/free_2.ht ...
- 【爬虫】批量爬取免费简历模板
目的 初学爬虫进程池练习,批量爬取网站免费简历模板:点击跳转爬取网站 分析 先利用网页抓包工具可以找到每个模板所在的 div,可以看见每个模板都在一个class = "clearfix mt ...
- java爬虫抓取nba_利用Python爬虫爬取NBA数据功能实例分享
Python实现爬虫爬取NBA数据功能示例 本文实例讲述了Python实现爬虫爬取NBA数据功能.分享给大家供大家参考,具体如下: 爬取的网站为:stat-nba.com,这里爬取的是NBA2016- ...
- python爬网站数据实例-利用Python爬虫爬取NBA数据功能实例分享
Python实现爬虫爬取NBA数据功能示例 本文实例讲述了Python实现爬虫爬取NBA数据功能.分享给大家供大家参考,具体如下: 爬取的网站为:stat-nba.com,这里爬取的是NBA2016- ...
- python个人简历爬取_python 爬取免费简历模板网站的示例
代码 # 免费的简历模板进行爬取本地保存 # http://sc.chinaz.com/jianli/free.html # http://sc.chinaz.com/jianli/free_2.ht ...
- 在当当买了python怎么下载源代码-python爬虫爬取当当网
[实例简介]python爬虫爬取当当网 [实例截图] [核心代码] ''' Function: 当当网图书爬虫 Author: Charles 微信公众号: Charles的皮卡丘 ''' impor ...
- Python爬虫爬取美女写真实例
Python爬虫爬取美女写真实例 微信关注公众号:夜寒信息 致力于为每一位用户免费提供更优质技术帮助与资源供给,感谢支持! 这是我写的一个较为简单的爬虫代码,用于爬取美女写真(咳咳,当然是正规 ...
- python爬虫代码实例-Python爬虫爬取百度搜索内容代码实例
这篇文章主要介绍了Python爬虫爬取百度搜索内容代码实例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下 搜索引擎用的很频繁,现在利用Python爬 ...
- python爬虫图片实例-Python爬虫爬取煎蛋网图片代码实例
这篇文章主要介绍了Python爬虫爬取煎蛋网图片代码实例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下 今天,试着爬取了煎蛋网的图片. 用到的包: ...
最新文章
- 元器件基础知识--排阻命名
- ASP.NET Web API 中 特性路由(Attribute Routing) 的重名问题
- JAVA 获取格林威治时间(GMT)
- 在Linux上启动oracle 11g OEM
- mysql数据库备份shell_mysql数据库备份shell脚本分享
- Magento 添加 google font Adding a google fonts into Magento
- linux内核时钟工作原理,linux内核的时钟机制
- box-sizing的不同属性值间的区别
- 基于layui的select区域联动
- linux ubuntu系统安装dotnet / Azcopy
- Java日期查询:日、周、旬、月、季度、年等时间操作
- RabbitMQ使用案例
- android是什么意思
- import math在python种中的意思,Python中import使用
- 学校计算机的使用英语作文180字,计算机(Computer)
- websocket给指定客户端推送消息
- 关于Warning: 'https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/' already的解决方法
- 2022年的第一个夕阳
- 致终将火爆的NFC——ISO14443 TypeA(二)
- 常见DDOS攻击原理
热门文章
- 《互联网+ 电商平台设计与运营》一一1.2 回归本质——互联网电商的商业逻辑...
- 云开发在教育应用开发、运维全流程实践
- CreateFile 函数
- 南京邮电大学离散数学实验一【计算主范式(Java)】
- 实验室新生成长指南[2.1.0]·电路仿真概述
- Dell计算机装Win8,戴尔笔记本用U盘重装原版win8操作系统图文详解
- 好莱坞十宗“最” 不得不说的十大热门话题
- 通过换手率来发现大庄股
- 【Python网络爬虫与数据可视化实战案例】未来15天气温走势图
- .NET中那些所谓的新语法之四:标准查询运算符与LINQ