python之简历或者简历模板的爬取

本案列采用的是：xpath爬取

## 爬取的是某网站素材的前5页，提示尽量不要爬太多。本案例是最原始的代码，没有涉及多线程。（感谢站长素材）
代码:

import requests
from  lxml import etree
import os#创建目录
dirName='简历封面01'
if not os.path.exists(dirName):os.mkdir(dirName)
count=1
#UA机制
headers={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.61 Safari/537.36'
}
#打开文件
url='http://sc.chinaz.com/jianli/fengmian_{}.html'
#爬取1-5页
for page in range(1,6):if page==1:new_url='http://sc.chinaz.com/jianli/fengmian.html'else:new_url=url.format(page)response=requests.get(url=new_url,headers=headers)response.encoding='utf-8'page_text=response.text#响应数据的解析tree=etree.HTML(page_text)div_list=tree.xpath('//div[@id="container"]/div/a')for div in div_list:#简历图片名称  简历的图片网址   简历的详情链接网址img_text=div.xpath('./img/@alt')[0]img_url=div.xpath('./img/@src')[0]content_url=div.xpath('./@href')[0]#得到图片数据img_response=requests.get(url=img_url,headers=headers)imgdata=img_response.content#下载保存imgpath = dirName + '/' + img_text + '.jpg'fp1 = open(imgpath, 'wb')fp1.write(imgdata)print(img_text + '.jpg下载完毕##################')#得到简历封皮内容响应数据content_text=requests.get(url=content_url,headers=headers).text#封皮响应数据的解析content_tree=etree.HTML(content_text)litag_url=content_tree.xpath('//ul[@class="clearfix"]/li/a/@href')[0]down_response=requests.get(url=litag_url,headers=headers)down_response.encoding='utf-8'download=down_response.content#路径downloadpath=dirName+'/'+img_text+'.rar'fp2 = open(downloadpath, 'wb')fp2.write(download)print(img_text + '.rar下载完毕**************')count+=1print(count)
fp1.close()
fp2.close()

运行结果：

仅供需要参考：
共计201个封皮

百度网盘：
链接：https://pan.baidu.com/s/1l6TouLghGSJKn0q8YStD2g
提取码：rfo5

python之简历或者简历模板的爬取相关推荐

python爬取简历模板_python 爬取免费简历模板网站的示例
代码 # 免费的简历模板进行爬取本地保存 # http://sc.chinaz.com/jianli/free.html # http://sc.chinaz.com/jianli/free_2.ht ...
小白学Python之爬虫篇（一）——爬取PPT网站模板
说明菜狗大学生一枚,本着用什么学什么的原则,对之前简单学习的爬虫进行略微系统的整理,一方面方便以后复习,另一方面也希望给需要的人一点参考,毕竟看了那么多大佬的博客,是时候开始回报社会了哈哈哈(尴尬笑 ...
Python使用多进程提高网络爬虫的爬取速度
多线程技术并不能充分利用硬件资源和大幅度提高系统吞吐量,类似需求应使用多进程编程技术满足. 以爬取中国工程院院士简介和照片为例,参考代码如下,请自行分析目标网页结构并与参考代码进行比对.另外需要注意, ...
Python爬虫系列（二）：爬取中国大学排名丁香园-用户名和回复内容淘宝品比价
Python爬虫系列(二):爬取中国大学排名&丁香园-用户名和回复内容&淘宝品比价目录 Python爬虫系列(二):爬取中国大学排名&丁香园-用户名和回复内容&淘宝品 ...
python爬虫多久能学会-不踩坑的Python爬虫：如何在一个月内学会爬取大规模数据...
原标题:不踩坑的Python爬虫:如何在一个月内学会爬取大规模数据 Python爬虫为什么受欢迎如果你仔细观察,就不难发现,懂爬虫.学习爬虫的人越来越多,一方面,互联网可以获取的数据越来越多,另一方 ...
python爬虫图片-如何用Python来制作简单的爬虫，爬取到你想要的图片
原标题:如何用Python来制作简单的爬虫,爬取到你想要的图片在我们日常上网浏览网页的时候,经常会看到一些好看的图片,我们就希望把这些图片保存下载,或者用户用来做桌面壁纸,或者用来做设计的素材. 我 ...
python爬虫入门实战---------一周天气预报爬取_Python爬虫入门实战--------一周天气预报爬取【转载】【没有分析...
Python爬虫入门实战--------一周天气预报爬取[转载][没有分析 Python爬虫入门实战--------一周天气预报爬取[转载][没有分析] 来源:https://blog.csdn.ne ...
Python使用标准库urllib模拟浏览器爬取网页内容
爬取网页内容的第一步是分析目标网站源代码结构,确定自己要爬取的内容在哪里,这要求对HTML代码有一定了解,对于某些网站内容的爬取还需要具有一定的Javascript基础.但是,如果目标网站设置了反爬机 ...
Python，requests爬虫，使用代理爬取大众点评（含爬取结果。。。在文末）
由于在工作中,客户需要大众点评的行业数据,因此本人使用Python对大众点评网站进行了爬取,虽然在爬取之前就想好了可能会遇到的坑,但是没想要从坑中爬出来这么难.本次大众点评爬虫代码编写耗时一个月.也算 ...

python之简历或者简历模板的爬取

python之简历或者简历模板的爬取

本案列采用的是：xpath爬取

python之简历或者简历模板的爬取相关推荐

最新文章

热门文章