python之简历或者简历模板的爬取

本案列采用的是:xpath爬取

## 爬取的是某网站素材的前5页,提示尽量不要爬太多。本案例是最原始的代码,没有涉及多线程。(感谢站长素材)
代码:

import requests
from  lxml import etree
import os#创建目录
dirName='简历封面01'
if not os.path.exists(dirName):os.mkdir(dirName)
count=1
#UA机制
headers={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.61 Safari/537.36'
}
#打开文件
url='http://sc.chinaz.com/jianli/fengmian_{}.html'
#爬取1-5页
for page in range(1,6):if page==1:new_url='http://sc.chinaz.com/jianli/fengmian.html'else:new_url=url.format(page)response=requests.get(url=new_url,headers=headers)response.encoding='utf-8'page_text=response.text#响应数据的解析tree=etree.HTML(page_text)div_list=tree.xpath('//div[@id="container"]/div/a')for div in div_list:#简历图片名称  简历的图片网址   简历的详情链接网址img_text=div.xpath('./img/@alt')[0]img_url=div.xpath('./img/@src')[0]content_url=div.xpath('./@href')[0]#得到图片数据img_response=requests.get(url=img_url,headers=headers)imgdata=img_response.content#下载保存imgpath = dirName + '/' + img_text + '.jpg'fp1 = open(imgpath, 'wb')fp1.write(imgdata)print(img_text + '.jpg下载完毕##################')#得到简历封皮内容响应数据content_text=requests.get(url=content_url,headers=headers).text#封皮响应数据的解析content_tree=etree.HTML(content_text)litag_url=content_tree.xpath('//ul[@class="clearfix"]/li/a/@href')[0]down_response=requests.get(url=litag_url,headers=headers)down_response.encoding='utf-8'download=down_response.content#路径downloadpath=dirName+'/'+img_text+'.rar'fp2 = open(downloadpath, 'wb')fp2.write(download)print(img_text + '.rar下载完毕**************')count+=1print(count)
fp1.close()
fp2.close()

运行结果:

仅供需要参考:
共计201个封皮

百度网盘:
链接:https://pan.baidu.com/s/1l6TouLghGSJKn0q8YStD2g
提取码:rfo5

python之简历或者简历模板的爬取相关推荐

  1. python爬取简历模板_python 爬取免费简历模板网站的示例

    代码 # 免费的简历模板进行爬取本地保存 # http://sc.chinaz.com/jianli/free.html # http://sc.chinaz.com/jianli/free_2.ht ...

  2. 小白学Python之爬虫篇(一)——爬取PPT网站模板

    说明 菜狗大学生一枚,本着用什么学什么的原则,对之前简单学习的爬虫进行略微系统的整理,一方面方便以后复习,另一方面也希望给需要的人一点参考,毕竟看了那么多大佬的博客,是时候开始回报社会了哈哈哈(尴尬笑 ...

  3. Python使用多进程提高网络爬虫的爬取速度

    多线程技术并不能充分利用硬件资源和大幅度提高系统吞吐量,类似需求应使用多进程编程技术满足. 以爬取中国工程院院士简介和照片为例,参考代码如下,请自行分析目标网页结构并与参考代码进行比对.另外需要注意, ...

  4. Python爬虫系列(二):爬取中国大学排名丁香园-用户名和回复内容淘宝品比价

    Python爬虫系列(二):爬取中国大学排名&丁香园-用户名和回复内容&淘宝品比价 目录 Python爬虫系列(二):爬取中国大学排名&丁香园-用户名和回复内容&淘宝品 ...

  5. python爬虫多久能学会-不踩坑的Python爬虫:如何在一个月内学会爬取大规模数据...

    原标题:不踩坑的Python爬虫:如何在一个月内学会爬取大规模数据 Python爬虫为什么受欢迎 如果你仔细观察,就不难发现,懂爬虫.学习爬虫的人越来越多,一方面,互联网可以获取的数据越来越多,另一方 ...

  6. python爬虫图片-如何用Python来制作简单的爬虫,爬取到你想要的图片

    原标题:如何用Python来制作简单的爬虫,爬取到你想要的图片 在我们日常上网浏览网页的时候,经常会看到一些好看的图片,我们就希望把这些图片保存下载,或者用户用来做桌面壁纸,或者用来做设计的素材. 我 ...

  7. python爬虫入门实战---------一周天气预报爬取_Python爬虫入门实战--------一周天气预报爬取【转载】【没有分析...

    Python爬虫入门实战--------一周天气预报爬取[转载][没有分析 Python爬虫入门实战--------一周天气预报爬取[转载][没有分析] 来源:https://blog.csdn.ne ...

  8. Python使用标准库urllib模拟浏览器爬取网页内容

    爬取网页内容的第一步是分析目标网站源代码结构,确定自己要爬取的内容在哪里,这要求对HTML代码有一定了解,对于某些网站内容的爬取还需要具有一定的Javascript基础.但是,如果目标网站设置了反爬机 ...

  9. Python,requests爬虫,使用代理爬取大众点评(含爬取结果。。。在文末)

    由于在工作中,客户需要大众点评的行业数据,因此本人使用Python对大众点评网站进行了爬取,虽然在爬取之前就想好了可能会遇到的坑,但是没想要从坑中爬出来这么难.本次大众点评爬虫代码编写耗时一个月.也算 ...

最新文章

  1. startActivity(xx,xx.class) 传递数据
  2. php在线读取pdf文件大小_怎么压缩PDF文件?快来试试这些工具!
  3. matlab中fliter函数,用C语言实现MATLAB中Filter()函数
  4. Android学习笔记:对Android应用进行单元测试
  5. 对口高考计算机vf试题,计算机对口升学模拟答案.doc
  6. ElasticSearch 索引、更新和删除数据
  7. PHP与ThinkPHP读写文件
  8. Spring Boot读取application.yaml属性
  9. C ++ 指针 | 指针与函数_7
  10. 使用pip安装opencv
  11. Adobe 修复Commerce 和 Magento 平台中的又一个严重RCE
  12. 现实世界的Windows Azure:就Metanga采访MetraTech公司CEO,Scott Swartz先生
  13. Android中设置EditText显示或隐藏密码
  14. centos7安装docker笔记
  15. webp的js插件_网页及CSS使用JS脚本加载webP图片
  16. workerman php使用,workerman怎么用
  17. 使用Bugly 作为APP异常上报工具
  18. python用len()函数说明
  19. android实现歌词的自动滚动
  20. 程序员之间的战争 战场是用户电脑

热门文章

  1. 基于51单片机空气环境粉尘检测PM2.5风扇LCD1602控制
  2. 通过TXT文件生成UPC-E条码
  3. LPWAN及高效弹性工业物联网核心技术方案
  4. 粘滞回话_Apple将免费修复您的粘滞或损坏的MacBook键盘
  5. Congested Crowd Instance Localization with Dilated Convolutional Swin Transformer阅读笔记
  6. maven配置成功,但显示'cmd' 不是内部或外部命令,也不是可运行的程序 或批处理文件。...
  7. 关于Ontimer()函数
  8. 伪造免费 WiFi 盗你账号密码
  9. 应届毕业生的第一份程序员工作
  10. 游戏软件测试点,游戏签到--软件测试点练习