python爬取简历模板_python 爬取免费简历模板网站的示例
代码
# 免费的简历模板进行爬取本地保存
# http://sc.chinaz.com/jianli/free.html
# http://sc.chinaz.com/jianli/free_2.html
import requests
from lxml import etree
import os
dirName = './resumeLibs'
if not os.path.exists(dirName):
os.mkdir(dirName)
headers = {
'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.83 Safari/537.36'
}
url = 'http://sc.chinaz.com/jianli/free_%d.html'
for page in range(1,2):
if page == 1:
new_url = 'http://sc.chinaz.com/jianli/free.html'
else:
new_url = format(url%page)
page_text = requests.get(url=new_url,headers=headers).text
tree = etree.HTML(page_text)
a_list = tree.xpath('//div[@id="container"]/div/p/a')
for a in a_list:
a_src = a.xpath('./@href')[0]
a_title = a.xpath('./text()')[0]
a_title = a_title.encode('iso-8859-1').decode('utf-8')
# 爬取下载页面
page_text = requests.get(url=a_src,headers=headers).text
tree = etree.HTML(page_text)
dl_src = tree.xpath('//div[@id="down"]/div[2]/ul/li[8]/a/@href')[0]
resume_data = requests.get(url=dl_src,headers=headers).content
resume_name = a_title
resume_path = dirName + '/' + resume_name + '.rar'
with open(resume_path,'wb') as fp:
fp.write(resume_data)
print(resume_name,'下载成功!')
爬取结果
以上就是python 爬取免费简历模板网站的示例的详细内容,更多关于python 爬取网站的资料请关注随便开发网其它相关文章!
python爬取简历模板_python 爬取免费简历模板网站的示例相关推荐
- python爬取动态网页_python爬取动态网页数据,详解
原理:动态网页,即用js代码实现动态加载数据,就是可以根据用户的行为,自动访问服务器请求数据,重点就是:请求数据,那么怎么用python获取这个数据了? 浏览器请求数据方式:浏览器向服务器的api(例 ...
- python 柱状图上显示字体_Python爬取百部电影数据,我发现了这个惊人真相!
2019年就这么匆匆过去了,就在前几天国家电影局发布了2019年中国电影市场数据,数据显示去年总票房为642.66亿元,同比增长5.4%:国产电影总票房411.75亿元,同比增长8.65%,市场占比 ...
- python爬虫知乎图片_python 爬取知乎图片
先上完整代码 1 importrequests2 importtime3 importdatetime4 importos5 importjson6 importuuid7 from pyquery ...
- python抓取微博评论_Python爬取新浪微博评论数据,你有空了解一下?
开发工具 Python版本:3.6.4 相关模块: argparse模块: requests模块: jieba模块: wordcloud模块: 以及一些Python自带的模块. 环境搭建 安装Pyth ...
- python爬取手机微信_Python爬取微信好友
前言 今天看到一篇好玩的文章,可以实现微信的内容爬取和聊天机器人的制作,所以尝试着实现一遍,本文记录了实现过程和一些探索的内容 itchat安装 对微信的控制可以使用itchat来实现,我们找到itc ...
- python开源代码百度盘_python爬取百度云网盘资源-源码
今天测试用了一下python爬取百度云网盘资源. 代码片段import urllib import urllib.request import webbrowser import re def yun ...
- python爬关键词百度指数_Python 抓取指定关键词的百度指数
百度指数很多时候在我们做项目的时候会很有帮助,从搜索引擎的流量端给到我们一些帮助,比如:家具行业的销量跟"装修","新房","二手房"等关键 ...
- python爬取ppt代码_Python爬取PPT模板小工具
由于很多PPT抓取工具都会因为版本问题无法使用,所以论坛大神就自己写了这款Python爬取PPT模板小工具,可以帮助用户轻松获取各种PPT模板,使用的时候注意一次只能下载一种类型.软件仅供交流学习,下 ...
- python爬取pdf内容_Python爬取读者并制作成PDF
学了下beautifulsoup后,做个个网络爬虫,爬取读者杂志并用reportlab制作成pdf.. crawler.py #!/usr/bin/env python #coding=utf-8 & ...
最新文章
- 前端一HTML:七:css初步认识
- LeetCode每日一题 24. 两两交换链表中的节点
- rsync+inotify实现服务器之间文件实时同步
- 计算机管理游戏,网吧游戏管理系统
- 第二代电子计算机逻辑部件主要由,计算机组成原理参考答案
- Python中expected an indented block
- 中文编程汉语编程开发的大型管理软件案例
- 批量插入数据 C# SqlBulkCopy使用
- 从键盘输入5个学生每科分数,把分数保存到一个数组中,最后输出分数大于60分的成绩
- linux添加网络节点,Pi网络节点配置教程(windows10专业版)
- 区块链:深入浅出零知识证明
- ROS安装超详细保姆级教程
- JavaScript 页面跳转、页面重定向
- STM8S003F3 内部flash调试
- 离散数学 —— 代数系统(二元运算、封闭性、结合律、幺元、零元、逆元、半群、独异点、群、子群、循环群、置换群、陪集)
- easyui1.5:combobox:onSelect
- 2021-01-16
- python常用代码
- android 创建多个闹钟,Android设置多个闹钟
- android 图片加载 软引用_Android 异步加载网络图片并缓存到本地 软引用 学习分享(转)...
热门文章
- 代码翻译小工具——后续
- 微信小程序之订阅消息实现
- javascript sm2 sm3 sm4 国密库
- 【Struts2】Struts2框架创建web项目的6个步骤
- 基础SQL-DQL语句-SELECT查询的简单使用以及IFNULL函数
- 火山小视频怎么搬运 | 快手伪原创教程
- 线性判别用于提取词向量_资源 | 你是合格的数据科学家吗?30道题测试你的NLP水平...
- [Deeplearning4j应用教程00]_DL4J技术介绍
- IT30:30岁IT男未来10年规划第2篇(2009-2020)
- 【软考软件评测师】第二十二章 法律法规专题