python简单爬虫某网站简历模板

from lxml import etree
import requestsdef main():url = "https://sc.chinaz.com/jianli/free.html"header = {"User-Agent":"hahhaha"}res = requests.get(url = url ,headers = header)print(res.status_code)tree = etree.HTML(res.text)   #使用xpath导入页面源码div_list = tree.xpath('//div[@id="container"]/div') #定位到div标签因为有好多所以返回列表#print(div_list)jl_list = []for div in div_list:href = div.xpath('./a/@href')  #取出每个标签下的网站地址#haha = "http:"+hrefjl_list.append(href)  #添加到列表#print(href)#print(jl_list)main2(jl_list)def main2(jl_list):xz_list = []for xz in jl_list:   #从列表中把地址拿出url = "http:"+xz[0]  #组建正确地址header = {"User-Agent":"haha"}res = requests.get(url = url,headers = header)#print(res.status_code)tree = etree.HTML(res.text)li = tree.xpath('//div[@class="clearfix mt20 downlist"]//li')[0] #定位标签href = li.xpath('./a/@href')  #取出地址xz_list.append(href)#print(xz_list)main3(xz_list)def main3(xz_list):t = 0for rarxz in xz_list:url = rarxz[0]header = {"User-Agent":"haha"}res = requests.get(url = url , headers = header)with open("./jx模板/"+str(t)+".rar","wb") as f:  #以二进制写的方式打开文件f.write(res.content)   #写入文件print("is ok ")t +=1f.close()if __name__=="__main__":main()

python简单爬虫相关推荐

  1. python简单爬虫 指定汉字的笔画动图下载

    python简单爬虫 指定汉字的笔画动图下载 分析过程 打开网址首页http://www.hanzi5.com 选择一个字,比如"虐" 查看该汉字动图地址 右键该汉字动图,选择在新 ...

  2. Python 简单爬虫下载小说txt

    Python 简单爬虫下载小说txt #第一次写爬虫代码 欢迎交流指正 我们范例爬取的对象是笔趣阁的<圣墟> (最近非常火的连载小说) ##为什么选择笔趣阁# 主要是因为笔趣阁的源代码没有 ...

  3. Python简单爬虫第六蛋!(完结撒花)

    第六讲: 今天我们来实战一个项目,我本人比较喜欢看小说,有一部小时叫<圣墟>不知道大家有没有听说过,个人觉得还是不错的,现在联网的时候,都可以随时随地用手机打开浏览器搜索查看,但是有时候也 ...

  4. python简单爬虫程序分析_[Python专题学习]-python开发简单爬虫

    掌握开发轻量级爬虫,这里的案例是不需要登录的静态网页抓取.涉及爬虫简介.简单爬虫架构.URL管理器.网页下载器(urllib2).网页解析器(BeautifulSoup) 一.爬虫简介以及爬虫的技术价 ...

  5. python简单爬虫课题_VS2019python爬虫入门

    VS2019新建python项目 在vs2019中添加python编译环境 创建python控制台应用程序项目 配置python环境 安装requests第三方库 管理程序包,执行安装requests ...

  6. 可爱的python下载_GitHub - palxiao/PythonWebSpider: 一个可爱的python简单爬虫

    Python网络爬虫 语言环境:Python2.7 运行爬虫入口开始爬取 output.html查看结果 简单py爬虫,修改入口及解析器改变规则 新增存入数据库操作 需要插件(MySql) 补充:(折 ...

  7. Python简单爬虫入门-爬取链家租房网上的租房信息

    .又到了毕业季,租房成为广大毕业生关注的话题,考虑到只用到广州的租房信息,所以只爬取广州各个地区的租房信息,下面是用Python3.4.4编写简单爬虫爬取租房网信息的代码: #coding:utf-8 ...

  8. python简单爬虫入门一_Python简单爬虫入门二

    接着上一次爬虫我们继续研究BeautifulSoup 上一次我们爬虫我们已经成功的爬下了网页的源代码,那么这一次我们将继续来写怎么抓去具体想要的元素 首先回顾以下我们BeautifulSoup的基本结 ...

  9. python简单爬虫(一)

    学习python前纠结了下,到底是应该一个个知识点吃透,然后写些小程序.还是应该快速掌握基础语法,快速实践.思考后认为前者这么学习速度真心不高,于是花2天时间看了下python3的语法,虽然很多都不明 ...

最新文章

  1. python 图像压缩后前端解压_Python在后台自动解压各种压缩文件的实现方法
  2. idea没有out文件夹_史上最详细没有之一的 Java JNI傻瓜级入门教程
  3. 4 网络、挂载、关机
  4. 后台模拟页面登陆_模拟炒股软件支付宝同花顺都可以快速体验炒股
  5. httpd glibc free() 报错解决一例
  6. 蚂蚁区块链在司法存证领域的探索与实践
  7. 面试题:计算 n!阶乘的结果的末尾有几个0
  8. 无法加载oracle驱动程序998,无法加载oracle in oradb10g_home2 odbc驱动程序的安装例程,因为存在系统错误代码998 解决方法...
  9. 掘金小册前端性能优化原理与实践读后总结
  10. MapGIS6.7投影生成点-以物化探综合剖面图为例
  11. oracle11g dbf恢复数据库,dbf文件如何恢复数据库
  12. 新猿木子李:0基础学python培训教程 什么是前端
  13. 为了不被裁之NVMe-MI oob
  14. 一文教你学会使用GitHub!(附视频)
  15. 《剑指offer》序——面试流程及面试须知
  16. 《人月神话》(The Mythical Man-Month)2人和月可以互换吗?人月神话存在吗?
  17. 学生会管理系统(SSM)vue+ssm+shiro
  18. 消防工程师 2.4 自动喷水灭火系统-喷头选型
  19. 求助:使用jCreator编写一个applet小程序
  20. 网络相册管理系统java,基于JAVA的B/S网络相册管理系统,源码分享

热门文章

  1. 从零开始做运营 入门版(张亮著)读书知识整理①
  2. Scrapy使用MailSender发送邮件
  3. 基于JAVA的网上花店销售系统的设计与实现(附:源码 论文 sql文件)
  4. 上市十天高管大换血 甘李药业有隐疾?
  5. ERP Oracle应用
  6. nginx源码的安装与磁盘分区
  7. 自动控制原理MATLAB命令
  8. 管控内网安全 六项措施守护企业核心机密
  9. iOS12 系统 webView加载H5页面,反复点击网页中视频播放 退出视频全屏 闪退解决方式。
  10. python怎么写excel数据透视自动报表_使用Python生成自动报表(E