Python爬虫:Xpath爬取网页信息(附代码)
Python爬虫:Xpath爬取网页信息(附代码)
上一次分享了使用Python简单爬取网页信息的方法。但是仅仅对于单一网页的信息爬取一般无法满足我们的数据需求。对于一般的数据需求,我们通常需要从一个网页跳转到另外一个网页,才能获取到详细的信息。今天我要分享的就是,如何通过一个网页,获取到所链接到的网页的详细信息。
直接上代码
1.获取单个网页的信息,找到该网页中所链接的数据详情网址
#获取网页详情页面url
def get_detail_urls(page):resp = requests.get(url,headers=headers)text = resp.content.decode('utf-8')time.sleep(2)#提取数据html = etree.HTML(text)#print(html)ul = html.xpath('//ul[@class="..."]')[0]#...为标签名称#print(ul)lis = ul.xpath('./li')detail_urls = []for li in lis:detail_url = li.xpath('./div[@class="..."]/div[@class="..."]/h3/a/@href')#详情页面urldetail_url = detail_url[0]#print(detail_url)return detail_url
2.提取详情页面的数据
#提取详情页面的数据
def parse_detail_page(url):resp = requests.get(url,headers=headers)text = resp.content.decode('utf-8')time.sleep(2)html = etree.HTML(text)title = html.xpath('//div[@class="title-info"]/h1/text()')#存入txt文件with open('test.txt', 'a', encoding='utf-8') as f:for a in range(0,len(title)):f.write(title[a].strip()+'\n')f.close()
3.调用函数,自动翻页,爬取多个网页信息
def main():for j in range(0, 10):print("正在爬取第" + str(j) + "页数据...")detail_urls = get_detail_urls(j)for detail_url in detail_urls:parse_detail_page(detail_url)#print(text)print("over")
这是一个完整的代码,里面具体的标签需要根据自己爬取的网页,查看网页源代码,找到需要的标签名称。整个代码应该算是清晰明了,如果有什么问题,欢迎指出~
Python爬虫:Xpath爬取网页信息(附代码)相关推荐
- python爬虫实现爬取网页主页信息(html代码)
python爬虫实现爬取网页主页信息(html代码) 1.爬取网站源码 urllib整体介绍: urllib是一个包,收集几个模块来处理网址 urllib.request打开和浏览url中内容 url ...
- python爬虫之爬取网页基础知识及环境配置概括
记:python爬虫是爬取网页数据.统计数据必备的知识体系,当我们想统计某个网页的部分数据时,就需要python爬虫进行网络数据的爬取,英文翻译为 spider 爬虫的核心 1.爬取网页:爬取整个网页 ...
- [python] 常用正则表达式爬取网页信息及分析HTML标签总结
这篇文章主要是介绍Python爬取网页信息时,经常使用的正则表达式及方法.它是一篇总结性文章,实用性比较大,主要解决自己遇到的爬虫问题,也希望对你有所帮助~ 当然如果会Selenium基于自动化测试爬 ...
- Python爬虫之爬取车票信息
Python爬虫之爬取所有火车站的站台信息 前面我写过一篇关于火车站站台的查询,这篇基于站台的查询写火车车票余额信息查询-- 一.信息获取: 获取请求地址: 在浏览器菜单中找到Web开发者模式,打开网 ...
- Python爬虫基础 爬取网页 访问网页
前段时间又被人问了会不会爬虫,然后感觉现在爬取数据好像还是挺有用的,所以就在网上找了课程学习了一下,利用Python对网站进行爬取和解析等等.原来使用过八爪鱼这个软件,不太需要有什么编程基础,但是也已 ...
- 利用python爬虫大量爬取网页图片
最近要进行一类图片的识别,因此需要大量图片,所以我用了python爬虫实现 一.爬取某一图片网站 主要参考:https://www.cnblogs.com/franklv/p/6829387.html ...
- 利用java的JSoup爬虫技术爬取网页信息
简单讲解java的Jsoup爬虫技术来爬取网页的数据,简单来讲就是解释网页,一般学过xml的人都很容易理解. 第一步:我们要爬取网页的静态内容必须要了解网页的源码,也就是div之类的标签,因为我们是靠 ...
- python 爬虫(爬取网页的img并下载)
from urllib.request import urlopen # 引用第三方库 import requests #引用requests/用于访问网站(没安装需要安装) from pyquery ...
- python爬虫实例方法(批量爬取网页信息基础代码)
文章目录 前言 一.爬虫实例 0.爬取深圳租房信息 1.爬取深圳算法岗位信息 2.爬取猫图片(基于 selenium库 模拟人自动点击) 3.爬取小说纳兰无敌并生成词云 二.用到的库 1.正则表达式 ...
最新文章
- Hive神兽大厅源码搭建安装及使用
- 机器学习——大数据与MapReduce
- JQuery学习笔记12——GET请求和POST请求
- 字符串常量与字符串变量
- css根据屏幕大小切换样式
- Qt4_组装丰富的积木
- BASE64Encoder
- 测试人员转型是大势所趋:我的十年自动化测试经验分享
- 微软测试新工具:让Windows 10和Android设备文件同步更方便
- P1681 最大正方形II (动态规划)
- ionic platform add ios, Error:spawn EACCES
- 本质矩阵 基础矩阵 单应矩阵 (1)
- 相机标定 棋盘格 图_【连载2.3.1】结构光系统标定
- 前端项目,css样式获取到了,没能渲染页面
- 《数据库系统基础教程》概念
- 厉害了网页扫码,所有方法都给你总结到这了,赶紧收藏
- 从零开始入门芯片行业
- word图片自动生成域
- Android双清卸载木马,刷机如何清除木马病毒
- 电脑设备打印机驱动安装失败如何解决
热门文章
- You will surely observe a Tiffany jewelry
- SQL SERVER 的垂死挣扎
- 基于Sigma protocol实现的零知识证明protocol集锦
- 什么是智能传感器,智能传感器主要应于哪些领域,发展现状是什么?
- eclipse gdb gdbserver 远程调试
- ERROR : Error appeared during Puppet run: 192.168.1.201_mariadb.pp
- outlook自定义快捷键_如何在Outlook中自定义导航窗格
- 怎么安装jdk6,怎么安装jdk-6u33-linux-i586.bin
- 引力魔方和直通车哪个好?两款工具效果怎样?
- java 封闭实例_java – 不能访问类型为Server的封闭实例