Python爬虫：Xpath爬取网页信息（附代码）

上一次分享了使用Python简单爬取网页信息的方法。但是仅仅对于单一网页的信息爬取一般无法满足我们的数据需求。对于一般的数据需求，我们通常需要从一个网页跳转到另外一个网页，才能获取到详细的信息。今天我要分享的就是，如何通过一个网页，获取到所链接到的网页的详细信息。

直接上代码

1.获取单个网页的信息，找到该网页中所链接的数据详情网址

#获取网页详情页面url
def get_detail_urls(page):resp = requests.get(url,headers=headers)text = resp.content.decode('utf-8')time.sleep(2)#提取数据html = etree.HTML(text)#print(html)ul = html.xpath('//ul[@class="..."]')[0]#...为标签名称#print(ul)lis = ul.xpath('./li')detail_urls = []for li in lis:detail_url = li.xpath('./div[@class="..."]/div[@class="..."]/h3/a/@href')#详情页面urldetail_url = detail_url[0]#print(detail_url)return detail_url

2.提取详情页面的数据

#提取详情页面的数据
def parse_detail_page(url):resp = requests.get(url,headers=headers)text = resp.content.decode('utf-8')time.sleep(2)html = etree.HTML(text)title = html.xpath('//div[@class="title-info"]/h1/text()')#存入txt文件with open('test.txt', 'a', encoding='utf-8') as f:for a in range(0,len(title)):f.write(title[a].strip()+'\n')f.close()

3.调用函数，自动翻页，爬取多个网页信息

def main():for j in range(0, 10):print("正在爬取第" + str(j) + "页数据...")detail_urls = get_detail_urls(j)for detail_url in detail_urls:parse_detail_page(detail_url)#print(text)print("over")

这是一个完整的代码，里面具体的标签需要根据自己爬取的网页，查看网页源代码，找到需要的标签名称。整个代码应该算是清晰明了，如果有什么问题，欢迎指出~

Python爬虫：Xpath爬取网页信息（附代码）相关推荐

python爬虫实现爬取网页主页信息（html代码）
python爬虫实现爬取网页主页信息(html代码) 1.爬取网站源码 urllib整体介绍: urllib是一个包,收集几个模块来处理网址 urllib.request打开和浏览url中内容 url ...
python爬虫之爬取网页基础知识及环境配置概括
记:python爬虫是爬取网页数据.统计数据必备的知识体系,当我们想统计某个网页的部分数据时,就需要python爬虫进行网络数据的爬取,英文翻译为 spider 爬虫的核心 1.爬取网页:爬取整个网页 ...
[python] 常用正则表达式爬取网页信息及分析HTML标签总结
这篇文章主要是介绍Python爬取网页信息时,经常使用的正则表达式及方法.它是一篇总结性文章,实用性比较大,主要解决自己遇到的爬虫问题,也希望对你有所帮助~ 当然如果会Selenium基于自动化测试爬 ...
Python爬虫之爬取车票信息
Python爬虫之爬取所有火车站的站台信息前面我写过一篇关于火车站站台的查询,这篇基于站台的查询写火车车票余额信息查询-- 一.信息获取: 获取请求地址: 在浏览器菜单中找到Web开发者模式,打开网 ...
Python爬虫基础爬取网页访问网页
前段时间又被人问了会不会爬虫,然后感觉现在爬取数据好像还是挺有用的,所以就在网上找了课程学习了一下,利用Python对网站进行爬取和解析等等.原来使用过八爪鱼这个软件,不太需要有什么编程基础,但是也已 ...
利用python爬虫大量爬取网页图片
最近要进行一类图片的识别,因此需要大量图片,所以我用了python爬虫实现一.爬取某一图片网站主要参考:https://www.cnblogs.com/franklv/p/6829387.html ...
利用java的JSoup爬虫技术爬取网页信息
简单讲解java的Jsoup爬虫技术来爬取网页的数据,简单来讲就是解释网页,一般学过xml的人都很容易理解. 第一步:我们要爬取网页的静态内容必须要了解网页的源码,也就是div之类的标签,因为我们是靠 ...
python 爬虫（爬取网页的img并下载）
from urllib.request import urlopen # 引用第三方库 import requests #引用requests/用于访问网站(没安装需要安装) from pyquery ...
python爬虫实例方法（批量爬取网页信息基础代码）
文章目录前言一.爬虫实例 0.爬取深圳租房信息 1.爬取深圳算法岗位信息 2.爬取猫图片(基于 selenium库模拟人自动点击) 3.爬取小说纳兰无敌并生成词云二.用到的库 1.正则表达式 ...

Python爬虫：Xpath爬取网页信息（附代码）

Python爬虫：Xpath爬取网页信息（附代码）

直接上代码

Python爬虫：Xpath爬取网页信息（附代码）相关推荐

最新文章

热门文章