Python爬虫:Xpath爬取网页信息(附代码)
Python爬虫:Xpath爬取网页信息(附代码)
上一次分享了使用Python简单爬取网页信息的方法。但是仅仅对于单一网页的信息爬取一般无法满足我们的数据需求。对于一般的数据需求,我们通常需要从一个网页跳转到另外一个网页,才能获取到详细的信息。今天我要分享的就是,如何通过一个网页,获取到所链接到的网页的详细信息。
直接上代码
1.获取单个网页的信息,找到该网页中所链接的数据详情网址
#获取网页详情页面url
def get_detail_urls(page):resp = requests.get(url,headers=headers)text = resp.content.decode('utf-8')time.sleep(2)#提取数据html = etree.HTML(text)#print(html)ul = html.xpath('//ul[@class="..."]')[0]#...为标签名称#print(ul)lis = ul.xpath('./li')detail_urls = []for li in lis:detail_url = li.xpath('./div[@class="..."]/div[@class="..."]/h3/a/@href')#详情页面urldetail_url = detail_url[0]#print(detail_url)return detail_url
2.提取详情页面的数据
#提取详情页面的数据
def parse_detail_page(url):resp = requests.get(url,headers=headers)text = resp.content.decode('utf-8')time.sleep(2)html = etree.HTML(text)title = html.xpath('//div[@class="title-info"]/h1/text()')#存入txt文件with open('test.txt', 'a', encoding='utf-8') as f:for a in range(0,len(title)):f.write(title[a].strip()+'\n')f.close()
3.调用函数,自动翻页,爬取多个网页信息
def main():for j in range(0, 10):print("正在爬取第" + str(j) + "页数据...")detail_urls = get_detail_urls(j)for detail_url in detail_urls:parse_detail_page(detail_url)#print(text)print("over")
这是一个完整的代码,里面具体的标签需要根据自己爬取的网页,查看网页源代码,找到需要的标签名称。整个代码应该算是清晰明了,如果有什么问题,欢迎指出~
Python爬虫:Xpath爬取网页信息(附代码)相关推荐
- python爬虫实现爬取网页主页信息(html代码)
python爬虫实现爬取网页主页信息(html代码) 1.爬取网站源码 urllib整体介绍: urllib是一个包,收集几个模块来处理网址 urllib.request打开和浏览url中内容 url ...
- python爬虫之爬取网页基础知识及环境配置概括
记:python爬虫是爬取网页数据.统计数据必备的知识体系,当我们想统计某个网页的部分数据时,就需要python爬虫进行网络数据的爬取,英文翻译为 spider 爬虫的核心 1.爬取网页:爬取整个网页 ...
- [python] 常用正则表达式爬取网页信息及分析HTML标签总结
这篇文章主要是介绍Python爬取网页信息时,经常使用的正则表达式及方法.它是一篇总结性文章,实用性比较大,主要解决自己遇到的爬虫问题,也希望对你有所帮助~ 当然如果会Selenium基于自动化测试爬 ...
- Python爬虫之爬取车票信息
Python爬虫之爬取所有火车站的站台信息 前面我写过一篇关于火车站站台的查询,这篇基于站台的查询写火车车票余额信息查询-- 一.信息获取: 获取请求地址: 在浏览器菜单中找到Web开发者模式,打开网 ...
- Python爬虫基础 爬取网页 访问网页
前段时间又被人问了会不会爬虫,然后感觉现在爬取数据好像还是挺有用的,所以就在网上找了课程学习了一下,利用Python对网站进行爬取和解析等等.原来使用过八爪鱼这个软件,不太需要有什么编程基础,但是也已 ...
- 利用python爬虫大量爬取网页图片
最近要进行一类图片的识别,因此需要大量图片,所以我用了python爬虫实现 一.爬取某一图片网站 主要参考:https://www.cnblogs.com/franklv/p/6829387.html ...
- 利用java的JSoup爬虫技术爬取网页信息
简单讲解java的Jsoup爬虫技术来爬取网页的数据,简单来讲就是解释网页,一般学过xml的人都很容易理解. 第一步:我们要爬取网页的静态内容必须要了解网页的源码,也就是div之类的标签,因为我们是靠 ...
- python 爬虫(爬取网页的img并下载)
from urllib.request import urlopen # 引用第三方库 import requests #引用requests/用于访问网站(没安装需要安装) from pyquery ...
- python爬虫实例方法(批量爬取网页信息基础代码)
文章目录 前言 一.爬虫实例 0.爬取深圳租房信息 1.爬取深圳算法岗位信息 2.爬取猫图片(基于 selenium库 模拟人自动点击) 3.爬取小说纳兰无敌并生成词云 二.用到的库 1.正则表达式 ...
最新文章
- 什么是生成模型和GAN?一文体验计算机视觉的魔力
- php get 传循环出来的参数_PHP性能优化小技巧
- python语言是什么时候诞生的_python诞生于什么时候
- python3远程连接MySQL
- MySQL 5.6.26 通过frm ibd 恢复数据过程
- 从NetBeans运行和调试WildFly Swarm应用程序
- python寻找字符串中的英文字符,python如何解析字符串中出现的英文人名?
- mysql group by 规则_mysql 的group by 满足的规则要求:
- python发邮件实例_python 发送邮件实例
- java利用数组随机抽取幸运观众_java利用数组随机抽取幸运观众
- 阿里巴巴成立云原生技术委员会,云原生升级为阿里技术新战略!
- 潭州教育-Python学习笔记@基本数据类型:元祖字典
- WebSocket,不再“轮询”
- hexutil加解密_EncodeUtil(各种格式的编码解码工具类)
- python机器学习生物信息学
- 广州橙优设计:学习UI需要那些?UI设计必须会的软件
- hart协议服务器,基于HART协议智能仪表的在线管理系统的设计与实现
- 关于卸载流氓软件,自己试错的一些结论
- Java实例化对象的几种方式
- C/C++基础 isfinite()函数