Python爬虫:Xpath爬取网页信息(附代码)

上一次分享了使用Python简单爬取网页信息的方法。但是仅仅对于单一网页的信息爬取一般无法满足我们的数据需求。对于一般的数据需求,我们通常需要从一个网页跳转到另外一个网页,才能获取到详细的信息。今天我要分享的就是,如何通过一个网页,获取到所链接到的网页的详细信息。

直接上代码

1.获取单个网页的信息,找到该网页中所链接的数据详情网址

#获取网页详情页面url
def get_detail_urls(page):resp = requests.get(url,headers=headers)text = resp.content.decode('utf-8')time.sleep(2)#提取数据html = etree.HTML(text)#print(html)ul = html.xpath('//ul[@class="..."]')[0]#...为标签名称#print(ul)lis = ul.xpath('./li')detail_urls = []for li in lis:detail_url = li.xpath('./div[@class="..."]/div[@class="..."]/h3/a/@href')#详情页面urldetail_url = detail_url[0]#print(detail_url)return detail_url

2.提取详情页面的数据

#提取详情页面的数据
def parse_detail_page(url):resp = requests.get(url,headers=headers)text = resp.content.decode('utf-8')time.sleep(2)html = etree.HTML(text)title = html.xpath('//div[@class="title-info"]/h1/text()')#存入txt文件with open('test.txt', 'a', encoding='utf-8') as f:for a in range(0,len(title)):f.write(title[a].strip()+'\n')f.close()

3.调用函数,自动翻页,爬取多个网页信息

def main():for j in range(0, 10):print("正在爬取第" + str(j) + "页数据...")detail_urls = get_detail_urls(j)for detail_url in detail_urls:parse_detail_page(detail_url)#print(text)print("over")

这是一个完整的代码,里面具体的标签需要根据自己爬取的网页,查看网页源代码,找到需要的标签名称。整个代码应该算是清晰明了,如果有什么问题,欢迎指出~

Python爬虫:Xpath爬取网页信息(附代码)相关推荐

  1. python爬虫实现爬取网页主页信息(html代码)

    python爬虫实现爬取网页主页信息(html代码) 1.爬取网站源码 urllib整体介绍: urllib是一个包,收集几个模块来处理网址 urllib.request打开和浏览url中内容 url ...

  2. python爬虫之爬取网页基础知识及环境配置概括

    记:python爬虫是爬取网页数据.统计数据必备的知识体系,当我们想统计某个网页的部分数据时,就需要python爬虫进行网络数据的爬取,英文翻译为 spider 爬虫的核心 1.爬取网页:爬取整个网页 ...

  3. [python] 常用正则表达式爬取网页信息及分析HTML标签总结

    这篇文章主要是介绍Python爬取网页信息时,经常使用的正则表达式及方法.它是一篇总结性文章,实用性比较大,主要解决自己遇到的爬虫问题,也希望对你有所帮助~ 当然如果会Selenium基于自动化测试爬 ...

  4. Python爬虫之爬取车票信息

    Python爬虫之爬取所有火车站的站台信息 前面我写过一篇关于火车站站台的查询,这篇基于站台的查询写火车车票余额信息查询-- 一.信息获取: 获取请求地址: 在浏览器菜单中找到Web开发者模式,打开网 ...

  5. Python爬虫基础 爬取网页 访问网页

    前段时间又被人问了会不会爬虫,然后感觉现在爬取数据好像还是挺有用的,所以就在网上找了课程学习了一下,利用Python对网站进行爬取和解析等等.原来使用过八爪鱼这个软件,不太需要有什么编程基础,但是也已 ...

  6. 利用python爬虫大量爬取网页图片

    最近要进行一类图片的识别,因此需要大量图片,所以我用了python爬虫实现 一.爬取某一图片网站 主要参考:https://www.cnblogs.com/franklv/p/6829387.html ...

  7. 利用java的JSoup爬虫技术爬取网页信息

    简单讲解java的Jsoup爬虫技术来爬取网页的数据,简单来讲就是解释网页,一般学过xml的人都很容易理解. 第一步:我们要爬取网页的静态内容必须要了解网页的源码,也就是div之类的标签,因为我们是靠 ...

  8. python 爬虫(爬取网页的img并下载)

    from urllib.request import urlopen # 引用第三方库 import requests #引用requests/用于访问网站(没安装需要安装) from pyquery ...

  9. python爬虫实例方法(批量爬取网页信息基础代码)

    文章目录 前言 一.爬虫实例 0.爬取深圳租房信息 1.爬取深圳算法岗位信息 2.爬取猫图片(基于 selenium库 模拟人自动点击) 3.爬取小说纳兰无敌并生成词云 二.用到的库 1.正则表达式 ...

最新文章

  1. 什么是生成模型和GAN?一文体验计算机视觉的魔力
  2. php get 传循环出来的参数_PHP性能优化小技巧
  3. python语言是什么时候诞生的_python诞生于什么时候
  4. python3远程连接MySQL
  5. MySQL 5.6.26 通过frm ibd 恢复数据过程
  6. 从NetBeans运行和调试WildFly Swarm应用程序
  7. python寻找字符串中的英文字符,python如何解析字符串中出现的英文人名?
  8. mysql group by 规则_mysql 的group by 满足的规则要求:
  9. python发邮件实例_python 发送邮件实例
  10. java利用数组随机抽取幸运观众_java利用数组随机抽取幸运观众
  11. 阿里巴巴成立云原生技术委员会,云原生升级为阿里技术新战略!
  12. 潭州教育-Python学习笔记@基本数据类型:元祖字典
  13. WebSocket,不再“轮询”
  14. hexutil加解密_EncodeUtil(各种格式的编码解码工具类)
  15. python机器学习生物信息学
  16. 广州橙优设计:学习UI需要那些?UI设计必须会的软件
  17. hart协议服务器,基于HART协议智能仪表的在线管理系统的设计与实现
  18. 关于卸载流氓软件,自己试错的一些结论
  19. Java实例化对象的几种方式
  20. C/C++基础 isfinite()函数

热门文章

  1. The Sandbox 上线 mSAND-MATIC 质押功能
  2. C# windowsService安装
  3. 面试题CSS02【21-10-14】
  4. Maven 加入高德地图,类推百度地图
  5. 软件测试工程师求职踩过的坑——实战经验的分享啊
  6. 小程序另一种解析json
  7. 2022.5.7 腾讯天美暑期实习(更新中)
  8. DecimalFormat format 方法的使用
  9. C#调用Excel版本不兼容的解决方法
  10. Centos 7安装Harbor