Python爬虫:Xpath爬取网页信息(附代码)

上一次分享了使用Python简单爬取网页信息的方法。但是仅仅对于单一网页的信息爬取一般无法满足我们的数据需求。对于一般的数据需求,我们通常需要从一个网页跳转到另外一个网页,才能获取到详细的信息。今天我要分享的就是,如何通过一个网页,获取到所链接到的网页的详细信息。

直接上代码

1.获取单个网页的信息,找到该网页中所链接的数据详情网址

#获取网页详情页面url
def get_detail_urls(page):resp = requests.get(url,headers=headers)text = resp.content.decode('utf-8')time.sleep(2)#提取数据html = etree.HTML(text)#print(html)ul = html.xpath('//ul[@class="..."]')[0]#...为标签名称#print(ul)lis = ul.xpath('./li')detail_urls = []for li in lis:detail_url = li.xpath('./div[@class="..."]/div[@class="..."]/h3/a/@href')#详情页面urldetail_url = detail_url[0]#print(detail_url)return detail_url

2.提取详情页面的数据

#提取详情页面的数据
def parse_detail_page(url):resp = requests.get(url,headers=headers)text = resp.content.decode('utf-8')time.sleep(2)html = etree.HTML(text)title = html.xpath('//div[@class="title-info"]/h1/text()')#存入txt文件with open('test.txt', 'a', encoding='utf-8') as f:for a in range(0,len(title)):f.write(title[a].strip()+'\n')f.close()

3.调用函数,自动翻页,爬取多个网页信息

def main():for j in range(0, 10):print("正在爬取第" + str(j) + "页数据...")detail_urls = get_detail_urls(j)for detail_url in detail_urls:parse_detail_page(detail_url)#print(text)print("over")

这是一个完整的代码,里面具体的标签需要根据自己爬取的网页,查看网页源代码,找到需要的标签名称。整个代码应该算是清晰明了,如果有什么问题,欢迎指出~

Python爬虫:Xpath爬取网页信息(附代码)相关推荐

  1. python爬虫实现爬取网页主页信息(html代码)

    python爬虫实现爬取网页主页信息(html代码) 1.爬取网站源码 urllib整体介绍: urllib是一个包,收集几个模块来处理网址 urllib.request打开和浏览url中内容 url ...

  2. python爬虫之爬取网页基础知识及环境配置概括

    记:python爬虫是爬取网页数据.统计数据必备的知识体系,当我们想统计某个网页的部分数据时,就需要python爬虫进行网络数据的爬取,英文翻译为 spider 爬虫的核心 1.爬取网页:爬取整个网页 ...

  3. [python] 常用正则表达式爬取网页信息及分析HTML标签总结

    这篇文章主要是介绍Python爬取网页信息时,经常使用的正则表达式及方法.它是一篇总结性文章,实用性比较大,主要解决自己遇到的爬虫问题,也希望对你有所帮助~ 当然如果会Selenium基于自动化测试爬 ...

  4. Python爬虫之爬取车票信息

    Python爬虫之爬取所有火车站的站台信息 前面我写过一篇关于火车站站台的查询,这篇基于站台的查询写火车车票余额信息查询-- 一.信息获取: 获取请求地址: 在浏览器菜单中找到Web开发者模式,打开网 ...

  5. Python爬虫基础 爬取网页 访问网页

    前段时间又被人问了会不会爬虫,然后感觉现在爬取数据好像还是挺有用的,所以就在网上找了课程学习了一下,利用Python对网站进行爬取和解析等等.原来使用过八爪鱼这个软件,不太需要有什么编程基础,但是也已 ...

  6. 利用python爬虫大量爬取网页图片

    最近要进行一类图片的识别,因此需要大量图片,所以我用了python爬虫实现 一.爬取某一图片网站 主要参考:https://www.cnblogs.com/franklv/p/6829387.html ...

  7. 利用java的JSoup爬虫技术爬取网页信息

    简单讲解java的Jsoup爬虫技术来爬取网页的数据,简单来讲就是解释网页,一般学过xml的人都很容易理解. 第一步:我们要爬取网页的静态内容必须要了解网页的源码,也就是div之类的标签,因为我们是靠 ...

  8. python 爬虫(爬取网页的img并下载)

    from urllib.request import urlopen # 引用第三方库 import requests #引用requests/用于访问网站(没安装需要安装) from pyquery ...

  9. python爬虫实例方法(批量爬取网页信息基础代码)

    文章目录 前言 一.爬虫实例 0.爬取深圳租房信息 1.爬取深圳算法岗位信息 2.爬取猫图片(基于 selenium库 模拟人自动点击) 3.爬取小说纳兰无敌并生成词云 二.用到的库 1.正则表达式 ...

最新文章

  1. Hive神兽大厅源码搭建安装及使用
  2. 机器学习——大数据与MapReduce
  3. JQuery学习笔记12——GET请求和POST请求
  4. 字符串常量与字符串变量
  5. css根据屏幕大小切换样式
  6. Qt4_组装丰富的积木
  7. BASE64Encoder
  8. 测试人员转型是大势所趋:我的十年自动化测试经验分享
  9. 微软测试新工具:让Windows 10和Android设备文件同步更方便
  10. P1681 最大正方形II (动态规划)
  11. ionic platform add ios, Error:spawn EACCES
  12. 本质矩阵 基础矩阵 单应矩阵 (1)
  13. 相机标定 棋盘格 图_【连载2.3.1】结构光系统标定
  14. 前端项目,css样式获取到了,没能渲染页面
  15. 《数据库系统基础教程》概念
  16. 厉害了网页扫码,所有方法都给你总结到这了,赶紧收藏
  17. 从零开始入门芯片行业
  18. word图片自动生成域
  19. Android双清卸载木马,刷机如何清除木马病毒
  20. 电脑设备打印机驱动安装失败如何解决

热门文章

  1. You will surely observe a Tiffany jewelry
  2. SQL SERVER 的垂死挣扎
  3. 基于Sigma protocol实现的零知识证明protocol集锦
  4. 什么是智能传感器,智能传感器主要应于哪些领域,发展现状是什么?
  5. eclipse gdb gdbserver 远程调试
  6. ERROR : Error appeared during Puppet run: 192.168.1.201_mariadb.pp
  7. outlook自定义快捷键_如何在Outlook中自定义导航窗格
  8. 怎么安装jdk6,怎么安装jdk-6u33-linux-i586.bin
  9. 引力魔方和直通车哪个好?两款工具效果怎样?
  10. java 封闭实例_java – 不能访问类型为Server的封闭实例