案例：使用XPath的爬虫

现在我们用XPath来做一个简单的爬虫，我们尝试爬取某个贴吧里的所有帖子，并且将该这个帖子里每个楼层发布的图片下载到本地。

# tieba_xpath.py#!/usr/bin/env python
# -*- coding:utf-8 -*-import os
import urllib
import urllib2
from lxml import etreeclass Spider:def __init__(self):self.tiebaName = raw_input("请需要访问的贴吧：")self.beginPage = int(raw_input("请输入起始页："))self.endPage = int(raw_input("请输入终止页："))self.url = 'http://tieba.baidu.com/f'self.ua_header = {"User-Agent" : "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1 Trident/5.0;"}# 图片编号self.userName = 1def tiebaSpider(self):for page in range(self.beginPage, self.endPage + 1):pn = (page - 1) * 50 # page numberword = {'pn' : pn, 'kw': self.tiebaName}word = urllib.urlencode(word) #转换成url编码格式（字符串）myUrl = self.url + "?" + word# 示例：http://tieba.baidu.com/f? kw=%E7%BE%8E%E5%A5%B3 & pn=50# 调用 页面处理函数 load_Page# 并且获取页面所有帖子链接,links = self.loadPage(myUrl)  # urllib2_test3.py# 读取页面内容def loadPage(self, url):req = urllib2.Request(url, headers = self.ua_header)html = urllib2.urlopen(req).read()# 解析html 为 HTML 文档selector=etree.HTML(html)#抓取当前页面的所有帖子的url的后半部分，也就是帖子编号# http://tieba.baidu.com/p/4884069807里的 “p/4884069807”links = selector.xpath('//div[@class="threadlist_lz clearfix"]/div/a/@href')# links 类型为 etreeElementString 列表# 遍历列表，并且合并成一个帖子地址，调用 图片处理函数 loadImagefor link in links:link = "http://tieba.baidu.com" + linkself.loadImages(link)# 获取图片def loadImages(self, link):req = urllib2.Request(link, headers = self.ua_header)html = urllib2.urlopen(req).read()selector = etree.HTML(html)# 获取这个帖子里所有图片的src路径imagesLinks = selector.xpath('//img[@class="BDE_Image"]/@src')# 依次取出图片路径，下载保存for imagesLink in imagesLinks:self.writeImages(imagesLink)# 保存页面内容def writeImages(self, imagesLink):'''将 images 里的二进制内容存入到 userNname 文件中'''print imagesLinkprint "正在存储文件 %d ..." % self.userName# 1. 打开文件，返回一个文件对象file = open('./images/' + str(self.userName)  + '.png', 'wb')# 2. 获取图片里的内容images = urllib2.urlopen(imagesLink).read()# 3. 调用文件对象write() 方法，将page_html的内容写入到文件里file.write(images)# 4. 最后关闭文件file.close()# 计数器自增1self.userName += 1# 模拟 main 函数
if __name__ == "__main__":# 首先创建爬虫对象mySpider = Spider()# 调用爬虫对象的方法，开始工作mySpider.tiebaSpider()

Python案例：使用XPath的爬虫相关推荐

Python——基础学习xpath（爬虫）
python三种解析方法: 1.正则 2.bs4 3.xpath Python--xpath解析: xpath解析是最常用且最便捷高效的一种解析方法,通用性最强 xpath解析原理: 1.实例一个et ...
Python爬虫(十三)_案例：使用XPath的爬虫
本篇是使用XPath的案例,更多内容请参考:Python学习指南案例:使用XPath的爬虫现在我们用XPath来做一个简单的爬虫,我们尝试爬取某个贴吧里的所有帖子且将该帖子里每个楼层发布的图片下载 ...
python如何调用xpath_Python案例：使用XPath的爬虫
案例:使用XPath的爬虫现在我们用XPath来做一个简单的爬虫,我们尝试爬取某个贴吧里的所有帖子,并且将该这个帖子里每个楼层发布的图片下载到本地. # tieba_xpath.py #!/usr/ ...
Python爬虫(十一)_案例：使用XPath的爬虫
现在我们用XPath来做一个简单的爬虫,我们尝试爬取某个贴吧里的所有帖子且将该帖子里每个楼层发布的图片下载到本地. #-*- coding:utf-8 -*- #tieba_xpath.py" ...
python爬虫xpath教程_使用 Xpath 进行爬虫开发
使用 Xpath 进行爬虫开发 Xpath( XML Path Language, XML路径语言),是一种在 XML 数据中查找信息的语言,现在,我们也可以使用它在 HTML 中查找需要的信息. 既 ...
Python案例：破译爬虫项目实践活动日期密码
Python案例:破译爬虫项目实践活动日期密码一.下达编程任务寒假期间,李铁有幸成为外星人教育Python爬虫项目实践活动的参与者.外星人教育给参加活动的同学都发了一条短信,告知了实践活动日期,但 ...
Python常用插件类举，lxml+Xpath实现爬虫，使用Xpath爬取链家二手房源信息
目录一.XPath 二.XPath 常用规则三.在谷歌浏览器安装XPath插件四.Python爬虫常用插件五.使用Xpath解析六.Xpath匹配示例 1.查看所有的标签(如p.a.li标签 ...
以下用于数据存储领域的python第三方库是-『爬虫四步走』手把手教你使用Python抓取并存储网页数据！...
第一步:尝试请求首先进入b站首页,点击排行榜并复制链接 https://www.bilibili.com/ranking?spm_id_from=333.851.b_7072696d61727950 ...
python窗口显示表格_Python爬虫之GUI图表
关于Python爬虫系列的这篇文章我很早就想写了,但由于我前两周一直在研究vscode插件开发方面,就没去写文章.所幸目前vscode插件开发的知识了解的差不多了,是时候写了,哈哈.需要说明的是,我并 ...

Python案例：使用XPath的爬虫

案例：使用XPath的爬虫

Python案例：使用XPath的爬虫相关推荐

最新文章

热门文章