python百度贴吧图片爬取

抓取百度贴吧的的图片，网址：https://tieba.baidu.com

直接上代码：

# -*- coding:utf-8 -*-
from lxml import etree
import requests
class TiebaSpider(object):def __init__(self, tieba_name, begin_page, end_page):self.headers = {"User-Agent" : "Mozilla/5.0 (Windows NT 10.0; WOW64; Trident/7.0; rv:11.0) like Gecko"}self.base_url = "https://tieba.baidu.com"self.tieba_name = tieba_nameself.begin_page = int(begin_page)self.end_page = int(end_page)def send_request(self, url, params ={}):try:html = requests.get(url, params = params, headers = self.headers).contentreturn htmlexcept Exception, err:print errdef load_page(self, html):html_obj = etree.HTML(html)link_list = html_obj.xpath("//div[@class='t_con cleafix']/div/div/div/a/@href")for link in link_list:html = self.send_request(self.base_url + link)self.load_image(html)def load_image(self, html):html_obj = etree.HTML(html)link_list = html_obj.xpath("//img[@class='BDE_Image']/@src")for link in link_list:data = self.send_request(link)self.write_image(data, link[-11:])def write_image(self, data, filename):print "[INFO]: 正在下载%s..." % filenamewith open(u"D:\图片\哈哈\pp" + filename, "wb") as f:f.write(data)def start_work(self):for page in range(self.begin_page, self.end_page + 1):pn = (page - 1) * 50keyword = {"kw" : self.tieba_name, "pn" : pn}html = self.send_request(self.base_url + "/f?", keyword)self.load_page(html)if __name__ == "__main__":tieba_name = raw_input("请输入需要爬取的贴吧名:")begin_page = raw_input("请输入爬取的起始页:")end_page = raw_input("请输入爬取的结束页:")Tieba = TiebaSpider(tieba_name, begin_page, end_page)Tieba.start_work()

python百度贴吧图片爬取相关推荐

python爬虫——百度贴吧图片爬取小项目
项目目的: 爬取贴吧中所有帖子里面的图片将爬取到的图片存储到名称为贴吧名称的文件夹中项目环境 python版本:python3.6 用到的库:requests.etree.unquote 浏览器: ...
python百度贴吧怎么爬取最早的帖子_Python爬虫爬取百度贴吧的帖子
同样是参考网上教程,编写爬取贴吧帖子的内容,同时把爬取的帖子保存到本地文档: #!/usr/bin/python #_*_coding:utf-8_*_ import urllib import ur ...
百度贴吧图片爬取，利用 pillow 将图片进行拼接形成照片墙
python 爬取百度贴吧图片,利用 Pillow 拼接图片 1. 页面分析我们以百度贴吧为例,爬取一些图片. 页面比较简单,信息提取只是关于图片地址.在代码中利用 lxml 和 Pyquery 两 ...
python百度贴吧怎么爬取最早的帖子_【Python爬虫教学】百度篇·手把手教你抓取百度贴吧任意贴吧指定范围页数内的源代码...
开门见山. 懒癌一犯,能拖一天是一天. 好了,亲爱的小伙伴们,我又回来了!今天带来的是抓取输入的任意贴吧,抓取指定范围页数内的源代码. 工具: 依旧是 PyCharm 和 Google 浏览器,pyt ...
python爬虫之美女图片爬取
由于个人水平暂时有限,先写成这样,大家可以参考一下. 本教程分为两部分: 1.获取图片的路径,存储到指定的文本文件中 2.调用上述的文本,进行图片的下载第一部分: 1.分析网页源码找到规律框里的h ...
Python彼岸图简易图片爬取保存
以下内容仅供学习参考提前说明,以下操作需要拥有网站会员后才可进行操作,否则网站本身限制下载数量,并且无法访问页面内容!!! 目前的需求是需要把风景分类的图片全部保存下来,再决定哪些是自己需要的,哪些 ...
Python爬虫：7_BeautifulSoup4图片爬取
安装 pip install bs4 代码 import requests from bs4 import BeautifulSoup import timeurl = 'https://umei.c ...
Python爬虫：wallhaven图片爬取
import re import requestsheaders = {'Cookie':"cookie自己在F12网络中获取不提供" }def toplist():a = 0o ...
苹果表主题图片爬取！
一个设计佬要的,外网苹果表主题图片,说是要参(抄)考(袭)用,搜集作为灵感图库而使用的素材,如果一张张点保存得什么时候,直接Python大法好,Python苹果表主题图片爬取过程. 目标网址:http ...

python百度贴吧图片爬取

python百度贴吧图片爬取相关推荐

最新文章

热门文章