抓取百度贴吧的的图片,网址:https://tieba.baidu.com

直接上代码:


# -*- coding:utf-8 -*-
from lxml import etree
import requests
class TiebaSpider(object):def __init__(self, tieba_name, begin_page, end_page):self.headers = {"User-Agent" : "Mozilla/5.0 (Windows NT 10.0; WOW64; Trident/7.0; rv:11.0) like Gecko"}self.base_url = "https://tieba.baidu.com"self.tieba_name = tieba_nameself.begin_page = int(begin_page)self.end_page = int(end_page)def send_request(self, url, params ={}):try:html = requests.get(url, params = params, headers = self.headers).contentreturn htmlexcept Exception, err:print errdef load_page(self, html):html_obj = etree.HTML(html)link_list = html_obj.xpath("//div[@class='t_con cleafix']/div/div/div/a/@href")for link in link_list:html = self.send_request(self.base_url + link)self.load_image(html)def load_image(self, html):html_obj = etree.HTML(html)link_list = html_obj.xpath("//img[@class='BDE_Image']/@src")for link in link_list:data = self.send_request(link)self.write_image(data, link[-11:])def write_image(self, data, filename):print "[INFO]: 正在下载%s..." % filenamewith open(u"D:\图片\哈哈\pp" + filename, "wb") as f:f.write(data)def start_work(self):for page in range(self.begin_page, self.end_page + 1):pn = (page - 1) * 50keyword = {"kw" : self.tieba_name, "pn" : pn}html = self.send_request(self.base_url + "/f?", keyword)self.load_page(html)if __name__ == "__main__":tieba_name = raw_input("请输入需要爬取的贴吧名:")begin_page = raw_input("请输入爬取的起始页:")end_page = raw_input("请输入爬取的结束页:")Tieba = TiebaSpider(tieba_name, begin_page, end_page)Tieba.start_work()

python百度贴吧图片爬取相关推荐

  1. python爬虫——百度贴吧图片爬取 小项目

    项目目的: 爬取贴吧中所有帖子里面的图片 将爬取到的图片存储到名称为贴吧名称的文件夹中 项目环境 python版本:python3.6 用到的库:requests.etree.unquote 浏览器: ...

  2. python百度贴吧怎么爬取最早的帖子_Python爬虫爬取百度贴吧的帖子

    同样是参考网上教程,编写爬取贴吧帖子的内容,同时把爬取的帖子保存到本地文档: #!/usr/bin/python #_*_coding:utf-8_*_ import urllib import ur ...

  3. 百度贴吧图片爬取,利用 pillow 将图片进行拼接形成照片墙

    python 爬取百度贴吧图片,利用 Pillow 拼接图片 1. 页面分析 我们以百度贴吧为例,爬取一些图片. 页面比较简单,信息提取只是关于图片地址.在代码中利用 lxml 和 Pyquery 两 ...

  4. python百度贴吧怎么爬取最早的帖子_【Python爬虫教学】百度篇·手把手教你抓取百度贴吧任意贴吧指定范围页数内的源代码...

    开门见山. 懒癌一犯,能拖一天是一天. 好了,亲爱的小伙伴们,我又回来了!今天带来的是抓取输入的任意贴吧,抓取指定范围页数内的源代码. 工具: 依旧是 PyCharm 和 Google 浏览器,pyt ...

  5. python爬虫之美女图片爬取

    由于个人水平暂时有限,先写成这样,大家可以参考一下. 本教程分为两部分: 1.获取图片的路径,存储到指定的文本文件中 2.调用上述的文本,进行图片的下载 第一部分: 1.分析网页源码找到规律 框里的h ...

  6. Python彼岸图简易图片爬取保存

    以下内容仅供学习参考 提前说明,以下操作需要拥有网站会员后才可进行操作,否则网站本身限制下载数量,并且无法访问页面内容!!! 目前的需求是需要把风景分类的图片全部保存下来,再决定哪些是自己需要的,哪些 ...

  7. Python爬虫:7_BeautifulSoup4图片爬取

    安装 pip install bs4 代码 import requests from bs4 import BeautifulSoup import timeurl = 'https://umei.c ...

  8. Python爬虫:wallhaven图片爬取

    import re import requestsheaders = {'Cookie':"cookie自己在F12网络中获取 不提供" }def toplist():a = 0o ...

  9. 苹果表主题图片爬取!

    一个设计佬要的,外网苹果表主题图片,说是要参(抄)考(袭)用,搜集作为灵感图库而使用的素材,如果一张张点保存得什么时候,直接Python大法好,Python苹果表主题图片爬取过程. 目标网址:http ...

最新文章

  1. 算法竞赛五冠五亚得主,手把手带你了解算法竞赛
  2. 程序员初试和复试_程序员因肌肉发达面试被质疑能力,网友:这做程序员有啥关系呢?...
  3. NSubstitute完全手册索引
  4. 解决Ubuntu中文件管理器死掉的情况
  5. ospf多区域路由实验
  6. LA 3882 And Then There Was One
  7. paper 134:结构张量structure tensor(二)
  8. matlab编写LDA,lda算法matlab实现
  9. 一位企业家的成功之道
  10. 台式计算机关机后自行重启,台式电脑关机后自动重启的具体解决方法
  11. 计算机硬件和软件之间的区别
  12. 记2020年元宵节-我又回来了
  13. 三菱FX3G_24MT PLC、GS2110_WTBD_N触摸屏实现伺服位置控制编程实例
  14. 97年黑客设计大赛中冠军作品
  15. Processing编程学习指南3.4 鼠标点击和键盘操作
  16. 性格内向的人要不要努力改变自己?
  17. 优思学院|六西格玛黑带应如何选择和评估项目?
  18. intel Pin简要介绍及示例程序
  19. Cocos2dx 3.10音频无法正常播放问题的解决之路
  20. Python大富翁大富豪游戏源代码

热门文章

  1. 偏微分方程简明教程第三章部分答案
  2. 【2021/推荐/社交网络】Socially-Aware Self-Supervised Tri-Training for Recommendation
  3. 大学计算机基础应用word,Word(大学计算机基础).ppt
  4. 数字孪生流域建设是什么意思?它有哪些可行性关键技术?
  5. cocos2d-iphone之魔塔20层完结篇
  6. Muduo日志系统介绍
  7. IP欺骗(XFF头等)
  8. android .beats音效安装器,魔声音效安装器:Beats Audio Installer
  9. 数据库----数据查询
  10. 读《精通正则表达式》-- 网上 js 正则基础教程没有涉及的一些知识