import requests
import parselpage_num = 1
for page in range(0,57000+1,50):print("==============正在爬取第{}页=========".format(page_num))page_num+=1# 1.分析目标网页,确定爬取到url路径, headers参数base_url = "https://tieba.baidu.com/f?kw=%E7%BA%A6%E4%BC%9A&ie=utf-8&pn={}".format(page)headers = {'User-Agent': "User-Agent:Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0"}# 2.发送请求,requests,模拟浏览器发送请求,获取相应数据# 这是一个对象,利用.text来提取其中的数据response = requests.get(url=base_url, headers=headers)html_str = response.text# print(html_str)# 3.解析数据 parsel 转化为Selector对象,Selector对象具有xpath的方法,能够对转化的数据进行处理html = parsel.Selector(html_str)# 这里使用谷歌的请求头一直请求不出内容,换了IE的请求头即可。title_url = html.xpath('//div[@class="threadlist_title pull_left j_th_tit "]/a/@href').extract()for title in title_url:all_url = "https://tieba.baidu.com" + titleresponse_2 = requests.get(url=all_url, headers=headers).textresponse_2_data = parsel.Selector(response_2)pic_url = response_2_data.xpath('//div[@class="d_post_content j_d_post_content "]/img[@class="BDE_Image"]/@src').extract()for pic in pic_url:file_name = pic.split('/')[-1]img = requests.get(url=pic, headers=headers).content# 4.数据保存with open('img\\' + file_name, "wb") as f:f.write(img)

视频学习地址:https://space.bilibili.com/16682415?spm_id_from=333.788.b_765f7570696e666f.1

爬虫01-爬取约会吧图片相关推荐

  1. lofter 爬虫_Python网络爬虫1 - 爬取网易LOFTER图片

    LOFTER是网易出品的优质轻博客,灵感源于国外的tumblr,但比之更加文艺,更加本地化.本人非常喜欢LOFTER的UI设计,以及其中的优质用户和内容,似乎网易并不擅长推广,所以受众并不广泛.这都是 ...

  2. python爬虫:爬取所有车标图片保存本地

    python爬虫:爬取所有车标图片保存本地 这次没想到会这么轻松,找了几个网站分析结构发现腾讯汽车的json接口,很轻松爬下所有的图标.上图: 总共209个牌子,以车牌子命名. 分析网页 一开始找了好 ...

  3. Java爬虫-WebMagic爬取博客图片(好色龍的網路觀察日誌)

    WebMagic爬取博客图片 最近在学习java爬虫,接触到WebMagic框架,正好拿我喜爱的博客来练习,希望龙哥(博主)不要责备我~~ 博客链接: 好色龍的網路觀察日誌 ,超级有趣的翻译漫画,持续 ...

  4. Python爬虫入门——爬取贴吧图片

    最近忽然想听一首老歌,"I believe" 于是到网上去搜,把几乎所有的版本的MV都看了一遍(也是够无聊的),最喜欢的还是最初版的<我的野蛮女友>电影主题曲的哪个版本 ...

  5. 爬虫之爬取猫咪图片(2.0版)

    爬取猫咪图片2.0 一.前言 二.环境准备 三.具体实现 1~3 略 4.GUI设计 1.界面设计 2.弹窗提示 3.打包可执行文件 7.成果 四.最后 上次一篇文章得到了大佬们的指点,提出了改进意见 ...

  6. 百度图片爬虫,爬取高清图片

    在做深度学习研究与应用的时候,经常需要爬取样本,例如,超分辨率重建,实际的训练与产品应用中,你需要爬取一些高清的图片,下面提供一个简单的爬虫: # coding=utf-8 import re imp ...

  7. python爬虫实践-爬取京东商品图片

    这段时间,因为疫情在家无聊,想起了网络爬虫,之前有写过使用requests库,又学了下使用urllib库,在这里记录下学习过程. 首先使用的IDE是pycharm,解释器版本3. 第一步:分析某东的u ...

  8. python爬虫之爬取贴吧图片

    确定爬取流程 手动翻页观察URL结构,构造URL列表. 发送request请求包. 解析response回复包,提取所需数据. 存储数据. 1.观察URL,构造url列表 第一页:https://ti ...

  9. 数据获取网络爬虫之--爬取小姐姐图片

    运行环境: python3+jupyter notebook 可直接运行 代码下载地址: https://download.csdn.net/download/weixin_44754046/1122 ...

  10. python批量访问网页保存结果_Python爬虫(批量爬取某网站图片)

    1.需要用到的库有: Requests re os time 如果没有安装的请自己安装一下,pycharm中打开终端输入命令就可以安装 2.IDE : pycharm 3.python 版本: 3.8 ...

最新文章

  1. @芥末的糖----------《管理系统后台架构逻辑》
  2. 2016-04-28
  3. 底盘编码数据解算ROS的odom数据
  4. PowerDesigner导出表到word
  5. 【Java Web开发指南】云服务器部署项目供外网访问(Tomcat)
  6. Redis整合Spring结合使用缓存实例(转)
  7. wxWidgets:HtmlLbox wxWidgets 示例
  8. idea的plugins无法使用marketplace plugins are not loaded
  9. c语言 从文件读入数组,C++ 将一个文件读入数组再读出数组的方法
  10. SQLServer的索引和统计
  11. 安卓模拟器安装教程_安卓模拟器测试总结!究哪个最流畅?内附模拟换IP教程...
  12. LinuxQt打包发布
  13. 白盒测试-条件组合覆盖
  14. 扇贝python多少钱_扇贝多少钱一斤?扇贝多少钱一斤2017?
  15. 2020 年你读了哪些觉得比较好的计算机书籍?
  16. Js逆向:建筑市场监管平台
  17. 小程序如何推广?小程序有哪些推广方式?
  18. 《位置大数据隐私管理》—— 1.4 隐私泄露威胁
  19. http_proxy设置
  20. homeassistant mysql_给Homeassistant更换PostgreSQL数据库

热门文章

  1. 新装EVE-NG使用wireshark出现connection abandoned
  2. SpringBoot再回首:SpringBoot之Servlet用法
  3. 读书读书 吼吼~~
  4. HTML基础,CSS基础
  5. 中国石油大学《大学英语(三)统考》第八套模拟题
  6. 预测:2019年最值得关注的程序语言是什么?
  7. Parasoft如何满足DISA STIG标准
  8. 程序员如何承接软件外包项目(转)
  9. 微信 服务器 台,2W台服务器的微信过载控制系统.docx
  10. 测试发布,无图版~《Windows Phone 7.5本质论》第一章