实现原理及思路请参考我的另外几篇爬虫实践博客

py3+urllib+bs4+反爬,20+行代码教你爬取豆瓣妹子图:http://www.cnblogs.com/UncleYong/p/6892688.html
py3+requests+json+xlwt,爬取拉勾招聘信息:http://www.cnblogs.com/UncleYong/p/6960044.html
py3+urllib+re,轻轻松松爬取双色球最近100期中奖号码:http://www.cnblogs.com/UncleYong/p/6958242.html

实现代码如下:

import urllib.request, re# 获取网页源码
def page(pg):url = 'https://www.pengfu.com/index_%s.html'%pg# 页面是utf8编码,所有解码成unicodehtml = urllib.request.urlopen(url).read().decode('utf8') # <meta http-equiv="Content-Type" content="text/html; charset=utf-8" /># print(html)return html# 获取标题
def title(html):reg = re.compile(r'<h1 class="dp-b"><a href=".*?" target="_blank">(.*?)</a>') # r表示防止转义item = re.findall(reg, html)# print(item)return item# 获取图片url
def content(html):# html = page(1)reg = r'<img src="(.*?)" width='item = re.findall(reg, html)# print(item)return itemdef download(url, name):path = 'image\%s.jpg'%name#.decode('utf-8').encode('gbk') # win下只识别gbkurllib.request.urlretrieve(url, path)for i in range(5,9):html = page(i)title_list = title(html)content_list = content(html)for m, n in zip(title_list, content_list): # 把标题和图片对个对应print('正在下载>>>>>:' + m, n)download(n, m)

转载于:https://www.cnblogs.com/uncleyong/p/6973887.html

py3+urllib+re,爬虫下载捧腹网图片相关推荐

  1. Golang实现并发版网络爬虫:捧腹网段子爬取并保存文件

    爬取捧腹网段子 url分页分析 https://www.pengfu.com/xiaohua_1.html 1 下一页+1 https://www.pengfu.com/xiaohua_2.html ...

  2. python3制作捧腹网段子页爬虫

    0x01 春节闲着没事(是有多闲),就写了个简单的程序,来爬点笑话看,顺带记录下写程序的过程.第一次接触爬虫是看了这么一个帖子,一个逗逼,爬取煎蛋网上妹子的照片,简直不要太方便.于是乎就自己照猫画虎, ...

  3. Go语言段子爬虫--捧腹网

    最后我们来进行一次网络段子的爬虫,爬取捧腹网的段子数据 1.爬取网页的段子链接: 程序代码: package mainimport ("fmt""net/http&quo ...

  4. python爬虫之爬取捧腹网段子

    原文链接:http://www.nicemxp.com/articles/12 背景:抓取捧腹网首页的段子和搞笑图片链接 如图: 地址:https://www.pengfu.com/ 首页中有很多子页 ...

  5. python爬取捧腹网gif图片

    #_*_coding:utf-8_*_ #爬取捧腹网GIF图片 import urllib,re import urllib.request import chardet #需要导入这个模块,检测编码 ...

  6. Android实战:手把手实现“捧腹网”APP(三)-----UI实现,逻辑实现

    APP页面实现 根据原型图,我们可以看出,UI分为两部分,底部Tab导航+上方列表显示. 所以此处,我们通过 FragmentTabHost+Fragment,来实现底部的导航页面,通过Recycle ...

  7. Android实战:手把手实现“捧腹网”APP(二)-----捧腹APP原型设计、实现框架选取

    APP原型设计 在APP的开发过程中,原型设计是必不可少的.用户界面原型必须在先启阶段的初期或在精化阶段一开始建立.整个系统(包括它的"实际"用户界面)的分析.设计和实施必须在原型 ...

  8. java爬取捧腹网段子

    先上效果图: 准备工作: /*** 建立http连接*/ public static String Connect(String address) {HttpURLConnection conn = ...

  9. golang实现捧腹网爬取笑话

    爬虫的步骤见:here 以下golang代码实现对捧腹网笑话的爬取,并保存到本地的joy文件夹(程序会自行创建)内 package mainimport ("fmt""n ...

最新文章

  1. Lock、ReentrantLock、ReentrantReadWriteLock原理及应用深入解析
  2. 论文简述 | TextSLAM:具有平面文本特征的视觉SLAM
  3. 泊松回归、gamma回归、Tweedie回归等广义线性回归模型GLM的评估指标:校准曲线、 洛伦兹曲线、卡方检验、AIC、BIC、偏差(Deviance)指标
  4. 《编译与反编译技术》——第一章 引论 1.1节编译器与解释器
  5. 全球及中国医药销售外包(CSO)产业营销创新模式市场格局分析报告2022版
  6. 缓存和字符串相互转换
  7. 团队行为心理学读书笔记(2)招聘背后的心理学
  8. 性能测试十四:Xshell链接linux虚拟机
  9. java菜单面板设置完能关闭_用Java创建一个屏幕外框架(或者:当所有应用程序窗口关闭时,如何避免Mac上的空白菜单)?...
  10. 乌班图安装pycharm
  11. 苹果x来电闪光灯怎么设置_苹果6splus来电没有声音,苹果6sp听筒没有声音怎么回事...
  12. Oracle SqlLoader使用
  13. linux按数量复制文件,linux下dd命令使用详解---用指定大小的块拷贝一个文件
  14. 阿里云实现首个云上量子加密通讯服务
  15. failed to create the npcap service 0x8007007e
  16. 小学生怎么做PPT?
  17. 关于表格冻结行和列的方法
  18. 泰克示波器3系MDO再次升级,使EMI测试不再求人
  19. 敏捷开发的价值观与十二条原则
  20. 云原生安全攻防|使用eBPF逃逸容器技术分析与实践

热门文章

  1. Windows域策略设置 IE信任站点【全域策略生效】
  2. 服务器是怎么工作的?(二)——arp工作原理详细解析
  3. OpenBSD同步时间
  4. GA遗传算法(Genetic Algorithm)
  5. 4个关于中台最常见的误区,用最通俗的话给你一次解释清楚
  6. 数据运营小白如何搭建“初期用户生命周期体系”?
  7. 腾讯离职领导的建议:如果可以,去做大数据,不要做报表
  8. 实战篇:教你建设企业销售分析系统
  9. 简单分析帆软报表中一次HTTP请求的过程。
  10. centos屏幕视频录制,转换