1.网页分析

这里用jpg作为后缀的网址就是我们最后需要的二进制文件。

2.代码实现

import requests
import re
from bs4 import BeautifulSoup
from contextlib import closingtarget_url = "http://www.bizhiku.net"
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36','Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8','Referer': 'http://www.xicidaili.com/nn/','Accept-Encoding': 'gzip, deflate, sdch','Accept-Language': 'zh-CN,zh;q=0.8',}def geturllist():rsp = requests.get(url=target_url, headers=headers)bs = BeautifulSoup(rsp.text, "lxml")a_list = bs.find_all('a', attrs={'target': '_blank', 'href': re.compile(r'^/wallpaper/\d+'), 'class': 'pic'})url_list = []for item in a_list:url_list.append(target_url+item["href"])return url_listdef parseurl(list):number = 0for item in list:rst = requests.get(item, headers=headers)bs = BeautifulSoup(rst.text, "lxml")bigurl = bs.find("img", attrs={"id": "bigimg"})img_url = target_url + bigurl['src']with closing(requests.get(url=img_url, stream=True, verify=False, headers=headers)) as r:with open("{}.jpg".format(number), 'ab+') as f:print("正在获得第{}个图片".format(number))for chunk in r.iter_content(chunk_size=1024):if chunk:f.write(chunk)f.flush()number += 1import timetime.sleep(1)if __name__ == '__main__':l = geturllist()parseurl(l)

3.效果展示

python爬虫-爬取壁纸酷主页内容相关推荐

  1. Python爬虫爬取豆瓣电影评论内容,评论时间和评论人

    Python爬虫爬取豆瓣电影评论内容,评论时间和评论人 我们可以看到影评比较长,需要展开才能完整显示.但是在网页源码中是没有显示完整影评的.所以我们考虑到这部分应该是异步加载的方式显示.所以打开网页的 ...

  2. python爬虫爬取新浪网站新闻内容

    我们以爬取sina时尚模块为例 准备工作 为进行爬虫爬取工作,我们需要进行相关库的准备以及对网页设置布局的了解 相关库的准备 import os import re import urllib fro ...

  3. Python爬虫——爬取壁纸

    总是感觉桌面太单调,又不想下载第三方壁纸软件,于是我利用爬虫下载了几百张壁纸,保存在磁盘里,设置桌面背景为指定文件夹的幻灯片播放,这下解决了桌面壁纸自动更换的问题. 首先导入所需的库: import ...

  4. python爬虫爬取壁纸图片

    某乎问答:有哪些仙气四溢的星空壁纸嘛? url: https://www.zhihu.com/question/439483198/answer/1680920607 安装package 因为下载了多 ...

  5. python 爬虫——爬取百度文库VIP内容

    转载自:爬取百度文库 代码实现 import requests import re import json import ossession = requests.session()def fetch ...

  6. Python爬虫爬取新浪新闻内容

    首先感谢丘祐玮老师在网易云课堂的Python网络爬虫实战课程,接下来也都是根据课程内容而写.一来算是自己的学习笔记,二来分享给大家参考之用. 课程视频大概是在16年11月录制的,现在是18年2月.其中 ...

  7. python爬虫爬取必应每日高清壁纸

    python爬虫爬取必应每日高清壁纸 一.简介 二.使用的环境 三.网页分析 1.分析网页每一页url形式以及总页数 2.网页重要信息收集 3.在源码中寻找所需信息的位置 四.代码实现 五.运行爬虫 ...

  8. python爬虫代码实例-Python爬虫爬取百度搜索内容代码实例

    这篇文章主要介绍了Python爬虫爬取百度搜索内容代码实例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下 搜索引擎用的很频繁,现在利用Python爬 ...

  9. python爬虫爬取csdn博客专家所有博客内容

    python爬虫爬取csdn博客专家所有博客内容: 全部过程采取自动识别与抓取,抓取结果是将一个博主的所有 文章存放在以其名字命名的文件内,代码如下 #coding:utf-8import urlli ...

最新文章

  1. R语言编写自定义函数基于ggsumarystats函数计算每个分组的统计值、自定义可视化分组分面条形图,并在X轴标签下方添加分组对应的统计值(样本数N、中位数median、四分位数的间距iqr)
  2. 什么时候用var关键字
  3. 百度js库tangram开源
  4. H.264 RTP payload 格式
  5. 有关RSA 命令总结
  6. swagger报错 java.lang.NumberFormatException: For input string: ““
  7. CodeForces 1396E Distance Matching(构造+树的重心+dfs+set)
  8. 1445.32php,nginx实现mysql的负载均衡
  9. 深圳南山区法院受理11人集体诉腾讯案
  10. PHP笔记-学生成绩例子
  11. PSPNet网络要点
  12. 私有云为先 ZStack还在谋划一个更大的混合云世界
  13. 文字转语音软件哪个好?快把这些软件收好
  14. 安装scikit-learn问题
  15. APE文件学习——文件头(1)
  16. 使用deepin-emacs
  17. 一看就会的Nginx学习教程(千万别告诉其他人),java视频百度云盘
  18. 【有利可图网】PS教程:简单制造火焰文字特效
  19. appium报错:Original error: socket hang up
  20. Spring Boot项目开发流程

热门文章

  1. MyBatis 哪些地方用到了代理模式?
  2. MyBatis 插件原理与自定义插件-PageHelper 原理
  3. MVC 顶层设计-HandlerMapping
  4. 分布式文件系统研究-fastDSF架构介绍
  5. Azkaban-two_server模式-安装3和启动运行
  6. TortoiseSVN操作
  7. MySQL复制常见问题处理
  8. 正确率 精度 召回率 错误率
  9. Makefile(直接可以使用)
  10. React Native 蓝牙4.0 BLE开发