python爬虫-爬取壁纸酷主页内容
1.网页分析
这里用jpg作为后缀的网址就是我们最后需要的二进制文件。
2.代码实现
import requests
import re
from bs4 import BeautifulSoup
from contextlib import closingtarget_url = "http://www.bizhiku.net"
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36','Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8','Referer': 'http://www.xicidaili.com/nn/','Accept-Encoding': 'gzip, deflate, sdch','Accept-Language': 'zh-CN,zh;q=0.8',}def geturllist():rsp = requests.get(url=target_url, headers=headers)bs = BeautifulSoup(rsp.text, "lxml")a_list = bs.find_all('a', attrs={'target': '_blank', 'href': re.compile(r'^/wallpaper/\d+'), 'class': 'pic'})url_list = []for item in a_list:url_list.append(target_url+item["href"])return url_listdef parseurl(list):number = 0for item in list:rst = requests.get(item, headers=headers)bs = BeautifulSoup(rst.text, "lxml")bigurl = bs.find("img", attrs={"id": "bigimg"})img_url = target_url + bigurl['src']with closing(requests.get(url=img_url, stream=True, verify=False, headers=headers)) as r:with open("{}.jpg".format(number), 'ab+') as f:print("正在获得第{}个图片".format(number))for chunk in r.iter_content(chunk_size=1024):if chunk:f.write(chunk)f.flush()number += 1import timetime.sleep(1)if __name__ == '__main__':l = geturllist()parseurl(l)
3.效果展示
python爬虫-爬取壁纸酷主页内容相关推荐
- Python爬虫爬取豆瓣电影评论内容,评论时间和评论人
Python爬虫爬取豆瓣电影评论内容,评论时间和评论人 我们可以看到影评比较长,需要展开才能完整显示.但是在网页源码中是没有显示完整影评的.所以我们考虑到这部分应该是异步加载的方式显示.所以打开网页的 ...
- python爬虫爬取新浪网站新闻内容
我们以爬取sina时尚模块为例 准备工作 为进行爬虫爬取工作,我们需要进行相关库的准备以及对网页设置布局的了解 相关库的准备 import os import re import urllib fro ...
- Python爬虫——爬取壁纸
总是感觉桌面太单调,又不想下载第三方壁纸软件,于是我利用爬虫下载了几百张壁纸,保存在磁盘里,设置桌面背景为指定文件夹的幻灯片播放,这下解决了桌面壁纸自动更换的问题. 首先导入所需的库: import ...
- python爬虫爬取壁纸图片
某乎问答:有哪些仙气四溢的星空壁纸嘛? url: https://www.zhihu.com/question/439483198/answer/1680920607 安装package 因为下载了多 ...
- python 爬虫——爬取百度文库VIP内容
转载自:爬取百度文库 代码实现 import requests import re import json import ossession = requests.session()def fetch ...
- Python爬虫爬取新浪新闻内容
首先感谢丘祐玮老师在网易云课堂的Python网络爬虫实战课程,接下来也都是根据课程内容而写.一来算是自己的学习笔记,二来分享给大家参考之用. 课程视频大概是在16年11月录制的,现在是18年2月.其中 ...
- python爬虫爬取必应每日高清壁纸
python爬虫爬取必应每日高清壁纸 一.简介 二.使用的环境 三.网页分析 1.分析网页每一页url形式以及总页数 2.网页重要信息收集 3.在源码中寻找所需信息的位置 四.代码实现 五.运行爬虫 ...
- python爬虫代码实例-Python爬虫爬取百度搜索内容代码实例
这篇文章主要介绍了Python爬虫爬取百度搜索内容代码实例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下 搜索引擎用的很频繁,现在利用Python爬 ...
- python爬虫爬取csdn博客专家所有博客内容
python爬虫爬取csdn博客专家所有博客内容: 全部过程采取自动识别与抓取,抓取结果是将一个博主的所有 文章存放在以其名字命名的文件内,代码如下 #coding:utf-8import urlli ...
最新文章
- R语言编写自定义函数基于ggsumarystats函数计算每个分组的统计值、自定义可视化分组分面条形图,并在X轴标签下方添加分组对应的统计值(样本数N、中位数median、四分位数的间距iqr)
- 什么时候用var关键字
- 百度js库tangram开源
- H.264 RTP payload 格式
- 有关RSA 命令总结
- swagger报错 java.lang.NumberFormatException: For input string: ““
- CodeForces 1396E Distance Matching(构造+树的重心+dfs+set)
- 1445.32php,nginx实现mysql的负载均衡
- 深圳南山区法院受理11人集体诉腾讯案
- PHP笔记-学生成绩例子
- PSPNet网络要点
- 私有云为先 ZStack还在谋划一个更大的混合云世界
- 文字转语音软件哪个好?快把这些软件收好
- 安装scikit-learn问题
- APE文件学习——文件头(1)
- 使用deepin-emacs
- 一看就会的Nginx学习教程(千万别告诉其他人),java视频百度云盘
- 【有利可图网】PS教程:简单制造火焰文字特效
- appium报错:Original error: socket hang up
- Spring Boot项目开发流程