python获取站长之家素材

本文以获取站长之家动物图片为例,演示了请求对象的定制。

import urllib.request as ur
import os
from lxml import etreedef create_request(page):if page == 1:url = "https://sc.chinaz.com/tupian/dongwu.html"else:url = "https://sc.chinaz.com/tupian/dongwu_" + str(page) + ".html"headers = {'user-agent':'从浏览器请求中获取'}req = ur.Request(url=url, headers=headers)return reqdef get_content(req):resp = ur.urlopen(req)content = resp.read().decode('utf-8')return contentdef download(content):# 下载图片,一般涉及图片的网站都会进行懒加载tree = etree.HTML(content)names =  tree.xpath("//div[@class='container'][2]//img/@alt")srcs =  tree.xpath("//div[@class='container'][2]//img/@data-original")for i in range(len(names)):name = names[i]src = srcs[i]complete_url = 'https:' + src urllib.request.urlretrieve(url=complete_url, filename= './animals/' + name + '.jpg')if __name__ == '__main__':start_page = int(input('请输入起始页码:'))end_page = int(input('请输入结束页码:'))os.mkdir('animals')for page in range(start_page, end_page + 1):# 请求对象的定制req = create_request(page)# 获取网页的源码content = get_content(req)# 下载download(content)

python获取站长之家素材相关推荐

  1. python正则获取站长之家风景图,保存到本地

    # -*- coding: utf-8 -*- # !/usr/bin/env python # 获取站长之家风景图:https://sc.chinaz.com/tupian/fengjingtupi ...

  2. python图标icon_【Python】站长之家icon图标爬虫

    本帖最后由 lihaisanhui 于 2020-3-16 15:50 编辑 说明:我又来了!!!这次写的是站长之家的icon图标爬虫 这是一个坛友定做,我花了1上午赶工出来的,写的不好勿喷!数据源: ...

  3. python爬站长之家写一个信息搜集器

    前言: 不知道写什么好,绕来绕去还是写回爬虫这一块. 之前的都爬了一遍.这次爬点好用一点的网站. 0x01: 自行备好requests模块 目标站:http://tool.chinaz.com/ 0x ...

  4. Python 自学记录(自定义爬取图片类型,页数 爬取站长之家图片)

    入门级别 需要用到 lxml库和相关知识,用到 代理的知识(没用到代理池)等 lxml 方法知识记录 获取responce 返回的页面数据 tree = etree.HTML(context) 路径查 ...

  5. python爬虫,站长之家

    主要目标 爬取下图信息,上图更简单直观. 分析思路 首先找到我们要得数据在那,我们先去站长之家去看看;站长之家 这里的"全部行业"就是我们要得一级分类,我们来研究一下他的html源 ...

  6. Python通过文字生成语音,随机获取视频或图片素材生成伪原创的短视频

    前段时间写了一篇<抖音自动引流脚本源码>主要通过语录系统自动生成语句或随机评论,适用于自动评论引流脚本. 今天脑洞大开,想用Python通过文字生成语音,随机获取视频或图片素材生成伪原创的 ...

  7. 站长之家关键词批量获取导出工具SEO工具

    介绍: 本软件是站长之家批量获取关键词的工具,之前也发过爱站的,传送门:爱站关键词批量获取导出工具 按照您的需求下载对应软件即可,想做爱站的权重,就下载爱站的工具,做爱站的词库,想做站长之家的就下载站 ...

  8. python网络爬虫实列——站长之家url解码编码

    爬虫实列--站长之家url解码编码 利用urllib可以做一些网页在线翻译,在线解码之类的实列. 1. 这是网站 2.找到所需要的请求头文件 找到请求网址,明确请求方法(详情请百度get请求与post ...

  9. 初试python爬虫(简单爬取站长之家第一页图片)

    爬取站长之家第一页图片 爬虫 ----需要借助第三方库 requests beautifulsoup4 html5lib 1.模拟浏览器发送请求 并且接收服务器的响应数据 requests 2.解析并 ...

最新文章

  1. 机器学习如何做好分布外异常检测?谷歌这篇 NeurIPS 2019 论文提出了方法
  2. 数据库的binlog、redolog以及undolog
  3. 和php交互的过程_JavaScript学习笔记(二十三) 服务器PHP
  4. ArangoDB Foxx service 使用
  5. java sqlite 工具类_Java 工具类 - JDBC通用操作基类 BaseDao
  6. Android studio下载安装使用遇到的问题及解决办法
  7. java二维数组的遍历
  8. Linux系统中硬盘的管理
  9. Error response from daemon: OCI runtime exec failed: exec failed: container_linux.go:345:
  10. 数据集Pascal VOC2012
  11. twaver API笔记
  12. 尝试破解使用网络验证的小软件
  13. STM32通过串口控制LED闪烁或者呼吸效果
  14. 九宫格拼图小游戏开发笔记-随机网格生成
  15. HDU 4125 Moles 线段树+KMP
  16. ollydbg打补丁
  17. GYM 101350 H. Mirrored String I
  18. c语言.jpg图片转成数组_AWTK——基于C语言开发的GUI框架,功能强大,支持跨平台同步开发...
  19. ThinkPHP6 预防XSS攻击的一点小建议
  20. 红帽Linux系统管理员学习哪些内容?

热门文章

  1. 【文献篇】国家法律法规数据库提供免费的文献下载功能
  2. 嵌入式以太网第二部分——ENC28J60网卡驱动
  3. 代码整洁之道读书笔记(Ch4-Ch7)
  4. OSI 七层模型详解
  5. sqlserver数据库清理(收缩文件)
  6. 复旦计算机学院 王曦,复旦大学计算机科学与工程系薛向阳老师介绍
  7. LeetCode 69.X的平方根
  8. c语言算法集,【二级C语言】数据结构算法集---C  语言实现
  9. 数字电子技术复习第二章
  10. DSSS信号的分类(周期长码短码与非周期长码)