python爬取flickr官网上图片
代码:
import requests
import urllib.request
from bs4 import BeautifulSoup
from selenium import webdriver
import random
from selenium.webdriver.chrome.options import Options
import re#http请求头
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36'}def get_proxy():ip_list = ['123.207.25.143:3128','202.85.213.219:3128','61.4.184.180:3128']proxy = urllib.request.ProxyHandler({'http': random.choice(ip_list)})opener = urllib.request.build_opener(proxy)opener.addheaders = [('User-Agent','Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36')]urllib.request.install_opener(opener)def browerHtml(url):chrome_options = Options()chrome_options.add_argument('--headless')chrome_options.add_argument('--disable-gpu')driver = webdriver.Chrome(chrome_options=chrome_options)driver.get(url)return driver.page_sourcedef getHtml(ul,code='utf-8'):try:r = requests.get(ul,headers = headers)r.raise_for_status()r.encoding = codereturn r.contentexcept:return ""def getImgUrl(html):soup = BeautifulSoup(html, "lxml")patter = r'//[^\s]*.jpg'HrefInfo = re.findall(patter, str(soup))print(HrefInfo)print(len(HrefInfo))return HrefInfodef SaveImg(Lists):index = 1for ul in Lists:url = 'https:' +ulImg = getHtml(url)print("正在保存第{0}张图片".format(index))open('F:\Img_'+str(index)+'.jpg','wb').write(Img)index = int(index) + 1print("图片保存完毕")def main():text = input("请输入你要搜索的图片名称:")print(text)url = 'https://www.flickr.com/search/?text='+text+'&view_all=1'f = open('Filckr.txt','w',encoding='utf-8')get_proxy()htmlText = browerHtml(url)#print(htmlText)f.write(htmlText)Lists = getImgUrl(htmlText)SaveImg(Lists)if __name__ == '__main__':main()
python爬取flickr官网上图片相关推荐
- 用python输出所有的玫瑰花数_用Python爬取WordPress官网所有插件
转自丘壑博客,转载注明出处 前言 只要是用WordPress的人或多或少都会装几个插件,可以用来丰富扩展WordPress的各种功能.围绕WordPress平台的插件和主题已经建立了一个独特的经济生态 ...
- 【学习记录】基于python爬取Flickr图片及元数据
为复现师姐论文成果,爬取Flickr网站数据,只需爬取图片元数据,无需爬取图片: (一已成功,二失败了,这里记录给自己看.) 一.用Python的icrawler包 icrawler是一个轻型框架,自 ...
- 如何用Python爬取LOL官网全英雄皮肤
今天小编带你爬取LOL官网全英雄皮肤的图片 不要失望,也不要难过 接下咱们来讲讲怎么爬取LOL官网 本次案例使用到的模块 import requests import re import json 安 ...
- 用Python爬取WordPress官网所有插件
转自丘壑博客 转载注明出处 前言 只要是用WordPress的人或多或少都会装几个插件,可以用来丰富扩展WordPress的各种功能.围绕WordPress平台的插件和主题已经建立了一个独特的经济生态 ...
- Python爬取国家统计局官网最新全国所有城市县镇数据
最近项目里需要省市区村的数据,网上找了很多方法,都没有如意的,有的老数据竟然还要钱,要积分的我也还认可,我在网上查了下,参考了这位老兄的博客,自己又动手把第五级村级行政加了上去.下面请看大屏幕,我要划 ...
- 如何用python爬论文_使用python爬取NDSS官网的论文
1.问题背景 为了下载NDSS2019年的论文集,页面中有给出所有论文的链接,通过正则匹配来获取论文下载链接和论文名. 通过开发者模式,我们可以找到下载论文的页面(https://www.ndss-s ...
- python爬取千图网_python爬取lol官网英雄图片代码
python爬取lol官网英雄图片代码可以帮助用户对英雄联盟官网平台的皮肤图片进行抓取,有很多喜欢lol的玩家们想要官方的英雄图片当作自己的背景或者头像,可以使用这款软件为你爬取图片资源,操作很简单, ...
- 超简单,Python爬取阴阳师式神视频
Python爬取阴阳师官网式神CG,附完整代码 爬取阴阳师式神宣传CG 网页分析 教程开始 1 发送网页请求 使用第三方库requests来获取网页 使用BeautifulSoup解析网页 2 获取目 ...
- 超简单,Python爬取阴阳师原画壁纸
Python爬取阴阳师官网原画壁纸,附完整代码 爬阴阳师官网插画 网页分析 教程开始 1 获取网页源代码 使用第三方库requests来获取网页 2 获取目标数据 使用BeautifulSoup解析网 ...
最新文章
- mysql没有err文件_xampp中的mysql启动时无法产生err文件
- Javascript 未结束的字符串常量
- c# imager让图片有圆角unity_Qt编写自定义控件24-图片轮播控件
- 【pmcaff】电商人必须了解的生意经:女人的生意怎么做?
- boost::filesystem模块实现为错误报告测试用例提供了一个模板
- superset可视化-桑基图(sankey diagram)
- 我的世界服务器无限装备指令2020,我的世界区域保护指令_我的世界区域保护指令除了自己手机版刷屏2020_攻略...
- 继承redis spring_Spring 极速集成注解 Redis 实践
- Java 8 Optional 类 学习
- wamp配置中的大小写
- linux 安装萍方字体,苹方字体大全-苹果苹方字体全套打包下载【windows完整免费版】-西西软件下载...
- 黑猫论坛实战免杀教程
- JavaScript最详细基础语法总结(跳坑记录!)
- 飞火流星测试经验总结
- 这些信贷数据埋点中不得不知的埋点知识
- AQI(空气质量指数)分析与预测(二)
- 分享99个PHP源码,总有一款适合您
- 第十七届智能车竞赛英飞凌 | 逐飞联合直播-平衡单车组入门讲解
- scribd.com文档下载
- 王者荣耀4.4日服务器维护,王者荣耀服务器正在维护中 4月4日王者荣耀维护到几点?...