谁不喜欢漂亮小姐姐
一.前言
各大网站都要上传头像,但是我的话真的没有自信到用自拍(良心拷问:腹肌在哪?二头肌在哪?…)作为社会责任感很强的我,考虑到用好看的小姐姐图片做头像对社会的积极作用,决定先批量库存一波。之前看到b站上说微信头像的重要性,比如很丧的头像就不会有让别人跟它聊天的想法还有一些作为男生应该避免的头像(太傻吊的就不要用了)等等。还有,最近看到有一个岗位叫程序员鼓励师,该岗位要求五官端正活泼可爱性格开朗女生,单身加分,不用会编程,balabala,具体细节百度8,主要工作就是鼓励程序员们加油干活。(感觉非常有道理,我需要小姐姐的鼓励,mua)。结合这两个因素,存点漂亮小姐姐头像何乐而不为,撸起袖子,开干。

二.过程
首先,url得找对,经过尝试,这个百度图片网站好爬取一些:http://image.baidu.com/search/flip?tn=baiduimage&ie=utf-8&word=ins女头像&pn=
参数&word后面填搜索的关键词,我这里填的ins女头像,想填啥填啥吧,比如伤感女头像,ins冷淡风女头像,看个人口味8。&pn参数是页码,我自己是当参数传进去写的,然后我没爬很多页,电脑内存有点不够,哈哈,存个一百张左右就够了,一页大概六十张。
然后,封装头部和用代理ip。说道代理ip我真的有点悲伤,因为上次想建ip池来着,爬站大爷的时候,ip被封不说,还被警告,人家直接在页面上跟我说“兄弟你别爬了,网站上的ip都是死的,没用”。其实用不了就用不了么,我本来就只是试试程序,学习过程嘛,路还长着哩,大不了我花点钱买代理呗,就是真的不喜欢被怼,哈哈。这次还蛮幸运的,找到的几个代理ip还都能用。再就是必换的请求头部里的user-agent,直接fake_useragent包是真滴好用,推荐。
最后,jpg文件存储,就按文件存储操作,路径文件名不写错然后存的是response.content,以前都用的text。
强调,提醒自己多用try,except和输出,这样调试的时候知道问题出在哪,输出友好一点便于知道程序运行到哪了。
这次也用了上星期学的多线程,没有用类的继承方法,而是直接创建进程,提醒自己长点脑子8,threading.Thread()里面第二个参数函数传入值最后加逗号,不然报错,记住记住,还有就是目前运行线程名输出一下。

三.附上代码和结果(没写啥注释,只爬了一页,代码可改)

# -*- coding: utf-8 -*-
import requests
from fake_useragent import UserAgent
import time
import re
import threading
import randomua=UserAgent()proxy_list = ['111.29.3.221:8080','111.29.3.185:8080','111.29.3.185:8080','111.29.3.193:8080','39.135.24.11:8080','111.29.3.189:8080'
]#获取单页所有图片
def crawl_page(page):header={'User-Agent':ua.random,'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8','Accept-Encoding': 'gzip, deflate','Accept-Language': 'zh-CN,zh;q=0.9','Cache-Control': 'max-age=0','Connection': 'keep-alive','Host': 'image.baidu.com','Upgrade-Insecure-Requests': '1'            }url="http://image.baidu.com/search/flip?tn=baiduimage&ie=utf-8&word=ins女头像&pn="+str(page)print(str(threading.current_thread())+"正在运行")response=requests.get(url,headers=header,timeout=10)if response.status_code!=200:print("第%s页爬取失败"%page)time.sleep(0.5)else:print("第%s页爬取成功"%page)response=response.textp_urls=re.findall('"objURL":"(.*?)",', response, re.S)num=1for pic in p_urls:print(str(threading.current_thread())+"正在下载第%d张图片"%num)num+=1if pic is not None:time.sleep(1)header['User-Agent']=ua.randomtry:picture=requests.get(pic,headers=header,proxies={'http':random.choice(proxy_list)},timeout=10)except:print("访问"+pic+'失败')continueif picture.status_code!=200:print(str(picture.status_code)+'错误')print(pic+'获取失败')time.sleep(1)continuetry:file="C://Users//lenovo//Pictures//Saved Pictures//insgirl_{page}_{num}.jpg".format(page=str(page),num=str(num))f=open(file,'wb')print('文件打开成功')f.write(picture.content)print('图片写入成功')f.close()time.sleep(1)except:print('当前图片无法下载'+'\n'+pic+'\n')time.sleep(1)continuedef main():for page in range(1,2):t=threading.Thread(target=crawl_page,args=(page,))t.start()if __name__=='__main__':main()



就先这样8,真滴喜欢漂亮小姐姐,都是我的都是我的!

Python爬取百度图片|我们都爱的ins小姐姐头像相关推荐

  1. Java爬取百度图片人脸识别下载高颜值小姐姐图片

    前言: 最近想下载一些比较好看的妹子图片,但又不想去网上一张张的看,于是就想通过爬取图片进行人脸识别下载. 1.首先:在爬取图片时,通过Java请求时会遇到百度安全认证机制,在这里可以模拟浏览器的请求 ...

  2. Python爬取百度图片搜索结果

    爬取百度图片搜索的图片,我们先需要分析其访问 URL,我们在搜索页面,比如搜索 "abc" ,打开 F12 调试,下拉结果页面页,查看网络请求,在其中我们可以找到这样一个请求 ht ...

  3. 如何使用python爬取百度图片_python实现爬取百度图片的方法示例

    本文实例讲述了python实现爬取百度图片的方法.分享给大家供大家参考,具体如下: import json import itertools import urllib import requests ...

  4. python爬取百度图片(用于深度学习中数据集的收集)

    6_python爬取百度图片(用于深度学习中数据集的收集)(6-20181225-) 参考: https://blog.csdn.net/guyuealian/article/details/7873 ...

  5. Python 爬取百度图片的高清原图

    # coding=utf-8 """ 爬取百度图片的高清原图 Author : MirrorMan Created : 2017-11-10 ""&q ...

  6. python爬图片并按标题保存_EX4 | 用Python爬取百度图片关键字猫并保存

    欢迎关注微信号:student_Shang 小编是985院校小硕士一枚,欢迎关注,持续更新中~ 哈喽,大家好~ 在本次推送中,以百度搜索中关键字猫作为采集目标,重点采集并保存猫的图片,在本地根目录下以 ...

  7. python爬取百度图片——翻页式网站爬取

    小编大约于这个月月初写的这一份代码,但很不幸,大概20号,再次找百度图片翻页流的时候,发现是瀑布流且回不去了,还好代码里面留了翻页流的网址 所以,现在来分享给大家. 语言:python3.6 库:re ...

  8. python爬取百度图片,自定义关键字和页数

    修改了下载的图片打不开的问题,原因:请求头 可执行文件下载 import requests import time import os from multiprocessing import Pool ...

  9. python爬取百度图片

    1.第一步下拉展示的图片越多下载得越多 2.第二步右键保存 3.读取保存的html,其中 根据data-objurl获取的下载地址,其图片质量相对来说比较清晰 代码如下: # -*- coding:u ...

  10. [python]爬取百度图片批量下载数据集

    如题,用python写的爬虫代码脚本,好用至极 这里推荐:机器学习必备的5个脚本工具详解,包括图像抓取,图像的增强,批处理等操作. 收藏保存 import requests import re fro ...

最新文章

  1. AlwaysVisibleControlExtender
  2. 小黑小波比.404 (Not Found)
  3. STM32开发 -- 启动流程
  4. 【maven】dependency的systemPath属性:引入本地系统中的jar
  5. 前端怎么使用jsessionid_成都Web前端是干什么的?新手怎么入门
  6. 系统什么时候会用到swap分区?
  7. mysql 插入数据后返回当前的自增ID方法
  8. 矩阵快速乘法---代码
  9. Linux安装GCC 9.2.0
  10. Android 系统签名打包方法
  11. 弱电系统集成服务器,智能化弱电系统集成(BMS系统集成工程)设计方案
  12. sql循环语句在update中的应用
  13. Cocos Creator 3D 摇杆控制器一种简单实现!
  14. 不止“宏彦获水”还有它们!
  15. python三重积分_蒙特卡罗方法。三重积分。Python。“+”的操作数父级不受支持...
  16. -XX:+UseParallelGC与 -XX:+UseParNewGC 区别
  17. Hibernate之load和get的区别
  18. Wparam与Lparam的区别(转)
  19. 计算机图像识别 pdf,计算机图像处理与识别技术.pdf
  20. win11+虚拟机VMware+win10+Anaconda+Tensorflow

热门文章

  1. 2022-2027年中国苹果树种植行业市场全景评估及发展战略规划报告
  2. 2021腾讯校招前端一面
  3. 苹果动图分享给android,苹果实况图片怎么发给别人
  4. 访问计算机计算机网络密码忘记了怎么办,无线网密码忘记了怎么办?
  5. ubuntu 安装GPU黑屏 修改GRUB_Windows 10 amp; Ubuntu 18.04LTS双系统安装
  6. 基于plc的污水处理,组态王动画仿真,带PLC源代码,组态王源代码
  7. sql compare mysql版本_SQL Compare 13免费版
  8. 武汉理工计算机保研去华科,武汉理工大学2021届保研率14.9%,主要保研本校、武大、华科...
  9. Flutter 自定义下拉菜单
  10. 使用python读取官方节假日文件,获取放假日期