爬虫第一步下载第三方工具(requests包):

win+R 输入cmd点击确定或回车

输入以下命令下载requests包:

requests包是python爬虫常用的包 他的下载方式是 pip install requsts 如果觉得下载太慢了在后面可以加个镜像源会有很大的提升

例:pip install requsts  -i https://pypi.tuna.tsinghua.edu.cn/simple 下面是五个常见的镜像源用那个都可以

清华:https://pypi.tuna.tsinghua.edu.cn/simple

阿里云:http://mirrors.aliyun.com/pypi/simple/

中国科技大学 https://pypi.mirrors.ustc.edu.cn/simple/

华中理工大学:http://pypi.hustunique.com/

山东理工大学:http://pypi.sdutlinux.org/

豆瓣:http://pypi.douban.com/simple

怎么查看有没有下载好requests包呢有两种方法:

一. pycharm方式查看:

                    在pyCharm文件项目中输入impot requ会有如图提示说明下载好了

二.指令方式查看:

win+R输入cmd点击确定输入pip list 是查看python全部第三方包,看有没有requests包,有说明下载好了,如图:

基础爬虫测试:

import  requests                        #  导包
url="https://www.baidu.com"             #  把网站地址给变量,用变量来接收利于后期修改

data = {'key1':'value1','key':value2'} # data是post请求使用
res=requests.get(url)                   #  向服务器发送请求,发送请求肯定有回应所以用变量res接受.这个是显示请求

res=requests.post(url,data)                    # 这个是隐式请求
res.encoding=res.apparent_encoding      #  res.encoding是设置字符编码,res.apparent_encoding是获取当前的字符编码

res 是接收服务器响应的一个内容.

print(res.text)                         #  以文本形式打印服务器响应的内容
运行结果:

3.有些网站防止他有反爬虫机制,弄个haeders,haeders是自己的用户信息在哪里查看呢!步骤如图:

1. 在浏览器点击鼠标右键-检查:

2. 点击Network

3.随便点击以下文件

4.点击Headers

5.找到headers的最后一条的User-Agent复制一下:

4.创建beaders 例:

headers={

"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.212 Safari/537.36"

}

让request.get(url,headers=headers)

实例:

爬取站长素材的图片代码如下:

import requests
import re
import os
number=int(input("请输入要下载几页"))
for i in range(number):if i!=0:url="https://sc.chinaz.com/tupian/huangsetupian_%s.html" %(i+1)else: url="https://sc.chinaz.com/tupian/huangsetupian.html"res=requests.get(url)f=open("第%s页.html" %(i+1),"wb")f.write(res.content)f.close()pattern = r'<img src2="(.*?)".*?>'html=res.textimage_urls=re.findall(pattern,html)os.mkdir("../zhanzhang/第%s页"%(i+1))for image in image_urls:image_urls="https:"+imageres=requests.get(image_urls)f=open("../zhanzhang/第%s页/%s" %((i+1),image_urls.split("/")[-1]),"wb")f.write(res.content)f.close()
print("完成")

这样就能快速下载很多图片了

python爬虫(自动下载图片)相关推荐

  1. Python 爬虫自动下载OpenAI Key Papers

    Spinning Up是OpenAI开源的面向初学者的深度强化学习资料,其中列出了105篇深度强化学习领域非常经典的文章, 见 Spinning Up: 博主使用Python爬虫自动爬取了所有文章,而 ...

  2. python爬虫批量下载图片

    使用python的urllib库和正则表达式爬取 学习地址(自行base64解密):aHR0cDovL3BpYy5uZXRiaWFuLmNvbQ== 网站图片,支持批量下载. (本文仅供学习交流,请勿 ...

  3. python爬虫快速下载图片_Python爬虫入门:批量爬取网上图片的两种简单实现方式——基于urllib与requests...

    Python到底多强大,绝对超乎菜鸟们(当然也包括我了)的想象.近期我接触到了爬虫,被小小地震撼一下.总体的感觉就两个词--"强大"和"有趣".今天就跟大家分享 ...

  4. python爬虫怎么下载图片到手机_python爬虫获取京东手机图片的图文教程

    如题,首先当然是要打开京东的手机页面 因为要获取不同页面的所有手机图片,所以我们要跳转到不同页面观察页面地址的规律,这里观察第二页页面 由观察可以得到,第二页的链接地址很有可能是 https://li ...

  5. Python入门之爬虫--自动下载图片

    这个互联网上的数据90%的访问都是爬虫来完成的,爬虫由于检索速度快,定向性高,效率高而受到许多公司和个人的喜爱,如果我们想把一个网站上的图片全部下载下来,可以会花费我们很多时间,如果用爬虫来做的话,我 ...

  6. python 爬虫批量下载图片

    今天加班啊,苦啊!! 无聊,用python写了一个抓图片的爬虫,感觉很不错啊,哈哈 先贴上代码:(python 版本:2.7.9) __author__ = 'bloodchilde'import u ...

  7. Python爬虫自动下载音乐(网易)

    songs.txt 带着地球去流浪 我在夜里偷看过一颗星星 蜉蝣 寄旅 不让我的眼泪陪我过夜 谁明浪子心 说谎的爱人 残酷月光 #coding:utf-8 import requests, sys, ...

  8. mac os平台使用python爬虫自动下载巨潮网络文件

    环境配置 选择python+selenium+wget+Safari的环境来下载文件,本来期望使用phantomjs,但使用时点击出的链接网页为空白网页,无法下载文件. 使用Safari时遇到的错误: ...

  9. python爬虫怎么下载图片到手机_Python爬虫获取图片并下载保存至本地

    1.抓取煎蛋网上的图片. 2.代码如下: import urllib.request import os #to open the url def url_open(url): req=urllib. ...

最新文章

  1. redis同步效率秒_redis过期策略、内存淘汰策略、持久化方式、主从复制
  2. python 定时器_python 线程之四:定时器(Timer),非阻塞
  3. offset-list 和 prefix-list简介
  4. soupUI生成webservice客户端代码
  5. js 中断函数执行_js如何中断递归函数
  6. RocketMQ学习-概览
  7. 光谷码农·每日新闻(2019-05-09)
  8. vivo手机如何开启云服务器,怎么开启vivo手机中的云服务自动备份功能
  9. 【信源编码】Huffman Coding原理以及MATLAB实现
  10. 程序员年薪30万,被准丈母娘各种刁难,网友说:分手吧!
  11. 浅谈用户营销模型AIPL
  12. java中finally语句是否一定会被执行
  13. 3D建模软件测试初学者,3D建模软件如何选择?3D建模软件精选
  14. 类似华为麒麟鸿蒙类的名字,华为除了“麒麟”,还有四款顶级芯片,名字背后隐藏寓意令人感动...
  15. [RL robotic 环境] - [Robosuite](1)
  16. [Unity]角色头顶血条的实现的几种方法以及优化拓展
  17. Python:向IRIS发送邮件申请事件或者连续数据
  18. Spring Aop: 从醉生梦死到豁然开朗
  19. 毕业学生就业数据可视化平台。
  20. 10个科学睡眠的小细节

热门文章

  1. 模糊逻辑基础篇(Foundations of Fuzzy Logic)-无人驾驶汽车自动调节速度案例
  2. Oracle 经由常规路径由 EXPORT:V11.02.00创建到导出文件IMP-00013: 只有 DBA 才能导入由其他 DBA 导出的文件IMP-00000:为成功终止导入
  3. python接收弹幕_Python爬虫自动化爬取b站实时弹幕实例方法
  4. 数据分析的前途在哪? 职业发展之路?有什么资格认证证书吗?
  5. 老闪创业那些事儿(64)——为什么面试不通过?
  6. Ubuntu16.04下使用原版QQ
  7. python 项目结构规范
  8. 【Redis】Redis主从同步中数据同步原理
  9. 如何重启Android手机
  10. 计算机图形学第三版徐长青,计算机图形学课后题答案-徐长青、许志闻