#爬取图片

importtimeimportrequestsfrom bs4 importBeautifulSoupclassAaa():

headers={"Cookie": "__cfduid=db706111980f98a948035ea8ddd8b79c11589173916","User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Safari/537.36"}defget_cookies(self):

url= "http://www.netbian.com/"response= requests.get(url=url)

self.headers={"Cookie":"__cfduid=" + response.cookies["__cfduid"],"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Safari/537.36"}#获取图片列表

defget_image_list(self,url):try:

response= requests.get(url=url,headers=self.headers)

response.encoding= 'gbk'soup= BeautifulSoup(response.text,'lxml')

li_list= soup.select("#main > div.list > ul > li")for li inli_list:

href= "http://www.netbian.com" + li.select_one("a").attrs["href"]

self.get_image(href)except:

self.get_cookies()defget_image(self,href):try:

response= requests.get(url=href,headers=self.headers)

response.encoding= 'gbk'soup= BeautifulSoup(response.text, 'lxml')

image_href= "http://www.netbian.com" + soup.select_one("#main > div.endpage > div > p > a").attrs["href"]

self.get_image_src(image_href)except:

self.get_cookies()defget_image_src(self,href):try:

response= requests.get(url=href,headers=self.headers)

response.encoding= 'gbk'soup= BeautifulSoup(response.text, 'lxml')

src= soup.select("img")[1].attrs["src"]

self.download_image(src)except:

self.get_cookies()#下载图片

defdownload_image(self,image_src):try:

title= str(time.time()).replace('.', '')

image_path= "static/images/" + title + ".png",

image_path=list(image_path)

response= requests.get(image_src,headers=self.headers)#获取的文本实际上是图片的二进制文本

img =response.content#将他拷贝到本地文件 w 写 b 二进制 wb代表写入二进制文本

with open(image_path[0],'wb') as f:

f.write(img)except:

self.get_cookies()if __name__ == '__main__':

aaa=Aaa()

aaa.get_cookies()for i in range(2,100):

url= "http://www.netbian.com/meinv/index_{}.htm".format(i)

aaa.get_image_list(url)

time.sleep(10)

python爬虫实例-python 爬虫实例相关推荐

  1. python爬虫简单实例-Python 利用Python编写简单网络爬虫实例3

    利用Python编写简单网络爬虫实例3 by:授客 QQ:1033553122 实验环境 python版本:3.3.5(2.7下报错 实验目的 获取目标网站"http://bbs.51tes ...

  2. python爬虫入门实例-Python爬虫快速入门:基本结构简单实例

    本爬虫系列入门教程假设读者仅有一点点Python基础或者近乎为零的基础.如果是有Python基础的可以跳过一些对于Python基本知识的补充. 爬虫能干什么呢?一句话概括,正常通过浏览器可以获取的数据 ...

  3. python多线程爬虫实例-Python实现多线程爬虫

    编辑推荐: 本文主要介绍对Python多线程爬虫实战的整体的思路,希望对大家有帮助. 本文来知乎,由火龙果软件Alice编辑,推荐. 最近在写爬虫程序爬取亚马逊上的评论信息,因此也自学了很多爬虫相关的 ...

  4. python多线程爬虫实例-Python多线程爬虫简单示例

    python是支持多线程的,主要是通过thread和threading这两个模块来实现的.thread模块是比较底层的模块,threading模块是对thread做了一些包装的,可以更加方便的使用. ...

  5. python多线程爬虫实例-python支持多线程的爬虫实例

    python是支持多线程的, 主要是通过thread和threading这两个模块来实现的,本文主要给大家分享python实现多线程网页爬虫 一般来说,使用线程有两种模式, 一种是创建线程要执行的函数 ...

  6. python多线程爬虫实例-python多线程爬虫实例讲解

    Python作为一门强大的脚本语言,我们经常使用python来写爬虫程序,简单的爬虫会写,可是用python写多线程网页爬虫,应该如何写呢?一般来说,使用线程有两种模式,一种是创建线程要执行的函数,把 ...

  7. python 写csv scrapy_scrapy爬虫框架实例一,爬取自己博客

    本篇就是利用scrapy框架来抓取本人的博客,博客地址:http://www.cnblogs.com/shaosks scrapy框架是个比较简单易用基于python的爬虫框架,相关文档:http:/ ...

  8. 【数据分析】【数据获取】【Python爬虫】快速入门+实例+代码+GIF实操

    一:爬虫认知 爬虫名称由来于蜘蛛结网,蜘蛛在一个一个的蛛网节点中等待猎物的到来.而我们的爬虫也是从网页页面的HTML资源中取出我们要的节点资源.二者过程相似,因此爬虫称之为Spider. 1.1 爬虫 ...

  9. python实例代码爬虫_Python实例教程爬虫从网络上下载文档的实例代码

    Python实例教程爬虫从网络上下载文档的实例代码 来源:中文源码网    浏览: 次    日期:2018年8月30日 [下载文档:  Python实例教程爬虫从网络上下载文档的实例代码.txt ] ...

  10. python爬虫实例-Python爬虫案例集合

    urllib2 urllib2是Python中用来抓取网页的库,urllib2 是 Python2.7 自带的模块(不需要下载,导入即可使用) 在python2.x里面有urllib和urllib2; ...

最新文章

  1. 用计算机进行图片处理教学设计,三年级信息技术上教学设计
  2. haproxy1.8安装配置
  3. 软件研发效能度量团体标准获得立项
  4. BugkuCTF-WEB题alert
  5. 坦克世界 与服务器连接中断,坦克世界怎么老是显示与服务器连接已中断
  6. java高并发临时表_不适用临时表进行分页,筛选,查询,避免高并发的方法。...
  7. 新生的 XInclude
  8. 下面是html5中新增的结构元素的是,HTML5的新的结构元素介绍
  9. [蓝桥] 基础练习 十六进制转十进制
  10. PAIP.ASP.NET FTP SKIPLIST
  11. 服务器raid5数据恢复成功案例,磁盘阵列数据恢复方法
  12. 机器学习周志华(西瓜书)课后习题参考答案
  13. 35岁前要培养的66种思维(中)
  14. 不用邀请照样申请Gmail免费邮箱
  15. STM32F103C8T6详细引脚表
  16. r语言 柱状图加星号_R语言-柱状图
  17. PyCharm4注册码
  18. Java程序员进阶必知的分布式系统专业术语分析
  19. 华硕电脑无线网卡代码10
  20. MySQL——MySQL高可用之PXC

热门文章

  1. nginx 405错误后 用get重定向
  2. vue2路由移除#号(Apache)
  3. Modbus设备调试工具Winform(包括SRC0001、海康威视、TTS以及各种类型LED的测试)...
  4. 洛谷 p3372 模板-线段树 1
  5. 自己封装js组件 - 中级
  6. sklearn之随机森林
  7. redis添加认证密码
  8. springboot中radis配置和使用【进阶二】
  9. C段渗透攻击必看的技术知识
  10. 20145321 《Java程序设计》第7周学习总结