第一次写博客,经验不足。

很早以前就听说过爬虫,但是从未自己去实现过,昨天看到一个爬虫的教学视频,不免心里痒痒,于是自己动手编程实现。在这里我选择的是Python语言(不要问我为什么,实际上我也没有学过Python,就当是练练手了)。但是在实现的过程中发现Python真的是简洁精炼,真正的体验到了“人生苦短,我用Python”这句话。

上正文,本次实践是爬取模特秀网站上的图片下载到本地(教学视频中是对mm.taobao.com网站进行爬取的,但是我搜索这个网址时发现它已经被改成了“阿里V任务”了)。整个爬取的过程思路是:

1.首先对网站进行分析,找到每个模特主页的网址特点。

2.urlopen打开每个模特主页,然后read到一个对象中去,再对主页中的图片网址分析特点(在这里也可以分析每个模特的详细情况,比如年龄,籍贯等具体信息都下载到本地)在这里我发现模特照片的前缀都会出现/images/photos,后缀无需多言是.jpg。

3.接下来将所有找到的url保存在一个列表photo中(这个网站读取到的图片会有重复的现象,我把它保存在列表中以便于消除重复),消除重复后用urlretrieve函数将photo中的每个元素对应的图片都下载下来。

# -*- coding:utf-8 -*-
import urllib.request
i=22300
photo=[]
while i<22310 :print('---------------------------')url="http://www.motexiu.cn/"+str(i)+"/album"up=urllib.request.urlopen(url)cont=str(up.read())j=cont.find("albumList")print(cont[j+10:j+13])url2="http://www.motexiu.cn/"+str(i)+"/albumList/"+str(cont[j+10:j+13])up2=urllib.request.urlopen(url2)cont2=str(up2.read())k=0m=0while k<len(cont2):head=cont2.find("/images/photos/",k)if cont2[head+14:head+18]=='/dtt':k=head+10continuetail=cont2.find(".jpg",head)if head==-1:breakurl3="http://www.motexiu.cn"+cont2[head:tail+4]if url3.find('.png')>0:k=head+10continuephoto.insert(m,url3)k=tail+5print('----------------------------')i+=1
photo=list(set(photo))
n=0
print('start download')
while n<len(photo):urllib.request.urlretrieve(photo[n],'photo/photo'+str(n+1)+'.jpg')n+=1

Last Updata : 2018-06-28

Python学习第一课——爬取模特秀网站的模特图片相关推荐

  1. python学习第一课

    python学习第一课 课前回顾 1.请求类型: 2.传参类型: 3.postman断言.参数化.多接口参数依赖 接口文档 这个接口是做什么的?URL请求类型参数--> 如何传递参数params ...

  2. Python学习笔记:爬取网页图片

    Python学习笔记:爬取网页图片 上次我们利用requests与BeautifulSoup爬取了豆瓣<下町火箭>短评,这次我们来学习爬取网页图片. 比如想爬取下面这张网页的所有图片.网址 ...

  3. python学习第一课——环境配置+比着葫芦画个瓢

    python学习第一课 1. python概览 2. python的运行 3. python的变量.类型与存储 4. 对*.py文件的运行与存储 5. 终端切换路径及目录显示 6. 踩着巨人的肩膀创新 ...

  4. python多线程爬取多个网址_【Python爬虫】多线程爬取斗图网站(皮皮虾,我们上车)...

    原标题:[Python爬虫]多线程爬取斗图网站(皮皮虾,我们上车) 斗图我不怕 没有斗图库的程序猿是无助,每次在群里斗图都以惨败而告终,为了能让自己在斗图界立于不败之地,特意去网上爬取了斗图包.在这里 ...

  5. Python学习笔记,爬取笔趣阁小说

    学习了基础的语法,然后网上看到有人分享利用python爬取小说,自己拷贝了代码尝试了一下. 1. 环境准备 安装 BeautifulSoup4 和 lxml & C:/Python39/pyt ...

  6. python贴吧爬虫-Python 爬虫练习: 爬取百度贴吧中的图片

    背景:最近开始看一些Python爬虫相关的知识,就在网上找了一些简单已与练习的一些爬虫脚本 实现功能:1,读取用户想要爬取的贴吧 2,读取用户先要爬取某个贴吧的页数范围 3,爬取每个贴吧中用户输入的页 ...

  7. Java爬虫学习一一Jsoup爬取彼岸桌面分类下的图片

    最近在找工作,在这个过程中我感到很迷茫,投了很多简历,被查看的却很少,其中也有到现场去面试,结果也很不理想(╥╯^╰╥). 哈哈,跑题了,我在看之前所做的项目时,在我的收藏夹中看到了以前收藏的有关爬虫 ...

  8. 百度贴吧界面html程序代码,python爬虫例题:爬取百度贴吧评论区图片和视频

    百度贴吧是全球最大的中文交流平台,你是否跟我一样,有时候看到评论区的图片想下载呢?或者看到一段视频想进行下载呢? 今天,本期Python教程带大家通过搜索关键字来获取评论区的图片和视频. [二.项目目 ...

  9. python批量下载文件教程_零基础Python教程:教你爬取天堂网1920*1080大图片(批量下载)...

    这篇文章将针对上篇文章的未尽事宜进行完善,完成图片的批量抓取. /2 图片网址解析/ 1. 我们首先来分析一下这个图片的地址在哪里.我们选择图片,然后右击网页检查,可以看到图片的路径,如下图所示. 2 ...

最新文章

  1. MixNet了解一下,来自Google Brain最新SOTA移动AI架构
  2. SQL Server改MySQL注意事项
  3. shell 常用命令语句
  4. Ubuntu下创建Vim+Taglist+Cscope+Ctags组合编辑器
  5. iptable 详解_最全的iptables防火墙详解.pdf
  6. python登录并关注公众号_python微信公众号之关注公众号自动回复
  7. Linux下的高级文件权限ACL
  8. 如何使用MongoDB+Springboot实现分布式ID?
  9. java二叉树的遍历,递归与非递归方法
  10. java长按底栏_java - 如何在导航抽屉物品中添加长按功能? - SO中文参考 - www.soinside.com...
  11. 训练猫咪,一本书就够了
  12. 【实用】神级工具类Hutool,你值得拥有!
  13. 编译google libyuv so库
  14. 两波形相位差的计算值_连续模式PFC功率MOSFET电流有效值、平均值计算
  15. input层级高 小程序_解决微信小程序input、textarea层级过高穿透问题
  16. DDR123信号完整性测试分析技术探析
  17. Python和C语言运行速度对比(累加1亿次)
  18. [Aria2][Linux]宝塔面板Aria2安装和配置教程
  19. Java 转换EXCEL Duble格式时间为指定格式日期字符串
  20. 配置keepalived实现Nginx高可用(单主、双主模式)

热门文章

  1. 那个耍了 Google 的天才工程师,又摆了 Uber 一道
  2. 学习post抓包最好用的抓包工具
  3. 信息论 | 计算离散信源的信息量和熵的MATLAB实现(函数封装调用)
  4. 如何在电脑上运行war包
  5. 修改迅雷下载链接的方法。
  6. OpenCV 图像分块 分块图像合并
  7. r语言ggplot2一夜多图_关于GGPLOT2出图里的一页多图模式
  8. 太原理工大学计算机学院向洁,第二届中国大学生服装模特大赛决赛入围名单出炉...
  9. ubuntu更改用户名以及密码
  10. MATLAB中颜色模型介绍级各模型之间转换(RGB、HSV、NTSC、YCbCr、HSI)