写了一个抓taobao图片的爬虫,全是用if,for,while写的,比较简陋,入门作品。

# -*- coding: cp936 -*-

import urllib2

import urllib

mmurl="http://mm.taobao.com/json/request_top_list.htm?type=0&page="

i=0#第二页有个人的页面没图片,会出现IO错误

while i<15:

url=mmurl+str(i)

#print url #打印出列表的url

up=urllib2.urlopen(url)#打开页面,存入句柄中

cont=up.read()

#print len(cont)#页面的长度

ahref=‘

pa=cont.find(ahref)#找出网页链接的头部位置

pt=cont.find(target,pa)#找出网页链接的尾部位置

for a in range(0,20):#如才能不把20硬编码进去?如何找到文件结尾?

urlx=cont[pa+len(ahref)-4:pt-2]#从头部到尾部,将网页链接存入变量

if len(urlx) < 60:#如果网页链接长度适合【len()!!!!】

urla=urlx     #那么就准备将其打印出来

print urla    #这是想要的model个人URL

#########以下开始对model个人的URL进行操作#########

mup=urllib2.urlopen(urla)#打开model个人的页面,存入句柄中

mcont=mup.read()#对model页面的句柄进行读出操作,存入mcont字符串

imgh="

iph=mcont.find(imgh)#找出【图片】链接的头部位置

ipt=mcont.find(imgt,iph)#找出【图片】链接的尾部位置

for b in range(0,10):#又是硬编码····

mpic=mcont[iph:ipt+len(imgt)]#原始图片链接,链接字符的噪声太大

iph1=mpic.find("http")#对上面的链接再过滤一次

ipt1=mpic.find(imgt)  #同上

picx=mpic[iph1:ipt1+len(imgt)]

if len(picx)<150:#仍有一些URL是“http:ss.png>.jpg”(设为100竟然会误伤)

pica=picx #【是len(picx)<100而不是picx!!】不然会不显示

print pica

############################

###########开始下载pica这个图片

urllib.urlretrieve(pica,"pic\\tb"+str(i)+"x"+str(a)+"x"+str(b)+".jpg")

###########   pica图片下载完毕.(加上各循环体的数字,以免名字重复)

############################

iph=mcont.find(imgh,iph+len(imgh))#开始下一个循环

ipt=mcont.find(imgt,iph)

############model个人URL内的【图片链接】提取完毕##########

pa=cont.find(ahref,pa+len(ahref))#将原来的头部位作为起始点,继续向后找下一个头部

pt=cont.find(target,pa)#继续找下一个尾部

i+=1

是不是很简单呢,小伙伴们稍微修改下就可以抓取其他内容了的。。。

原文:http://www.jb51.net/article/58947.htm

python爬虫淘宝评论图片_简单的抓取淘宝图片的Python爬虫相关推荐

  1. python爬虫抓收费图片_简单的抓取淘宝图片的Python爬虫

    写了一个抓taobao图片的爬虫,全是用if,for,while写的,比较简陋,入门作品. 从网页http://mm.taobao.com/json/request_top_list.htm?type ...

  2. python淘宝爬虫_简单的抓取淘宝图片的Python爬虫

    写了一个抓taobao图片的爬虫,全是用if,for,while写的,比较简陋,入门作品. 从网页http://mm.taobao.com/json/request_top_list.htm?type ...

  3. python好用的库存尾货女装_Python抓取淘宝女装信息(一)

    本次实战案例以抓取淘宝上连衣裙信息为切入点,共抓取4356件连衣裙产品信息.在此基础上进行初步分析.这里首先感谢@大宇,后期的数据处理与图表制作全靠大神帮助.下面我们进入正式介绍环节. 淘宝.京东.链 ...

  4. Python新手爬虫,简单制作抓取廖雪峰教程的小爬虫

    先看几张对比图,分别是官网截图和抓取下来的 txt文档的截图,不算那难看的排版的话,内容是一致的,图片用 url替换了! 在整个抓取过程中,除了普通的文本以外,还需要处理 3个地方,分别是:代码.图片 ...

  5. python获取app信息的库_基于python3抓取pinpoint应用信息入库

    这篇文章主要介绍了基于python3抓取pinpoint应用信息入库,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下 Pinpoint是用Java编写 ...

  6. java 微信文章评论点赞_使用fiddler抓取微信公众号文章的阅读数、点赞数、评论数...

    1 设置fiddler支持https 打开fiddler,在菜单栏中依次选择 [Tools]->[Options]->[HTTPS],勾上如下图的选项: 单击Actions,选择Expor ...

  7. java爬取今日头条_今日头条抓取街拍图片数据集

    spider1: 抓取街拍页面的所有入口链接: 1.数据查看到,街拍页面需要的数据集都在data这个集合中,而data是整个数据集字典的一个键,data这个键又包括了一个list,list中是一个个字 ...

  8. python获取渲染之后的网页_使用Pyppeteer抓取渲染网页

    Pyppeteer是Puppeteer的非官方Python支持,Puppeteer是一个无头JavaScript的基于Chrome/Chromium浏览器自动化库,可以用于对渲染网页的抓取. 比较了P ...

  9. 京东上货助手批量抓取淘宝商品步骤

    京东上传商品的不是很复杂,不过如果想要批量抓取其他平台商品到京东,京东商家就需要时间和精力来批量抓取商品上传了.一般在京东开店的商家,在淘宝.阿里等平台都会有店铺的,这个是电商商家的常态,很多商家都会 ...

  10. Python爬虫实战(4):抓取淘宝MM照片

    Python爬虫入门(1):综述 Python爬虫入门(2):爬虫基础了解 Python爬虫入门(3):Urllib库的基本使用 Python爬虫入门(4):Urllib库的高级用法 Python爬虫 ...

最新文章

  1. c语言实验报告管理系统,C语言实验报告-学生信息资管理系统.doc
  2. LuaLuaMemorySnapshotDump-master
  3. 机器学习数据挖掘笔记_14(GMM-HMM语音识别简单理解)
  4. 使用requests请求网页时,返回的页面信息有时是乱码,如下代码
  5. 小波包能量matlab,小波包分析和小波包能量介绍.doc
  6. 2018年Java展望
  7. Css学习总结(4)——CSS选择器总结
  8. C/C++内存问题检查利器—Purify (二)
  9. 一个故事理解什么是接口回调
  10. 语义分析的方法简述之文本基本处理
  11. 状态机,从细节出发(一段式、两段式、三段式,moore型、mealy型)
  12. 迅雷精简版 Mac中文版
  13. 密码破解与HASH计算
  14. UG工程图模板制作方法,超级实用
  15. 如何禁用笔记本触摸板
  16. pod的requests、limits解读、LimitRange资源配额、Qos服务质量等级、资源配额管理 Resource Quotas
  17. ChatGLM-6B论文代码笔记
  18. 为啥电脑网络里显示好几台计算机,台式电脑宽带显示连接上了,可是不能上网,WiFi也...
  19. discuz db_mysql.calss.php_刚发现得好东西!discuz 7.0 db_mysql.php 详解
  20. dnf加物理攻击的卡片有哪些_dnf哪些卡片是加物理攻击力的?

热门文章

  1. CCF推荐会议/期刊目录(2019)
  2. 二.公共建筑安全防范系统配置
  3. 适应科技发展观的Steam教学实践
  4. ES6面试题(参考文档)
  5. lingo求优化模型
  6. 工具推荐:三款自动化代码审计工具
  7. 电气原理图制图相关GB标准
  8. 【T+】T+和天联高级版软件结合使用的时候,运行T+提示网页崩溃了。
  9. Unity 使用BmFont制作艺术字体
  10. 自己写的BMFont导入工具,快速把图片转换为美术字体