python爬虫淘宝评论图片_简单的抓取淘宝图片的Python爬虫
写了一个抓taobao图片的爬虫,全是用if,for,while写的,比较简陋,入门作品。
# -*- coding: cp936 -*-
import urllib2
import urllib
mmurl="http://mm.taobao.com/json/request_top_list.htm?type=0&page="
i=0#第二页有个人的页面没图片,会出现IO错误
while i<15:
url=mmurl+str(i)
#print url #打印出列表的url
up=urllib2.urlopen(url)#打开页面,存入句柄中
cont=up.read()
#print len(cont)#页面的长度
ahref=‘
pa=cont.find(ahref)#找出网页链接的头部位置
pt=cont.find(target,pa)#找出网页链接的尾部位置
for a in range(0,20):#如才能不把20硬编码进去?如何找到文件结尾?
urlx=cont[pa+len(ahref)-4:pt-2]#从头部到尾部,将网页链接存入变量
if len(urlx) < 60:#如果网页链接长度适合【len()!!!!】
urla=urlx #那么就准备将其打印出来
print urla #这是想要的model个人URL
#########以下开始对model个人的URL进行操作#########
mup=urllib2.urlopen(urla)#打开model个人的页面,存入句柄中
mcont=mup.read()#对model页面的句柄进行读出操作,存入mcont字符串
imgh="
iph=mcont.find(imgh)#找出【图片】链接的头部位置
ipt=mcont.find(imgt,iph)#找出【图片】链接的尾部位置
for b in range(0,10):#又是硬编码····
mpic=mcont[iph:ipt+len(imgt)]#原始图片链接,链接字符的噪声太大
iph1=mpic.find("http")#对上面的链接再过滤一次
ipt1=mpic.find(imgt) #同上
picx=mpic[iph1:ipt1+len(imgt)]
if len(picx)<150:#仍有一些URL是“http:ss.png>.jpg”(设为100竟然会误伤)
pica=picx #【是len(picx)<100而不是picx!!】不然会不显示
print pica
############################
###########开始下载pica这个图片
urllib.urlretrieve(pica,"pic\\tb"+str(i)+"x"+str(a)+"x"+str(b)+".jpg")
########### pica图片下载完毕.(加上各循环体的数字,以免名字重复)
############################
iph=mcont.find(imgh,iph+len(imgh))#开始下一个循环
ipt=mcont.find(imgt,iph)
############model个人URL内的【图片链接】提取完毕##########
pa=cont.find(ahref,pa+len(ahref))#将原来的头部位作为起始点,继续向后找下一个头部
pt=cont.find(target,pa)#继续找下一个尾部
i+=1
是不是很简单呢,小伙伴们稍微修改下就可以抓取其他内容了的。。。
原文:http://www.jb51.net/article/58947.htm
python爬虫淘宝评论图片_简单的抓取淘宝图片的Python爬虫相关推荐
- python爬虫抓收费图片_简单的抓取淘宝图片的Python爬虫
写了一个抓taobao图片的爬虫,全是用if,for,while写的,比较简陋,入门作品. 从网页http://mm.taobao.com/json/request_top_list.htm?type ...
- python淘宝爬虫_简单的抓取淘宝图片的Python爬虫
写了一个抓taobao图片的爬虫,全是用if,for,while写的,比较简陋,入门作品. 从网页http://mm.taobao.com/json/request_top_list.htm?type ...
- python好用的库存尾货女装_Python抓取淘宝女装信息(一)
本次实战案例以抓取淘宝上连衣裙信息为切入点,共抓取4356件连衣裙产品信息.在此基础上进行初步分析.这里首先感谢@大宇,后期的数据处理与图表制作全靠大神帮助.下面我们进入正式介绍环节. 淘宝.京东.链 ...
- Python新手爬虫,简单制作抓取廖雪峰教程的小爬虫
先看几张对比图,分别是官网截图和抓取下来的 txt文档的截图,不算那难看的排版的话,内容是一致的,图片用 url替换了! 在整个抓取过程中,除了普通的文本以外,还需要处理 3个地方,分别是:代码.图片 ...
- python获取app信息的库_基于python3抓取pinpoint应用信息入库
这篇文章主要介绍了基于python3抓取pinpoint应用信息入库,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下 Pinpoint是用Java编写 ...
- java 微信文章评论点赞_使用fiddler抓取微信公众号文章的阅读数、点赞数、评论数...
1 设置fiddler支持https 打开fiddler,在菜单栏中依次选择 [Tools]->[Options]->[HTTPS],勾上如下图的选项: 单击Actions,选择Expor ...
- java爬取今日头条_今日头条抓取街拍图片数据集
spider1: 抓取街拍页面的所有入口链接: 1.数据查看到,街拍页面需要的数据集都在data这个集合中,而data是整个数据集字典的一个键,data这个键又包括了一个list,list中是一个个字 ...
- python获取渲染之后的网页_使用Pyppeteer抓取渲染网页
Pyppeteer是Puppeteer的非官方Python支持,Puppeteer是一个无头JavaScript的基于Chrome/Chromium浏览器自动化库,可以用于对渲染网页的抓取. 比较了P ...
- 京东上货助手批量抓取淘宝商品步骤
京东上传商品的不是很复杂,不过如果想要批量抓取其他平台商品到京东,京东商家就需要时间和精力来批量抓取商品上传了.一般在京东开店的商家,在淘宝.阿里等平台都会有店铺的,这个是电商商家的常态,很多商家都会 ...
- Python爬虫实战(4):抓取淘宝MM照片
Python爬虫入门(1):综述 Python爬虫入门(2):爬虫基础了解 Python爬虫入门(3):Urllib库的基本使用 Python爬虫入门(4):Urllib库的高级用法 Python爬虫 ...
最新文章
- c语言实验报告管理系统,C语言实验报告-学生信息资管理系统.doc
- LuaLuaMemorySnapshotDump-master
- 机器学习数据挖掘笔记_14(GMM-HMM语音识别简单理解)
- 使用requests请求网页时,返回的页面信息有时是乱码,如下代码
- 小波包能量matlab,小波包分析和小波包能量介绍.doc
- 2018年Java展望
- Css学习总结(4)——CSS选择器总结
- C/C++内存问题检查利器—Purify (二)
- 一个故事理解什么是接口回调
- 语义分析的方法简述之文本基本处理
- 状态机,从细节出发(一段式、两段式、三段式,moore型、mealy型)
- 迅雷精简版 Mac中文版
- 密码破解与HASH计算
- UG工程图模板制作方法,超级实用
- 如何禁用笔记本触摸板
- pod的requests、limits解读、LimitRange资源配额、Qos服务质量等级、资源配额管理 Resource Quotas
- ChatGLM-6B论文代码笔记
- 为啥电脑网络里显示好几台计算机,台式电脑宽带显示连接上了,可是不能上网,WiFi也...
- discuz db_mysql.calss.php_刚发现得好东西!discuz 7.0 db_mysql.php 详解
- dnf加物理攻击的卡片有哪些_dnf哪些卡片是加物理攻击力的?