该楼层疑似违规已被系统折叠 隐藏此楼查看此楼

今天河马http给大家说一下,淘宝上的图片是怎么被爬取的。我们先打开淘宝,输入我们要抓取的图片的关键词,研究分析一下页面,查找所需信息所在的位置,然后开始爬取。

代码如下:

import os

import re

import urllib.request

import requests

def getHtml(url,headers):

# 河马代理设置

proxy = urllib.request.ProxyHandler({'http': '115.213.177.144:4223'})

opener = urllib.request.build_opener(proxy, urllib.request.HTTPHandler)

urllib.request.install_opener(opener)

opener.addheaders = [headers] # 列表

data = urllib.request.urlopen(url).read().decode('utf-8', 'ignore')

pat='"pic_url":"(.*?)"'

imgUrls=re.findall(pat,data)

return data,imgUrls

if __name__=='__main__':

keyword='关键词信息'

#quote编码

keyword=urllib.request.quote(keyword)

pageString='0'

url='目标网址'+pageString

headers = ('User-Agent','agent信息')

data = getHtml(url,headers)[0]

print(data)

pat='"totalPage":(.*?),'

totalPage=int(re.findall(pat,data)[1])

print(totalPage)

path = os.path.join(os.getcwd(), 'img')

os.makedirs(path)

for page in range(totalPage):

pathpage = os.path.join(path, '第'+str(page+1)+'页')

os.makedirs(pathpage)

pageString=str(page*44)

url = '目标网址' + pageString

imgUrls=getHtml(url, headers)[1]

for i in range(1, len(imgUrls)):

try:

url='http:'+imgUrls[i]

print(url)

fileurl=pathpage+'/'+str(i)+'.jpg'

r=requests.get(url)

with open(fileurl,"wb") as f:

f.write(r.content)

except :

print('**** off')

通过上述代码,我们就可以获取到淘宝上的相关图片信息了。河马HTTP为您提供安全稳定、高效便捷的爬虫代理IP服务,更多问题请点击官网咨询客服。

python爬虫爬取淘宝图片_淘宝上的图片是怎么被爬取的相关推荐

  1. Python爬虫进阶——urllib模块使用案例【淘宝】

    Python爬虫基础--HTML.CSS.JavaScript.JQuery网页前端技术 Python爬虫基础--正则表达式 Python爬虫基础--re模块的提取.匹配和替换 Python爬虫基础- ...

  2. Python爬虫获取简书的用户、文章、评论、图片等数据,并存入数据库

    Python爬虫获取简书的用户.文章.评论.图片等数据,并存入数据库 爬虫定义:网络爬虫(又称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维 ...

  3. python爬虫需要啥编程基础吗_编程办公Python爬虫零基础到爬啥都行

    Loading... 教程介绍 Python爬虫项目实战全程实录,你想要什么数据能随意的爬,不管抓多少数据几分钟就能爬到你的硬盘,需要会基本的前端技术(HTML.CSS.JAVASCRIPT)和LIN ...

  4. 23个Python爬虫开源项目代码:微信、淘宝、豆瓣、知乎、微博...

    文末有干货 "Python高校",马上关注 真爱,请置顶或星标 来源:Python数据科学 今天为大家整理了23个Python爬虫项目.整理的原因是,爬虫入门简单快速,也非常适合新 ...

  5. 必须收藏!23个Python爬虫开源项目代码:微信、淘宝、等

    今天分享的文章为大家整理了23个Python爬虫项目. 整理的原因是,爬虫入门简单快速,也非常适合新入门的小伙伴培养信心,所有链接指向GitHub,微信不能直接打开,老规矩,可以用电脑打开.. 1. ...

  6. python爬虫进程和线程的区别_熬了两个通宵写的!终于把多线程和多进程彻底讲明白了!...

    我们知道,在一台计算机中,我们可以同时打开许多软件,比如同时浏览网页.听音乐.打字等等,看似非常正常.但仔细想想,为什么计算机可以做到这么多软件同时运行呢?这就涉及到计算机中的两个重要概念:多进程和多 ...

  7. python爬虫未来发展前景好的行业_爬虫实战2:招聘大数据告诉你运营岗需求现状及职业发展前景...

    写在前面的话 到今年7月份,我就将正式成为一个4岁的运营人啦!相信对于很多运营同学来说,都会思考自己的职业发展路径和规划.还记得我刚入行时,公司的前辈跟我们分享,建议大家要隔一段时间关注下招聘市场的行 ...

  8. python爬虫requests源码链家_链家房源爬虫(含源码)

    链家APP上有很多在售房源信息以及成交房源信息,如果可以把这些信息爬下来,可以得到很多有价值的信息.因此本文将讲一讲如何爬取这些数据,并保存下来供以后分析. 本文将介绍以下几个方面: 程序介绍该程序支 ...

  9. Python爬虫基础库(RBX)的实践_田超凡

    转载请注明原作者:田超凡 20190410 CSDN博客:https://blog.csdn.net/qq_30056341# Python爬虫基础库RBX指的是:Requests Beautiful ...

最新文章

  1. 滚动时域控制 matlab,在 Simulink 中设计神经网络预测控制器
  2. pythonpil库过滤图像contour_快乐python 零基础也能P图 —— PIL库
  3. 苹果手机新款_苹果又偷偷发布新品,这次真的是手机,新款iPhone SE来了
  4. FLEX PHP 交互 简单登录界面(1)源代码
  5. Java 数字转换成汉字
  6. PHP实现10亿个商品编码ing
  7. datatable 创建列赋值_DataTable创建行和列,DataReader读取
  8. 虚拟机测试必备虚拟机之VirtualBox 使用
  9. eclipse4.3.1标准版安装freemarker插件
  10. ad20中怎么多选操作改层_在操作系统中CPU是怎么调度的
  11. python的特征提取实验一_Spark 2.1.0 入门:特征抽取 — TF-IDF(Python版)
  12. 我晕,代码又写错了,操你大爷
  13. 怎么看so文件是哪个aar引进来的_突破微信限制,超大文件可以随便发
  14. 78. Subsets 1
  15. 思科模拟器Cisco Packet Tracer的汉化教程
  16. Java异或运算和校验
  17. 交换机端口与MAC绑定
  18. 修改MDK5(keil5)工程文件名称
  19. 什么是 Razor?
  20. 声速的测量的实验原理和应用_示波器的原理和使用声速测量实验报告.docx

热门文章

  1. MAC 删除默认的ABC输入法
  2. 第22届中国国际地面材料及铺装技术展览会
  3. mysql 递减查询_php – MySQL – 自动递减值
  4. 新网工李白——>李白你好(来抽大奖啦~)
  5. 人工神经网络模型定义,人工智能神经网络模型
  6. 水货苹果笔记本(Mac Book)验机流程
  7. Unity三体运行模拟体验
  8. APUE读书笔记-第十五章-进程间通信
  9. 于神之怒加强版 [Bzoj 4407]
  10. 快学excel-VBA创建数据透视表