python 使用正则表达式爬取淘宝店铺图片
找到网址源码,抓包url 分析正则
#导入模块
import re
import urllib.request
import random
#设置代理代理池 随机选取
def open_url(url):
req = urllib.request.Request(url)
req.add_header(“User-Agent”,“Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.139 Safari/537.36”)
proxy_list = [
{"http":'222.188.178.42:9999'},
{"http":'163.204.243.186:9999'},
{"http":'36.99.215.29:9999'},
{"http":'120.24.173.214:80'},
{"http":'112.85.165.40:9999'},
{"http":'171.80.2.137:9999'},
{"http":'113.128.30.247:808'},
]
proxy = random.choice(proxy_list)
proxy_suopport = urllib.request.ProxyHandler(proxy)
opener = urllib.request.build_opener(proxy_suopport)
urllib.request.install_opener(opener)
res = opener.open(req)
html = res.read().decode(“utf-8”)
return html
def get_img(html):
p = ‘https://img.alicdn.com/imgextra/i4.*?jpg_260x260.jpg’
imglist = re.findall(p,html)
#for i in imglist:
#print(i)for each in imglist:filename = each.split("/")[-1]urllib.request.urlretrieve(each,filename,None)
if name == “main”:
url = “https://re.taobao.com/search_ou?keyword=夏季女装&catid=&refpid=mm_26632258_3504122_32538762&_input_charset=utf8&clk1=ed0c7d3f4b4060c7b9bb6e834b2ce444&spm=a2e15.8261149.07626516005.5.567e29b4qSfXMC”
get_img(open_url(url))
python 使用正则表达式爬取淘宝店铺图片相关推荐
- python爬虫淘宝实例-Python——爬虫实战 爬取淘宝店铺内所有宝贝图片
之前用四篇很啰嗦的入门级别的文章,带着大家一起去了解并学习在编写爬虫的过程中,最基本的几个库的用法. 那么今天,我们就正式开始我们的第一篇实战内容,爬取一整个淘宝店铺里的所有宝贝的详情页,并且把详情页 ...
- python+scrapy简单爬取淘宝商品信息
python结合scrapy爬取淘宝商品信息 一.功能说明: 已实现功能: 通过scrapy接入selenium获取淘宝关键字搜索内容下的商品信息. 待扩展功能: 爬取商品中的全部其他商品信息. 二. ...
- python + selenium多进程爬取淘宝搜索页数据
python + selenium多进程爬取淘宝搜索页数据 1. 功能描述 按照给定的关键词,在淘宝搜索对应的产品,然后爬取搜索结果中产品的信息,包括:标题,价格,销量,产地等信息,存入mongodb ...
- python不登陆爬取淘宝数据_python登录并爬取淘宝信息代码示例
本文主要分享关于python登录并爬取淘宝信息的相关代码,还是挺不错的,大家可以了解下. #!/usr/bin/env python # -*- coding:utf-8 -*- from selen ...
- 爬取淘宝商品图片(仅用于技术交流)
爬取淘宝商品图片(仅用于技术交流) 主要用的是selenium自动化工具 #! /usr/bin/env python # -*-.coding: utf-8 -*- # __author__ = ' ...
- python爬取淘宝淘女郎图片
网上有许多爬取淘宝淘女郎的代码,发现有的都不可用,就自己改写了一个,当前可用日期为2017.07.30 前提 chromedriver.exe(本文用的是2.30,有两种使用方式,一种是直接绝对路径引 ...
- python爬取淘宝商品图片
python爬取淘宝商品的图片 话不多说,直接上代码: from selenium import webdriver from selenium.webdriver.common import key ...
- python使用requests爬取淘宝搜索页数据
前一段时间负责爬取淘宝的一些商品信息,本来接到爬取淘宝的任务的时候,下意识的就想用selenium(毕竟淘宝有点不好搞).但是使用selenium时搜索页面也得需要登录,并且当使用selenium时不 ...
- 使用selenium爬取淘宝店铺信息
使用selenium +PhantomJS()/Chrome爬取 淘宝页面,存储到mongdb中 使用config进行一些设置 MONGO_URL = 'localhost' MONGO_DB = ' ...
最新文章
- 我国数字出版发展尚存三大难题
- android用什么测试类,android – 使用firebase对类进行JUnit测试
- Let's Fork | 11 款 Github 最新「机器学习」开源项目
- ⚡关于Eastmount博客「网络安全自学篇」系列重要通知!!!⚡
- 网络登录_发布猫系统登录免费网络推广-绥芬河推广资讯
- 【PAT - 甲级1020】Tree Traversals (25分)(树的遍历,给定中序后序,求层次遍历)
- win7设置计算机临时用户,Win7小技巧:用户账户自动登录方法汇总
- Docker快速安装Sybase数据库DBeaver数据库图形化管理开发工具
- Python 爬虫咸鱼版
- CR(code review)常见问题
- 支付宝芝麻信用分申请
- 计算机上网记录怎么清除,如何彻底清除电脑上网痕迹
- little endian c语言,endian.h这个头文件里面的宏可以直接用么?
- 哪里有电,哪里就应该有网络 ,华为移动路由Pro评测
- Maven 标签scop值配置介绍
- 【记录】前端知识点 - Vue
- 全文检索(elasticsearch入门)
- 驱动程序开发:无设备树和有设备树的platform驱动
- Demo---progress-steps------ 2/50(详解)
- 基于Java实现的武汉地铁模拟系统
热门文章
- 银联基于OpenStack 的“五高”生产金融云技术白皮书
- 必过SafetyNet!以MIUI开发版系统为例详解Android设备通过SafetyNet校验方法
- 浅谈深度学习:LSTM对股票的收益进行预测(Sequential 序贯模型,Keras实现)
- OpenCat 简评
- 【程序员才懂的梗】全程高能 爆笑硬核 你中了几个 | 程序员的日常 搞笑瞬间
- 米斯特白帽培训讲义(v2)漏洞篇 弱口令、爆破、遍历
- 20110822炒股日记--进入筑底阶段
- AJAX_json笔记
- 打开Word提示:Office已阻止访问以下嵌入对象,以便保护你的安全解决方法
- 海尔消费金融“增收不增利”:利润不及两年前,曾多次被点名批评