[Python] 纯文本查看 复制代码#采集阿里巴巴商品图片数据

from selenium import webdriver

import time

import requests

import os

import re

def crawle(url):

browser = webdriver.Chrome()

browser.get(url=url)

# 将滚动条移动到页面的底部

js = "var q=document.documentElement.scrollTop=100000"

browser.execute_script(js)

time.sleep(5)

#打印当前网页源码

#print(browser.page_source)

#获取当前网页标题

title=browser.title

title=title.replace(" - 阿里巴巴","")

title= re.sub(r'[\|\/\\:\*\?\\\"]', "_", title)

print(title)

os.makedirs(f"alibb/{title}/", exist_ok=True)

#获取当前网页链接

website=browser.current_url

print(website)

#创建txt文档并保存商品数据

fname='spider'

shopping='%s%s%s%s'%(website,":",title,'\n')

with open(f"alibb/{fname}.txt",'a+',encoding='utf-8') as f:

f.write(shopping)

print(f"保存{title}链接成功!")

imgs_urls = []

imgb_urls = []

for link in browser.find_elements_by_xpath("//*[@src]"): # 获取当前页面的src

img_url=link.get_attribute('src')

#获取宝贝首图图片链接

if "60x60" in img_url:

if "jpg" in img_url:

imgs_url=img_url.replace("60x60.jpg","jpg")

if "png" in img_url:

imgs_url = img_url.replace("60x60.png", "png")

print(imgs_url)

imgs_urls.append(imgs_url)

#获取宝贝详情图片链接

if "https://cbu01.alicdn.com/img/" in img_url:

if "search" not in img_url:

if "140x140xz" not in img_url:

if "summ" not in img_url:

if "x" not in img_url:

print(img_url)

imgb_urls.append(img_url)

#下载宝贝首图

print(imgs_urls)

x = 1

for simgs in imgs_urls:

if 'jpg' in simgs:

imgs_name = f's{x}.jpg'

if 'png' in simgs:

imgs_name = f's{x}.png'

rs = requests.get(simgs)

with open(f"alibb/{title}/{imgs_name}", 'wb') as f:

f.write(rs.content)

x = x + 1

print(f"下载宝贝首图成功!")

#下载宝贝详情图

print(imgb_urls)

y = 1

for bimgs in imgb_urls:

if 'jpg' in bimgs:

imgb_name = f'{y}.jpg'

if 'png' in bimgs:

imgb_name = f'{y}.png'

rs = requests.get(bimgs)

with open(f"alibb/{title}/{imgb_name}", 'wb') as f:

f.write(rs.content)

y = y + 1

print(f"下载宝贝详情图成功!")

time.sleep(2)

browser.quit()

if __name__ == '__main__':

f = open("阿里商品链接.txt","r")

data = f.readlines()

f.close()

print(data)

for url in data:

url=url.replace('\n','')

print(url)

crawle(url)

python阿里巴巴_阿里图片采集,python selenium 采集阿里巴巴商品图片数据相关推荐

  1. vb6在后台将窗体保存到图片_如何将寺库网多个商品图片一键分类保存到一个目录...

    寺库网是全球最大的奢侈品网上在线购物平台,那么我们怎样可以从寺库网上一键批量采集到多个宝贝商品图片,并分类保存到电脑呢?今天小编给大家带来一款专业电商图片链接采集软件[载图助手],它支持平台高达141 ...

  2. ecshop图片自动本地化插件,ECSHOP下载商品图片,ECSHOP商品详情远程图片,ecshop商品远程图片保存,ecshop图片自动本地化插件,商品图片本地化

    ecshop图片自动本地化插件,ECSHOP下载商品图片,ECSHOP商品详情远程图片,ecshop商品远程图片保存,ecshop图片自动本地化插件,商品图片本地化,图片远程本地化插件,ecshop远 ...

  3. 阿里巴巴400集python教程_摆摊吧,程序员!阿里巴巴力荐Python400集视频

    阿里巴巴力荐的视频,对于初学者想更轻松的学好Python开发,爬虫技术,Python数据分析,人工智能等技术,这里也给大家准备了一套系统教学资源,下面介绍下大型Python400集视频学习资料 有五个 ...

  4. 虫术 python绝技_虫术:Python绝技

    第1章 爬虫初步 1.1 爬虫与大数据 1.1.1 大数据架构 1.1.2 爬虫的作用与地位 1.1.3 Python与爬虫 1.1.4 Python的网络爬虫框架 1.1.5 虫术技术路线图 1.2 ...

  5. 如何让nginx执行python代码_生产环境部署Python语言代码(django+uwsgi+nginx)

    本文主要向大家介绍了生产环境部署Python语言代码(django+uwsgi+nginx),通过具体的内容向大家展示,希望对大家学习Python语言有所帮助. 基础环境不做介绍,在django开发w ...

  6. 使用python数据分析_我如何使用Python分析《权力游戏》

    使用python数据分析 By Rocky Kev 洛基·凯夫(Rocky Kev) I wanted to learn Python for a long time, but I could nev ...

  7. 零基础学python 视频_全网最全Python视频教程真正零基础学习Python视频教程 490集...

    Python Web开发-进阶提升 490集超强Python视频教程 真正零基础学习Python视频教程 [课程简介] 这是一门Python Web开发进阶课程,手把手教你用Python开发完整的商业 ...

  8. pythoncookbook和流畅的python对比_为什么你学Python效率比别人慢?因为你没有这套完整的学习资料...

    以下资源免费获取方式! 关注!转发!私信"资料"即可免费领取! 入门书籍 1.<Python基础教程>(Beginning Python From Novice to ...

  9. 云服务器运行python程序_云服务器部署python项目

    发现python的一个识别验证码识别模块 muggle-ocr(https://pypi.org/project/muggle-ocr/) 成功率还是可以的,打算把把部署到云服务器上 这里记录一下部署 ...

最新文章

  1. arduino红外热释电传感器_压力传感器在汽车空调系统中的应用
  2. 万字长文爆肝Python基础入门【巨详细,一学就会】
  3. node to traverse cannot be null!
  4. 用总计金额求本体额与消费税额FM,所引起的金额误差问题
  5. 将某内存单元数据做乘法 + 内存间数据的复制
  6. smartqq java撤回_基于nodejs的http模块通过smartqq实现自动收发qq消息的程序
  7. PHP 接口输出 图片
  8. java容器02--ArrayList源码分析
  9. Spring Boot笔记-利用Quartz进行定时任务,利用websocket推送到浏览器(界面为thymeleaf)
  10. 100c之29:求具有abcd= ( ab + cd )^2 性质的四位数
  11. TikTok最适合普通小白的赚钱方法?
  12. Android中Bitmap缓存池
  13. CS0579 Duplicate 'Microsoft.AspNetCore.Mvc.ApplicationParts.ProvideApplicationPartFactoryAttribute
  14. Http 理论基础-请求与响应、响应状态码汇总
  15. 火狐浏览器Firefox怎样设置中文
  16. php上传公众号临时素材-微信开发素材管理6
  17. ElasticSearch7 集群安装和配置
  18. 移动手机用户目录下的证书至根目录下
  19. [PYTHON]Scons工具简介
  20. 【23考研】计算机408数据结构代码题强化阶段划重点(王道书)

热门文章

  1. 如何将立创商城的原理图符号和封装导入AD中
  2. 内存管理 —— 快表TLB
  3. 给定一个由n个圆盘组成的塔,这些圆盘按照大小递减的方式套在第一根桩柱上。现要将整个塔移动到另一根桩柱上,每次只能移动一个圆盘,且较大的圆盘在移动过程中不能放置在较小的圆盘上面
  4. batch_size的含义
  5. Python + Selenium(二十六)模拟手机浏览器
  6. linux分区表错误修复工具,在Linux下成功修复分区表出错
  7. 读书笔记:《Deep Work -- 深度工作》
  8. 自己经常崩溃怎么办?情绪崩溃怎么办?成年人的崩溃总是那么的猝不及防!
  9. 小曾曾读书笔记 ||《私域流量运营指南:从流量到高利润》
  10. 软件测试基础测试分析法