2020年12月31日更新

项目说明:

最近遇到一个项目,项目需求大致是这样的:有一批天猫店铺名,需要根据店铺名获得店铺的认证企业名。

项目分析:

这个项目可以分为以下几个步骤:

1、根据店铺名搜索获取店铺的链接

2、从店铺链接查看资质证书,需要验证码识别,这里采用打码平台,当然可以自行训练

3、下载资质证书图片

4、图片识别

环境

Python、Chrome、pillow、Tesseract、打码平台、Mysql

我是把所有店铺统一搜索完之后再进行下一步的操作

天猫根据店铺名搜索店铺,获取店铺链接,入库保存

这里通过selenium直接打开 https://login.tmall.com 手动登录,博主经过实测,一次登录后持续搜索2000个店铺也未触发验证码等。

Mysql字段 id shop(店铺名) owner(企业名) link(链接)

代码对搜索结果进行判断,搜索到的店铺名完全一致才会入库,店铺名有不同入库“-1”,提示“喵~没找到”代表天猫无此店铺可入库“-2”

主要代码如下

import pymysql
import re
import time
import random
from selenium import webdriverHOST = 'x.x.x.x'
PORT = 3306
USER = 'XXX'
PASSWORD = 'XXX'
DB = 'XXX'def read_sql():conn = pymysql.connect(host=HOST, user=USER, password=PASSWORD, port=PORT, db=DB)cursor = conn.cursor()cursor.execute("SELECT id,shop FROM tmall WHERE link='' ")_datas = cursor.fetchall()return _datasdef up_sql(_data):conn = pymysql.connect(host=HOST, user=USER, password=PASSWORD, port=PORT, db=DB)cursor = conn.cursor()cursor.execute("UPDATE tmall SET link='%s' WHERE id='%s' " % (_data[1], _data[0]))conn.commit()def search():options = webdriver.ChromeOptions()options.add_experimental_option("excludeSwitches", ['enable-automation'])options.add_experimental_option("useAutomationExtension", False)options.add_argument('lang=zh_CN.UTF-8')options.add_argument('user-agent="Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.130 Safari/537.36"')driver = webdriver.Chrome('./chromedriver.exe', options=options)login_url = 'https://login.tmall.com/'driver.execute_cdp_cmd("Page.addScriptToEvaluateOnNewDocument", {"source": """Object.defineProperty(navigator, 'webdriver', {get: () => undefined})""",})driver.get(login_url)print('手动登录,等待60s')time.sleep(60)data_list = read_sql()for data in data_list:try:print(data)shop_id = data[0]shop_name = data[1]driver.find_element_by_xpath('//*[@id="mq"]').send_keys(shop_name)time.sleep(1)driver.find_element_by_xpath('//*[@id="mallSearch"]/form/fieldset/div/button').click()time.sleep(5)# 模拟下滑for i in range(1, 5):drop_down = "var q=document.documentElement.scrollTop=" + str(i * 100)driver.execute_script(drop_down)time.sleep(0.01)if i == 1:time.sleep(0.7)if i == 2:time.sleep(0.5)if i == 3:time.sleep(0.3)if i == 4:time.sleep(0.1)resp = driver.page_sourceif '喵~没找到' in resp:print('无此店铺')up_data = [shop_id, '-2', '-2']up_sql(up_data)else:s_shop_info = re.findall('<div class="shopHeader-info">(.*?)</div>', resp, re.S)s_shop_titles = re.findall('<a.*?>(.*?)</a>', s_shop_info[0], re.S)s_shop_links = re.findall('href="//(.*?)"', s_shop_info[0], re.S)s_shop_title = s_shop_titles[0]s_shop_link = 'https://' + s_shop_links[0]if s_shop_title.lower() == shop_name.lower():print('搜索结果符合')up_data = [shop_id, s_shop_title, s_shop_link]print(up_data)up_sql(up_data)else:print('搜索结果不符')up_data = [shop_id, '-1', '-1']print(up_data)up_sql(up_data)time.sleep(random.randint(5, 10))driver.find_element_by_xpath('//*[@id="mq"]').clear()time.sleep(1)except Exception as e:print('错误,', e)time.sleep(random.randint(5, 10))driver.find_element_by_xpath('//*[@id="mq"]').clear()time.sleep(1)if __name__ == '__main__':search()

Python爬取天猫店铺的企业名1:根据店铺名获得店铺链接相关推荐

  1. python爬取天猫,python如何爬取天猫店铺商品链接?

    在使用python爬虫爬取网页时会遇到很多含有特殊符号的情况,当把链接复制到浏览器打开,发现每个节点都多了个\,直接使用response.xpath()无法定位元素,为避免定位不到元素的问题,应先对响 ...

  2. python爬取天猫商品信息

    python爬取天猫商品信息 主要信息有:商品名,价格,月销量,评论数,人气值,店铺评分 以智能手机为例! 首先,发掘网址规律: 第二页的网址如上 第三页的网址如上 注意网址中的数字(靠近中间位置): ...

  3. 用python爬取天猫商品评论并分析(2)

    用python爬取天猫商品评论并分析(2) 之前介绍过天猫数据的爬取和数据初步处理,今天介绍下 将采集的评论进行文本分析!下面是总流程: 0. 主要流程 0. 数据采集 这一步参考网址:https:/ ...

  4. python 爬取2021年《财富》世界500强排行榜2层链接

    python  爬取2021年<财富>世界500强排行榜2层链接 ''' 2021年500强财富爬取 QQ:28928247 # ''' # -*- coding: UTF-8 -*- i ...

  5. python 爬取天猫店铺商品评论

    在两三年之前天猫,淘宝,美团等这类的没有加密,很容易采集到数据,刚写了个爬取天猫评论时候,发现不能获取json类的数据,用了所以我用selenium,效果还不错,我们创建对象后,会让我们登录(如下图所 ...

  6. python爬取天猫_python scrapy 爬取天猫商品

    感觉写的差不多了,可就是爬不出数据,想要用这个爬取天猫商品销量价格,求一下PYTHON大神,能让我程序爬成功的,1000分都给你itemsimportscrapyclassno1item(scrapy ...

  7. python爬取天猫_Python如何抓取天猫商品详细信息及交易记录

    本文实例为大家分享了Python抓取天猫商品详细信息及交易记录的具体代码,供大家参考,具体内容如下 一.搭建Python环境 本帖使用的是Python 2.7 涉及到的模块:spynner, scra ...

  8. python爬取天猫_Python爬取天猫商品数据

    使用教程点击这里下载下载chrome浏览器 查看chrome浏览器的版本号,点击这里下载对应版本号的chromedriver驱动 pip安装下列包pip install selenium pip in ...

  9. 爬虫(一):用python爬取亚马逊所有家具种类前100名的商品信息(上)

    目标 亚马逊公司(Amazon),是美国最大的一家网络电子商务公司,位于华盛顿州的西雅图,是网络上最早开始经营电子商务的公司之一,现在已成为全球商品品种最多的网上零售商和全球第二大互联网企业. 本次目 ...

  10. 爬虫(二):用python爬取亚马逊所有家具种类前100名的商品信息(下)

    目标 亚马逊公司(Amazon),是美国最大的一家网络电子商务公司,位于华盛顿州的西雅图,是网络上最早开始经营电子商务的公司之一,现在已成为全球商品品种最多的网上零售商和全球第二大互联网企业. 本次目 ...

最新文章

  1. 全民app使用率排行榜统计全了,微信再次位居榜首!
  2. cmd长ping记录日志和时间_Gin 框架系列 — 路由中间件:日志记录
  3. MySQL备份与恢复-mysqldump备份与恢复
  4. android shareUID
  5. Entity Framework 6 Recipes 2nd Edition(11-5)译 - 从”模型定义”函数返回一个匿名类型...
  6. 洛谷 P5194 [USACO05DEC]Scales S(DFS)
  7. web前端开发工程师“想都不用想”的几个知识点
  8. java jbutton 不显示_java让JButton按钮变成不可见
  9. Pandas模块,我觉得掌握这些就够用了!
  10. P3698 [CQOI2017]小Q的棋盘
  11. Windows phone 8.1 MessageBox 变了哦!
  12. 电力-101规约说明书2
  13. 在线购物系统后台登录界面html代码,电子商城(购物网站)html模板源码
  14. 智能家居无线组网技术,WiFi芯片模组连接应用,物联网无线技术发展
  15. 通过PreparedStatement执行更新查询操作
  16. 胡灵 c语言,C语言门真相
  17. Cisco AP-Regulatory Domain
  18. iOS线下分享《RunLoop》by 孙源@sunnyxx
  19. 重定向RedirectAttributes用法
  20. 面试官问我G1回收器怎么知道你是什么时候的垃圾?

热门文章

  1. [ 7天学习Python编程,第一天]-----1.4 Python main函数:了解__main__【python舵手】
  2. c语言情书相关活动策划案,三行情书活动策划案
  3. python中判断字符串中出现次数最多的字母
  4. 不同类型的云计算专业知识,推荐几本专业云计算技术书籍
  5. Liunx网络技术管理及进程管理
  6. PWM整流器仿真模型,SVPWM调制方式,空间矢量调制,仿真模型。 PWM整流器matlab仿真模型,SVPWM调制
  7. ooXMLAgile Encryption(一)文档结构
  8. 集成学习 Adaboost(python实现)
  9. 沁恒CH32V307使用记录:GPIO与EXTI
  10. CorelDRAW平面设计标准教程免费视频教程