使用python爬虫爬取淘宝商品信息

使用的模块主要有 selenium ,time , re,

from selenium import webdriver
import time
import csv
import re
def search_product(key): driver.find_element_by_id('q').send_keys(key)   # key为传的形参driver.find_element_by_class_name("btn-search").click()  # 点击搜索按钮driver.maximize_window()   # 窗口最大化time.sleep(15)page = driver.find_element_by_xpath("//div[@class='m-page g-clearfix']").text  # 提取最大页码数page = re.findall('(\d+)', page)[0]   # 提取当前页return page  # 返回pagedef get_product():divs = driver.find_elements_by_xpath("//div[@class='items']/div[@class='item J_MouserOnverReq  ']")  # 把每个商品按照div分类for div in divs:info = div.find_element_by_xpath(".//div[@class='row row-2 title']/a").text   # 获取商品信息price = div.find_element_by_xpath(".//strong").text + "元"        # 获取商品价格buyer_nums = div.find_element_by_xpath(".//div[@class='deal-cnt']").text   # 获取商品购买人数dsrs = div.find_element_by_xpath(".//div[@class='shop']/a").text   # 获取店铺名称add = div.find_element_by_xpath(".//div[@class='location']").text   # 获取地址print(info, price, buyer_nums, dsrs, add, sep='|')with open('TT.csv', 'a', encoding="utf-8", newline="") as filecsv:   # 保存到csv文件中 需要使用csv模块csvwriter = csv.writer(filecsv, delimiter=",")csvwriter.writerow([info, price, buyer_nums, dsrs, add])def main():print("正在爬取第一页的数据")page = search_product(keyword)   # 调用函数get_product()           # 调用函数# 实现循环下一页直到最后一页page_num = 1while page_num != page:print("*"*100)print("正在爬取第{}页的数据".format(page_num+1))print("*" * 100)driver.get('https://s.taobao.com/search?q={}&s={}'.format(keyword, page_num*44))driver.implicitly_wait(5)   # 浏览器等待设置get_product()    # 再次调用获取数据的方法page_num += 1if __name__ == '__main__':keyword = input("输入搜索商品关键字:")driver = webdriver.Chrome()driver.get("https://www.taobao.com/")main()

在input中输入想要爬取的商品信息 之后需要手动扫码登陆淘宝(自动登陆有些麻烦暂时略过

另外爬取速度相对较慢,可以采用多线程进行爬取

使用python爬取淘宝商品信息相关推荐

  1. Python爬取淘宝商品信息保存到Excel

    前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. PS:如有需要Python学习资料的小伙伴可以加点击下方链接自行获取 python免费学习资 ...

  2. python爬取淘宝商品信息_python爬取淘宝商品信息并加入购物车

    先说一下最终要达到的效果:谷歌浏览器登陆淘宝后,运行python项目,将任意任意淘宝商品的链接传入,并手动选择商品属性,输出其价格与剩余库存,然后选择购买数,自动加入购物车. 在开始爬取淘宝链接之前, ...

  3. python爬取淘宝商品信息并加入购物车

    先说一下最终要达到的效果:谷歌浏览器登陆淘宝后,运行python项目,将任意任意淘宝商品的链接传入,并手动选择商品属性,输出其价格与剩余库存,然后选择购买数,自动加入购物车. 在开始爬取淘宝链接之前, ...

  4. Python 爬取淘宝商品信息栏目

    一.相关知识点 1.1.Selenium Selenium是一个强大的开源Web功能测试工具系列,可进行读入测试套件.执行测试和记录测试结果,模拟真实用户操作,包括浏览页面.点击链接.输入文字.提交表 ...

  5. python爬虫——用selenium爬取淘宝商品信息

    python爬虫--用selenium爬取淘宝商品信息 1.附上效果图 2.淘宝网址https://www.taobao.com/ 3.先写好头部 browser = webdriver.Chrome ...

  6. python+scrapy简单爬取淘宝商品信息

    python结合scrapy爬取淘宝商品信息 一.功能说明: 已实现功能: 通过scrapy接入selenium获取淘宝关键字搜索内容下的商品信息. 待扩展功能: 爬取商品中的全部其他商品信息. 二. ...

  7. python淘宝爬虫_python爬虫爬取淘宝商品信息

    本文实例为大家分享了python爬取淘宝商品的具体代码,供大家参考,具体内容如下 import requests as req import re def getHTMLText(url): try: ...

  8. 利用Selenium爬取淘宝商品信息

    文章来源:公众号-智能化IT系统. 一.  Selenium和PhantomJS介绍 Selenium是一个用于Web应用程序测试的工具,Selenium直接运行在浏览器中,就像真正的用户在操作一样. ...

  9. 爬取淘宝商品信息selenium+pyquery+mongodb

    ''' 爬取淘宝商品信息,通过selenium获得渲染后的源码,pyquery解析,mongodb存储 '''from selenium import webdriver from selenium. ...

最新文章

  1. Method threw 'java.lang.StackOverflowError' exception. Cannot evaluate 问题
  2. 用7*7的卷积核分类9*9的图片到底应该用几个卷积核?55个
  3. fsetpos() fgetpos()详解
  4. 微型计算机系统中的内部寄存,微机原理与接口技术习题集汇总.doc
  5. 回归模型的score得分为负_逻辑回归评分卡实现和评估
  6. 陈国良院士将出席“首届对象存储技术与应用大会”
  7. 基于机器学习的源代码分类
  8. 小众却非常好用的文件同步备份工具-FileYee
  9. web逻辑思维题目_学编程必看:10道逻辑思维测试题(附答案)
  10. Java5的倍数_关于java:将数字四舍五入到最接近的5的倍数
  11. HTML学习之制作导航网页
  12. win10系统快速进入bios的设置方法
  13. 蒲公英服务器搭建小程序,uniapp 小程序打包发布
  14. C/C++基础讲解(二十六)之数值计算与趣味数学篇(打鱼还是晒网与怎样存钱以获取最大利息)
  15. 【Golang第8章:面向对象编程】Go语言的结构体是什么,怎么声明;Golang方法的调用和声明;go语言面向对象实例,go语言工厂模式;golang面向对象的三大特性:继承、封装、多态
  16. 线性回归原理及实现(一):最小二乘法
  17. LateX安装教程(对小白新手超级友好,还瞅啥,说的就是你)
  18. 《Care Bears 爱心熊》人物化身来到 The Sandbox 元宇宙!
  19. Cryptology Unlocked
  20. Ceres Solver 官方教程学习笔记(十二)——非线性最小二乘法建模Modeling Non-linear Least Squares (下)

热门文章

  1. 2019年教育学会议
  2. python turtle库绘画_利用turtle库来画画
  3. 【Graylog】比较常用的pipeline规则
  4. 移动APP开发的三种技术对比
  5. 如何保证API接口安全
  6. 如何利用chatgpt做选品分析?
  7. 工业4.0让德国制造业两年受损500亿?中国应怎样学习前车之鉴
  8. tpm2-tools源码分析之tpm2_createprimary.c(2)
  9. error: LNK2019与error: LNK1120可能的原因及解决方法
  10. 文件流中读行的正确使用(fgets、feof、ferror)