使用python爬取淘宝商品信息
使用python爬虫爬取淘宝商品信息
使用的模块主要有 selenium ,time , re,
from selenium import webdriver
import time
import csv
import re
def search_product(key): driver.find_element_by_id('q').send_keys(key) # key为传的形参driver.find_element_by_class_name("btn-search").click() # 点击搜索按钮driver.maximize_window() # 窗口最大化time.sleep(15)page = driver.find_element_by_xpath("//div[@class='m-page g-clearfix']").text # 提取最大页码数page = re.findall('(\d+)', page)[0] # 提取当前页return page # 返回pagedef get_product():divs = driver.find_elements_by_xpath("//div[@class='items']/div[@class='item J_MouserOnverReq ']") # 把每个商品按照div分类for div in divs:info = div.find_element_by_xpath(".//div[@class='row row-2 title']/a").text # 获取商品信息price = div.find_element_by_xpath(".//strong").text + "元" # 获取商品价格buyer_nums = div.find_element_by_xpath(".//div[@class='deal-cnt']").text # 获取商品购买人数dsrs = div.find_element_by_xpath(".//div[@class='shop']/a").text # 获取店铺名称add = div.find_element_by_xpath(".//div[@class='location']").text # 获取地址print(info, price, buyer_nums, dsrs, add, sep='|')with open('TT.csv', 'a', encoding="utf-8", newline="") as filecsv: # 保存到csv文件中 需要使用csv模块csvwriter = csv.writer(filecsv, delimiter=",")csvwriter.writerow([info, price, buyer_nums, dsrs, add])def main():print("正在爬取第一页的数据")page = search_product(keyword) # 调用函数get_product() # 调用函数# 实现循环下一页直到最后一页page_num = 1while page_num != page:print("*"*100)print("正在爬取第{}页的数据".format(page_num+1))print("*" * 100)driver.get('https://s.taobao.com/search?q={}&s={}'.format(keyword, page_num*44))driver.implicitly_wait(5) # 浏览器等待设置get_product() # 再次调用获取数据的方法page_num += 1if __name__ == '__main__':keyword = input("输入搜索商品关键字:")driver = webdriver.Chrome()driver.get("https://www.taobao.com/")main()
在input中输入想要爬取的商品信息 之后需要手动扫码登陆淘宝(自动登陆有些麻烦暂时略过
另外爬取速度相对较慢,可以采用多线程进行爬取
使用python爬取淘宝商品信息相关推荐
- Python爬取淘宝商品信息保存到Excel
前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. PS:如有需要Python学习资料的小伙伴可以加点击下方链接自行获取 python免费学习资 ...
- python爬取淘宝商品信息_python爬取淘宝商品信息并加入购物车
先说一下最终要达到的效果:谷歌浏览器登陆淘宝后,运行python项目,将任意任意淘宝商品的链接传入,并手动选择商品属性,输出其价格与剩余库存,然后选择购买数,自动加入购物车. 在开始爬取淘宝链接之前, ...
- python爬取淘宝商品信息并加入购物车
先说一下最终要达到的效果:谷歌浏览器登陆淘宝后,运行python项目,将任意任意淘宝商品的链接传入,并手动选择商品属性,输出其价格与剩余库存,然后选择购买数,自动加入购物车. 在开始爬取淘宝链接之前, ...
- Python 爬取淘宝商品信息栏目
一.相关知识点 1.1.Selenium Selenium是一个强大的开源Web功能测试工具系列,可进行读入测试套件.执行测试和记录测试结果,模拟真实用户操作,包括浏览页面.点击链接.输入文字.提交表 ...
- python爬虫——用selenium爬取淘宝商品信息
python爬虫--用selenium爬取淘宝商品信息 1.附上效果图 2.淘宝网址https://www.taobao.com/ 3.先写好头部 browser = webdriver.Chrome ...
- python+scrapy简单爬取淘宝商品信息
python结合scrapy爬取淘宝商品信息 一.功能说明: 已实现功能: 通过scrapy接入selenium获取淘宝关键字搜索内容下的商品信息. 待扩展功能: 爬取商品中的全部其他商品信息. 二. ...
- python淘宝爬虫_python爬虫爬取淘宝商品信息
本文实例为大家分享了python爬取淘宝商品的具体代码,供大家参考,具体内容如下 import requests as req import re def getHTMLText(url): try: ...
- 利用Selenium爬取淘宝商品信息
文章来源:公众号-智能化IT系统. 一. Selenium和PhantomJS介绍 Selenium是一个用于Web应用程序测试的工具,Selenium直接运行在浏览器中,就像真正的用户在操作一样. ...
- 爬取淘宝商品信息selenium+pyquery+mongodb
''' 爬取淘宝商品信息,通过selenium获得渲染后的源码,pyquery解析,mongodb存储 '''from selenium import webdriver from selenium. ...
最新文章
- Method threw 'java.lang.StackOverflowError' exception. Cannot evaluate 问题
- 用7*7的卷积核分类9*9的图片到底应该用几个卷积核?55个
- fsetpos() fgetpos()详解
- 微型计算机系统中的内部寄存,微机原理与接口技术习题集汇总.doc
- 回归模型的score得分为负_逻辑回归评分卡实现和评估
- 陈国良院士将出席“首届对象存储技术与应用大会”
- 基于机器学习的源代码分类
- 小众却非常好用的文件同步备份工具-FileYee
- web逻辑思维题目_学编程必看:10道逻辑思维测试题(附答案)
- Java5的倍数_关于java:将数字四舍五入到最接近的5的倍数
- HTML学习之制作导航网页
- win10系统快速进入bios的设置方法
- 蒲公英服务器搭建小程序,uniapp 小程序打包发布
- C/C++基础讲解(二十六)之数值计算与趣味数学篇(打鱼还是晒网与怎样存钱以获取最大利息)
- 【Golang第8章:面向对象编程】Go语言的结构体是什么,怎么声明;Golang方法的调用和声明;go语言面向对象实例,go语言工厂模式;golang面向对象的三大特性:继承、封装、多态
- 线性回归原理及实现(一):最小二乘法
- LateX安装教程(对小白新手超级友好,还瞅啥,说的就是你)
- 《Care Bears 爱心熊》人物化身来到 The Sandbox 元宇宙!
- Cryptology Unlocked
- Ceres Solver 官方教程学习笔记(十二)——非线性最小二乘法建模Modeling Non-linear Least Squares (下)
热门文章
- 2019年教育学会议
- python turtle库绘画_利用turtle库来画画
- 【Graylog】比较常用的pipeline规则
- 移动APP开发的三种技术对比
- 如何保证API接口安全
- 如何利用chatgpt做选品分析?
- 工业4.0让德国制造业两年受损500亿?中国应怎样学习前车之鉴
- tpm2-tools源码分析之tpm2_createprimary.c(2)
- error: LNK2019与error: LNK1120可能的原因及解决方法
- 文件流中读行的正确使用(fgets、feof、ferror)