用Python爬取淘宝商品

本文爬取淘宝女装短裙商品，并将商品信息存入mysql中

分析思路

1.页面分析
在淘宝首页搜索“短裙”，进入商品列表页面：

分析页面源代码:

通过分析源代码，可发现商品相关的几个关键信息：商品图片地址、商品名、价格、邮费、付款人数、店铺名、店铺所在地、评论数等，通过正则表达式可匹配出来：

#商品图片
img_pat='"pic_url":"(//.*?)"'
#商品名
name_pat='"raw_title":"(.*?)"'
#店铺名
nick_pat='"nick":"(.*?)"'
#价格
price_pat='"view_price":"(.*?)"'
#邮费
fee_pat='"view_fee":"(.*?)"'
#付款人数
sales_pat='"view_sales":"(.*?)"'
#评论数
comment_pat='"comment_count":"(.*?)"'
#店铺所在地
city_pat='"item_loc":"(.*?)"'
#商品链接
detail_url_pat='detail_url":"(.*?)"'

2.分析商品列表页面url

第2页：
https://s.taobao.com/search?q=%E7%9F%AD%E8%A3%99&imgfile=&commend=all&ssid=s5-e&search_type=item&sourceId=tb.index&spm=a21bo.50862.201856-taobao-item.1&ie=utf8&initiative_id=tbindexz_20170706&bcoffset=4&ntoffset=4&p4ppushleft=1%2C48&s=44

第3页：
https://s.taobao.com/search?q=%E7%9F%AD%E8%A3%99&imgfile=&commend=all&ssid=s5-e&search_type=item&sourceId=tb.index&spm=a21bo.50862.201856-taobao-item.1&ie=utf8&initiative_id=tbindexz_20170706&bcoffset=4&ntoffset=4&p4ppushleft=1%2C48&s=88

第4页：
https://s.taobao.com/search?q=%E7%9F%AD%E8%A3%99&imgfile=&commend=all&ssid=s5-e&search_type=item&sourceId=tb.index&spm=a21bo.50862.201856-taobao-item.1&ie=utf8&initiative_id=tbindexz_20170706&bcoffset=4&ntoffset=4&p4ppushleft=1%2C48&s=132

不同页url中最后一位参数s为44的倍数，通过测试可发现参数&initiative_id=tbindexz_20170706可以去掉，因此可得到第N页的页面地址为：

url="https://s.taobao.com/search?q="+keywords+"&imgfile=&commend=all&ssid=s5-e&search_type=item&sourceId=tb.index&spm=a21bo.50862.201856-taobao-item.1&ie=utf8&bcoffset=4&ntoffset=4&p4ppushleft=1%2C48&s="+str((N-1)*44)

完整代码

#爬取taobao商品
import urllib.request
import pymysql
import re#打开网页，获取网页内容
def url_open(url):headers=("user-agent","Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.22 Safari/537.36 SE 2.X MetaSr 1.0")opener=urllib.request.build_opener()opener.addheaders=[headers]urllib.request.install_opener(opener)data=urllib.request.urlopen(url).read().decode("utf-8","ignore")return data#将数据存入mysql中
def data_Import(sql):conn=pymysql.connect(host='127.0.0.1',user='test',password='123456',db='python',charset='utf8')conn.query(sql)conn.commit()conn.close()if __name__=='__main__':try:#定义要查询的商品关键词keywd="短裙"keywords=urllib.request.quote(keywd)#定义要爬取的页数num=100for i in range(num):url="https://s.taobao.com/search?q="+keywords+"&imgfile=&commend=all&ssid=s5-e&search_type=item&sourceId=tb.index&spm=a21bo.50862.201856-taobao-item.1&ie=utf8&bcoffset=4&ntoffset=4&p4ppushleft=1%2C48&s="+str(i*44)data=url_open(url)#定义各个字段正则匹配规则img_pat='"pic_url":"(//.*?)"'name_pat='"raw_title":"(.*?)"'nick_pat='"nick":"(.*?)"'price_pat='"view_price":"(.*?)"'fee_pat='"view_fee":"(.*?)"'sales_pat='"view_sales":"(.*?)"'comment_pat='"comment_count":"(.*?)"'city_pat='"item_loc":"(.*?)"'detail_url_pat='detail_url":"(.*?)"'#查找满足匹配规则的内容，并存在列表中imgL=re.compile(img_pat).findall(data)nameL=re.compile(name_pat).findall(data)nickL=re.compile(nick_pat).findall(data)priceL=re.compile(price_pat).findall(data)feeL=re.compile(fee_pat).findall(data)salesL=re.compile(sales_pat).findall(data)commentL=re.compile(comment_pat).findall(data)cityL=re.compile(city_pat).findall(data)detail_urlL=re.compile(detail_url_pat).findall(data)for j in range(len(imgL)):img="http:"+imgL[j]#商品图片链接name=nameL[j]#商品名称nick=nickL[j]#淘宝店铺名称price=priceL[j]#商品价格fee=feeL[j]#运费sales=salesL[j]#商品付款人数detail_url=detail_urlL[j]#商品链接comment=commentL[j]#商品评论数，会存在为空值的情况if(comment==""):comment=0city=cityL[j]#店铺所在城市print('正在爬取第'+str(i)+"页，第"+str(j)+"个商品信息...")sql="insert into taobao(name,price,fee,sales,comment,city,nick,img,detail_url) values('%s','%s','%s','%s','%s','%s','%s','%s','%s')" %(name,price,fee,sales,comment,city,nick,img,detail_url)data_Import(sql)print("爬取完成，且数据已存入数据库")except Exception as e:print(str(e))print("任务完成")

爬取过程

爬取结果

用Python爬取淘宝商品相关推荐

python爬取淘宝商品图片
python爬取淘宝商品的图片话不多说,直接上代码: from selenium import webdriver from selenium.webdriver.common import key ...
python爬取淘宝商品做数据挖掘
作业要求:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/3159 项目内容: 本项目选择淘宝商品类目:零食数量:一共100页,44 ...
Python爬取淘宝商品信息保存到Excel
前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. PS:如有需要Python学习资料的小伙伴可以加点击下方链接自行获取 python免费学习资 ...
python电商数据挖掘_利用Python爬取淘宝商品并数据挖掘与分析实战！此乃大型项目！...
项目内容本案例选择>> 商品类目:沙发: 数量:共100页 4400个商品: 筛选条件:天猫.销量从高到低.价格500元以上. 项目目的 1. 对商品标题进行文本分析词云可视化 2. ...
使用python爬取淘宝商品信息
使用python爬虫爬取淘宝商品信息使用的模块主要有 selenium ,time , re, from selenium import webdriver import time import c ...
python爬取淘宝商品信息_python爬取淘宝商品信息并加入购物车
先说一下最终要达到的效果:谷歌浏览器登陆淘宝后,运行python项目,将任意任意淘宝商品的链接传入,并手动选择商品属性,输出其价格与剩余库存,然后选择购买数,自动加入购物车. 在开始爬取淘宝链接之前, ...
python爬取淘宝商品信息并加入购物车
先说一下最终要达到的效果:谷歌浏览器登陆淘宝后,运行python项目,将任意任意淘宝商品的链接传入,并手动选择商品属性,输出其价格与剩余库存,然后选择购买数,自动加入购物车. 在开始爬取淘宝链接之前, ...
Python爬取淘宝商品详情页数据
在讲爬取淘宝详情页数据之前,先来介绍一款 Chrome 插件:Toggle JavaScript (它可以选择让网页是否显示 js 动态加载的内容),如下图所示: 当这个插件处于关闭状态时,待爬取 ...
Python爬取淘宝商品的销量
运行程序,输入想要爬取的商品关键词,在代码中的'###'可以进一步约束商品的属性,比如某某作者的书籍,可以在###处输入作者名字,以及时期等等.最后可以得到所要商品的总销量本人博客:专属博客,欢迎浏 ...

用Python爬取淘宝商品

本文爬取淘宝女装短裙商品，并将商品信息存入mysql中

用Python爬取淘宝商品相关推荐

最新文章

热门文章