爬取淘宝商品名称及价格

问题：使用request库和re库爬取淘宝网某种商品信息，并打印出其名称和价格
分析：
1.确定淘宝网搜索商品网址及robots协议
2.分析实现步骤：
A：使用request库爬取信息
B：使用re库查找信息-findall()函数
C：打印
3.明确实现难点：分页
在确定淘宝网搜索商品网址为：https://s.taobao.com/search?q=?后，通过手动翻页分析url，得知淘宝实现翻页功能是在url后增加id，每页展示固定商品数。
代码：

import requests
import re
import timedef getText(url):try:headers = {'user-agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.117 Safari/537.36'}r = requests.get(url, headers = headers, timeout = 30)time.sleep(1.5)r.raise_for_status()r.encoding = r.apparent_encodingreturn  r.textexcept:return 'Failed!'def parserPage(ilt, html):try:plt = re.findall(r'\"view_price\"\:\"[\d\.]*\"', html)glt = re.findall(r'\"raw_title\"\:\".*?\"', html)for i in range(len(plt)):price = eval(plt[i].split(':')[1])goods_name = eval(glt[i].split(':')[1])ilt.append([price, goods_name])except:print('')def printGoodslist(ilt):tplt = "{:<4}{:<8}{:>20}"print(tplt.format('序号','价格','商品名称'))count = 0for g in ilt:count += 1print(tplt.format(count, g[0], g[1]))def main():goods = '书包'depth = 10start_url = 'https://s.taobao.com/search?q=' + goodsinfolist = []for i in range(depth):try:url = start_url + '&s='+str( 44 * i)html = getText(url)parserPage(infolist, html)except:continueprintGoodslist(infolist)
main()

由于淘宝网robots协议禁止爬取根目录下任何信息，而本人操作仅为技术实现，并非恶意访问，因此在实现过程中，使用headers参数伪造user-agent信息，并使用time.sleep()方法模拟真实用户操作，以免被网站方禁止访问。
在最后main()函数打印中，自定义爬取深度（爬取页面数），使用string的加操作，拼接所有页面url。
re库使用范围非常广，还需要多加熟悉才行。

爬取淘宝商品名称及价格相关推荐

定向爬取淘宝商品名称和价格（嵩天老师）
嵩天老师的代码不能爬取现在的淘宝,那是因为现在淘宝的反扒技术升级了解决方法:我们要将headers中的cookie替换成淘宝的(每个人的cookie值是不同的) 具体方法参考:通过requests库 ...
Python 爬取淘宝商品的价格并保存到本地excel文件中
刚学Python爬虫没多久,老想着爬点什么.哈哈,刚好前段时间双11,就把淘宝爬了下. 不知道为什么,上次对淘宝进行页面读取不需要cookie就可以获取一些信息.现在需要cookie才能过去.话不多说 ...
python爬虫学习(三)：使用re库爬取淘宝商品，并把结果写进txt文件
第二个例子是使用requests库+re库爬取淘宝搜索商品页面的商品信息 (1)分析网页源码打开淘宝,输入关键字"python",然后搜索,显示如下搜索结果从url连接中可以得 ...
2021-11-16爬取淘宝商品信息时如何获取cookie
爬取淘宝商品信息时如何获取cookie ###一.基本环境 1.win10系统 2.火狐浏览器 3.编程软件anaconda 4.淘宝的robots:https://www.taobao.com/ro ...
python爬虫学习之定向爬取淘宝商品价格
python爬虫学习之定向爬取淘宝商品价格 import requests import redef getHTMLText(url):try:r = requests.get(url, tim ...
用Python爬取淘宝商品
本文爬取淘宝女装短裙商品,并将商品信息存入mysql中分析思路 1.页面分析在淘宝首页搜索"短裙",进入商品列表页面: 分析页面源代码: 通过分析源代码,可发现商品相关的几个关 ...
python爬取淘宝全部『螺蛳粉』数据，看看你真的了解螺蛳粉吗？
01.前言上一篇文章(爬取淘宝热卖商品并可视化分析,看看大家都喜欢买什么!)爬取分析了淘宝的热卖商品,从分析来看『螺蛳粉』的销量巨高.因此这篇文章将爬取淘宝全部『螺蛳粉』商品数据,通过可视化分析淘宝 ...
关于中国大学mooc嵩天老师课程中定向爬取淘宝产品信息
关于中国大学mooc嵩天老师课程中定向爬取淘宝产品信息 python小白最近看老师课程,发现淘宝网页升级了,用以前的代码爬不了,查找了很多资料后发现了一些缺陷,在此分享给大家老师的代码大体上没问题, ...
无法爬取淘宝商品页面
问题描述:无法爬取淘宝商品页面案例如下: import requests import redef getHTMLText(url):try: r = requests.get(url,timeou ...

爬取淘宝商品名称及价格

爬取淘宝商品名称及价格相关推荐

最新文章

热门文章