爬取淘宝商品名称及价格
问题:使用request库和re库爬取淘宝网某种商品信息,并打印出其名称和价格
分析:
1.确定淘宝网搜索商品网址及robots协议
2.分析实现步骤:
A:使用request库爬取信息
B:使用re库查找信息-findall()函数
C:打印
3.明确实现难点:分页
在确定淘宝网搜索商品网址为:https://s.taobao.com/search?q=?后,通过手动翻页分析url,得知淘宝实现翻页功能是在url后增加id,每页展示固定商品数。
代码:
import requests
import re
import timedef getText(url):try:headers = {'user-agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.117 Safari/537.36'}r = requests.get(url, headers = headers, timeout = 30)time.sleep(1.5)r.raise_for_status()r.encoding = r.apparent_encodingreturn r.textexcept:return 'Failed!'def parserPage(ilt, html):try:plt = re.findall(r'\"view_price\"\:\"[\d\.]*\"', html)glt = re.findall(r'\"raw_title\"\:\".*?\"', html)for i in range(len(plt)):price = eval(plt[i].split(':')[1])goods_name = eval(glt[i].split(':')[1])ilt.append([price, goods_name])except:print('')def printGoodslist(ilt):tplt = "{:<4}{:<8}{:>20}"print(tplt.format('序号','价格','商品名称'))count = 0for g in ilt:count += 1print(tplt.format(count, g[0], g[1]))def main():goods = '书包'depth = 10start_url = 'https://s.taobao.com/search?q=' + goodsinfolist = []for i in range(depth):try:url = start_url + '&s='+str( 44 * i)html = getText(url)parserPage(infolist, html)except:continueprintGoodslist(infolist)
main()
由于淘宝网robots协议禁止爬取根目录下任何信息,而本人操作仅为技术实现,并非恶意访问,因此在实现过程中,使用headers参数伪造user-agent信息,并使用time.sleep()方法模拟真实用户操作,以免被网站方禁止访问。
在最后main()函数打印中,自定义爬取深度(爬取页面数),使用string的加操作,拼接所有页面url。
re库使用范围非常广,还需要多加熟悉才行。
爬取淘宝商品名称及价格相关推荐
- 定向爬取淘宝商品名称和价格(嵩天老师)
嵩天老师的代码不能爬取现在的淘宝,那是因为现在淘宝的反扒技术升级了 解决方法:我们要将headers中的cookie替换成淘宝的(每个人的cookie值是不同的) 具体方法参考:通过requests库 ...
- Python 爬取淘宝商品的价格并保存到本地excel文件中
刚学Python爬虫没多久,老想着爬点什么.哈哈,刚好前段时间双11,就把淘宝爬了下. 不知道为什么,上次对淘宝进行页面读取不需要cookie就可以获取一些信息.现在需要cookie才能过去.话不多说 ...
- python爬虫学习(三):使用re库爬取淘宝商品,并把结果写进txt文件
第二个例子是使用requests库+re库爬取淘宝搜索商品页面的商品信息 (1)分析网页源码 打开淘宝,输入关键字"python",然后搜索,显示如下搜索结果 从url连接中可以得 ...
- 2021-11-16爬取淘宝商品信息时如何获取cookie
爬取淘宝商品信息时如何获取cookie ###一.基本环境 1.win10系统 2.火狐浏览器 3.编程软件anaconda 4.淘宝的robots:https://www.taobao.com/ro ...
- python爬虫学习 之 定向爬取 淘宝商品价格
python爬虫学习 之 定向爬取 淘宝商品价格 import requests import redef getHTMLText(url):try:r = requests.get(url, tim ...
- 用Python爬取淘宝商品
本文爬取淘宝女装短裙商品,并将商品信息存入mysql中 分析思路 1.页面分析 在淘宝首页搜索"短裙",进入商品列表页面: 分析页面源代码: 通过分析源代码,可发现商品相关的几个关 ...
- python爬取淘宝全部『螺蛳粉』数据,看看你真的了解螺蛳粉吗?
01.前言 上一篇文章(爬取淘宝热卖商品并可视化分析,看看大家都喜欢买什么!)爬取分析了淘宝的热卖商品,从分析来看『螺蛳粉』的销量巨高.因此这篇文章将爬取淘宝全部『螺蛳粉』商品数据,通过可视化分析淘宝 ...
- 关于中国大学mooc嵩天老师课程中定向爬取淘宝产品信息
关于中国大学mooc嵩天老师课程中定向爬取淘宝产品信息 python小白最近看老师课程,发现淘宝网页升级了,用以前的代码爬不了,查找了很多资料后发现了一些缺陷,在此分享给大家 老师的代码大体上没问题, ...
- 无法爬取淘宝商品页面
问题描述:无法爬取淘宝商品页面 案例如下: import requests import redef getHTMLText(url):try: r = requests.get(url,timeou ...
最新文章
- WPF关闭应用程序,释放Window窗口资源方法
- 还在纠结垃圾分类问题?带你用Python感受ImageNet冠军模型SENet的强大
- 月薪40~50K|波波生活信息技术公司招聘高级算法工程师
- 详细设计说明书读后感_专利申请详细步骤是怎样的,要多久时间
- 网络编程学习笔记(gethostbyname2函数与IPv6支持)
- CozyRSS开发记录3-标题栏再加强
- asp.net core 使用Mysql和Dapper
- 无服务器:SLAppForge Sigma入门
- Android kotlin实现底部导航栏
- pygame小游戏代码_Py之pygame:有趣好玩——利用pygame库实现一个移动底座弹球的小游戏...
- 使用Nacos配置中心云端化本地application.properties
- tornadod的异步代码
- 使用 C++11 编写类似 QT 的信号槽——上篇
- python 读取access_python读取数据access出错
- 关注的开源项目-博客搬家工具
- [Linux 基础] -- Linux 之 fstab 文件详解
- Au 音频效果参考:调制
- MATLAB计算几何
- 微信小程序前台开发——实现登录,底部导航栏,顶部导航栏(分类显示)
- @Idempotent注解限制同一时刻的访问间隔