问题:使用request库和re库爬取淘宝网某种商品信息,并打印出其名称和价格
分析:
1.确定淘宝网搜索商品网址及robots协议
2.分析实现步骤:
A:使用request库爬取信息
B:使用re库查找信息-findall()函数
C:打印
3.明确实现难点:分页
在确定淘宝网搜索商品网址为:https://s.taobao.com/search?q=?后,通过手动翻页分析url,得知淘宝实现翻页功能是在url后增加id,每页展示固定商品数。
代码:

import requests
import re
import timedef getText(url):try:headers = {'user-agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.117 Safari/537.36'}r = requests.get(url, headers = headers, timeout = 30)time.sleep(1.5)r.raise_for_status()r.encoding = r.apparent_encodingreturn  r.textexcept:return 'Failed!'def parserPage(ilt, html):try:plt = re.findall(r'\"view_price\"\:\"[\d\.]*\"', html)glt = re.findall(r'\"raw_title\"\:\".*?\"', html)for i in range(len(plt)):price = eval(plt[i].split(':')[1])goods_name = eval(glt[i].split(':')[1])ilt.append([price, goods_name])except:print('')def printGoodslist(ilt):tplt = "{:<4}{:<8}{:>20}"print(tplt.format('序号','价格','商品名称'))count = 0for g in ilt:count += 1print(tplt.format(count, g[0], g[1]))def main():goods = '书包'depth = 10start_url = 'https://s.taobao.com/search?q=' + goodsinfolist = []for i in range(depth):try:url = start_url + '&s='+str( 44 * i)html = getText(url)parserPage(infolist, html)except:continueprintGoodslist(infolist)
main()

由于淘宝网robots协议禁止爬取根目录下任何信息,而本人操作仅为技术实现,并非恶意访问,因此在实现过程中,使用headers参数伪造user-agent信息,并使用time.sleep()方法模拟真实用户操作,以免被网站方禁止访问。
在最后main()函数打印中,自定义爬取深度(爬取页面数),使用string的加操作,拼接所有页面url。
re库使用范围非常广,还需要多加熟悉才行。

爬取淘宝商品名称及价格相关推荐

  1. 定向爬取淘宝商品名称和价格(嵩天老师)

    嵩天老师的代码不能爬取现在的淘宝,那是因为现在淘宝的反扒技术升级了 解决方法:我们要将headers中的cookie替换成淘宝的(每个人的cookie值是不同的) 具体方法参考:通过requests库 ...

  2. Python 爬取淘宝商品的价格并保存到本地excel文件中

    刚学Python爬虫没多久,老想着爬点什么.哈哈,刚好前段时间双11,就把淘宝爬了下. 不知道为什么,上次对淘宝进行页面读取不需要cookie就可以获取一些信息.现在需要cookie才能过去.话不多说 ...

  3. python爬虫学习(三):使用re库爬取淘宝商品,并把结果写进txt文件

    第二个例子是使用requests库+re库爬取淘宝搜索商品页面的商品信息 (1)分析网页源码 打开淘宝,输入关键字"python",然后搜索,显示如下搜索结果 从url连接中可以得 ...

  4. 2021-11-16爬取淘宝商品信息时如何获取cookie

    爬取淘宝商品信息时如何获取cookie ###一.基本环境 1.win10系统 2.火狐浏览器 3.编程软件anaconda 4.淘宝的robots:https://www.taobao.com/ro ...

  5. python爬虫学习 之 定向爬取 淘宝商品价格

    python爬虫学习 之 定向爬取 淘宝商品价格 import requests import redef getHTMLText(url):try:r = requests.get(url, tim ...

  6. 用Python爬取淘宝商品

    本文爬取淘宝女装短裙商品,并将商品信息存入mysql中 分析思路 1.页面分析 在淘宝首页搜索"短裙",进入商品列表页面: 分析页面源代码: 通过分析源代码,可发现商品相关的几个关 ...

  7. python爬取淘宝全部『螺蛳粉』数据,看看你真的了解螺蛳粉吗?

    01.前言 上一篇文章(爬取淘宝热卖商品并可视化分析,看看大家都喜欢买什么!)爬取分析了淘宝的热卖商品,从分析来看『螺蛳粉』的销量巨高.因此这篇文章将爬取淘宝全部『螺蛳粉』商品数据,通过可视化分析淘宝 ...

  8. 关于中国大学mooc嵩天老师课程中定向爬取淘宝产品信息

    关于中国大学mooc嵩天老师课程中定向爬取淘宝产品信息 python小白最近看老师课程,发现淘宝网页升级了,用以前的代码爬不了,查找了很多资料后发现了一些缺陷,在此分享给大家 老师的代码大体上没问题, ...

  9. 无法爬取淘宝商品页面

    问题描述:无法爬取淘宝商品页面 案例如下: import requests import redef getHTMLText(url):try: r = requests.get(url,timeou ...

最新文章

  1. WPF关闭应用程序,释放Window窗口资源方法
  2. 还在纠结垃圾分类问题?带你用Python感受ImageNet冠军模型SENet的强大
  3. 月薪40~50K|波波生活信息技术公司招聘高级算法工程师
  4. 详细设计说明书读后感_专利申请详细步骤是怎样的,要多久时间
  5. 网络编程学习笔记(gethostbyname2函数与IPv6支持)
  6. CozyRSS开发记录3-标题栏再加强
  7. asp.net core 使用Mysql和Dapper
  8. 无服务器:SLAppForge Sigma入门
  9. Android kotlin实现底部导航栏
  10. pygame小游戏代码_Py之pygame:有趣好玩——利用pygame库实现一个移动底座弹球的小游戏...
  11. 使用Nacos配置中心云端化本地application.properties
  12. tornadod的异步代码
  13. 使用 C++11 编写类似 QT 的信号槽——上篇
  14. python 读取access_python读取数据access出错
  15. 关注的开源项目-博客搬家工具
  16. [Linux 基础] -- Linux 之 fstab 文件详解
  17. Au 音频效果参考:调制
  18. MATLAB计算几何
  19. 微信小程序前台开发——实现登录,底部导航栏,顶部导航栏(分类显示)
  20. @Idempotent注解限制同一时刻的访问间隔

热门文章

  1. Windows 7/XP
  2. 【答学员问】培训班毕业的linux运维的女生,如何找到运维工作?
  3. 数据分析和数据可视化网站资源
  4. RANSAC及图像拼接上的应用
  5. 联想收购诺基亚?玩笑而已别太当真
  6. 生财有术第六期开放:何以解忧,唯有实战
  7. EtherCAT是如何工作的
  8. unity学习路线参考——转载自csdn
  9. C++语言程序设计第五版 - 郑莉(第七章课后习题)
  10. 转载Python正则表达式匹配反斜杠'\'问题(——字符串转义与正则转义)