功能描述

目标:获取淘宝搜搜页面的信息,提取其中的商品名称和价格
理解:淘宝的搜索接口&翻页的处理
技术路线:requests&re

“书包”:

变量s代表下一页起始商品的信息

定向爬虫的可能性:查看robots协议

程序的结构设计:
步骤1:提交商品搜索请求,循环获取页面
步骤2:对于每个页面,提取商品名称和价值信息
步骤3:将信息输出到屏幕上


案例总结:
-采用了requests-re路线实现了淘宝商品比价定向爬虫
-熟练掌握正则表达式在信息提取方面的作用

代码:

import requests
import redef getHTMLText(url):try:r=requests.get(url,timeout = 30)r.raise_for_statusr.encoding = r.apparent_encoding  #是否使用,需要判断r.encoding是否能获取文件编码信息return r.textexcept:return ""def parsePage(ilt,html):   #对所得页面进行解析try:plt = re.findall(r'\"view_price\"\:\"[\d\.]*\"',html)tlt = re.findall(r'\"raw_title\"\:\".*?\"',html)   #.*?-最小匹配/匹配的内容是商品本身的名字for i in range(len(plt)):price = eval(plt[i].split(':')[1])  #通过split方法分割:后面的部分只取价格title = eval(tlt[i].split(':')[1])  #eval去掉双引号ilt.append([price,title])   except:print("")def printGoodsList(ilt):   #将淘宝得商品信息输出到屏幕上tplt = "{:4}\t{:8}\t{:16}"  #规定输出格式print(tplt.format("序号","价格","商品名称"))count = 0for g in ilt :count = count +1 print(tplt.format(count,g[0],g[1]))def main():goods = 'packbage'depth = 2start_url = 'https://s.taobao.com/search?q='+goodsinfoList = []for i in range(depth):try:url = start_url + '&s=' +str(44*i)   #每页起始有s=44*ihtml = getHTMLText(url)parsePage(infoList,html)except:continueprintGoodsList(infoList)      #爬取得最终结果保存在infoList列表中
main()

淘宝商品比价定向爬虫实例介绍相关推荐

  1. 网络爬虫与信息提取--正则表达式---淘宝商品比价定向爬虫

    淘宝商品比价定向爬虫 本实例爬取时间2019.9.11 由于淘宝代码的不断完善更新,本爬取代码已经不能爬取出商品信息内容 原因:结果为空:打印html看到,需要登录淘宝 在网上找解决方法,可以复制co ...

  2. Python网络爬虫与信息提取笔记08-实例2:淘宝商品比价定向爬虫

    Python网络爬虫与信息提取笔记01-Requests库入门 Python网络爬虫与信息提取笔记02-网络爬虫之"盗亦有道" Python网络爬虫与信息提取笔记03-Reques ...

  3. python爬虫笔记(六)网络爬虫之实战(1)——淘宝商品比价定向爬虫(解决淘宝爬虫限制:使用cookies)...

    1.  淘宝商品信息定向爬虫 链接: https://www.taobao.com/ 2. 实例编写 2.1 整体框架 # -*- coding: utf-8 -*-import requests i ...

  4. 淘宝商品比价定向爬虫-Python网络爬虫与信息提取-北京理工大学嵩天教授

    功能描述 目标:获取淘宝搜索页面的信息,提取其中的商品名称和价格: 理解:淘宝的搜索接口.翻页的处理: 以课程中的搜索书包为例,对应的url如下: (1)起始页: (2)第二页:最后的s=44: (3 ...

  5. 爬虫(6)—— 淘宝商品比价定向爬虫

    该实例来源于中国大学慕课,视频教学链接如下: 传送门 目标: 获取淘宝搜索页面的额信息,提取其中的商品名称和价格 关键点: 淘宝的搜索接口 翻页的处理 从以上图片中可以看出,搜索接口的形式是: htt ...

  6. 优化淘宝商品比价定向爬虫--爬虫的浏览器伪装

    目录 一. 原代码问题 二.淘宝Robots协议 三.User-Agent 四.查找headers和cookie 五. 完整代码 一. 原代码问题 爬取不到任何内容处理 原因:由于淘宝的设置,虽然可以 ...

  7. 基于python的购物比价毕设_【Python爬虫】淘宝商品比价定向爬虫

    #CrowTaobaoPrice.py importrequestsimportredef getHTMLText(url):#获得网页信息 headers = {'User-Agent': 'Moz ...

  8. 淘宝商品价格定向爬虫

    淘宝商品价格定向爬虫 (1)  目标:获取淘宝搜索页面的信息,提取其中的商品名称和价格 要实现淘宝的搜索接口,翻页的处理.主要采用了Requests, bs4库,re库 (2)程序的结构设计: 步骤1 ...

  9. Python爬虫实例之淘宝商品比价定向爬取!爬虫还是很有意思的!

    这次就模仿之前做的总结进行初次尝试 目标:获取淘宝搜索页面的信息,提取其中的商品名称和价格 理解:获取淘宝的搜索接口淘宝页面的翻页处理 技术路线:requests--re 准备工作 获取淘宝搜索商品的 ...

  10. python爬虫学习笔记(三)——淘宝商品比价实战(爬取成功)

    2020年最新淘宝商品比价定向爬取 功能描述 目标:获取淘宝搜索页面的信息,提取其中的商品名称和价格. 理解:淘宝的搜索接口 翻页的处理 技术路线:requests­          re 程序的结 ...

最新文章

  1. 零基础学习Java培训有什么攻略
  2. 5000 字的 Spring MVC 全面大总结
  3. 输变电设备物联网节点设备无线组网协议_U-Link 物联网(工业互联网)服务平台
  4. 贪吃蛇程序不要白不要,一个赞就够了
  5. Python 脚本如何执行另一个脚本
  6. jQuery 图片滚动 Carousel Lite 使用说明
  7. 在 CentOS 中部署 KMS 服务器(vlmcsd)
  8. 小屏幕android手机,小尺寸、小屏幕的安卓手机有哪些
  9. POWERBUILDER12.6开发实验室管理系统[LIS](一),迈瑞三分类血球仪 BC-20S\BC-30S接收、解析数据
  10. 感谢我的python老师
  11. 寒武纪MLU270 平台 CNStream 学习记录
  12. flex effect
  13. 利用计算机名称共享打印机步骤,如何连接其他电脑共享的打印机(图文教程)...
  14. 基本概念学习(十)---系统
  15. 【PIL案例精讲】252行Python代码制作透明背景的电子印章
  16. 考研复试—软件工程(一)
  17. 国外lead教程---EMU之SSN用不用
  18. Java面试必备240个知识点
  19. 这些低调、不耍流氓优的质软件!网友直呼:个个都是良心之作
  20. Lammps 源代码解析

热门文章

  1. 键盘的空格键都有什么用处
  2. 你要如何衡量你的人生?
  3. C++-OpenCV(1)-连通区域
  4. NYOJ----366D的小L
  5. 高考0分作文精选--秋细雨PK叶闲花
  6. 【皇室战争】使用Clash Royale API,构建你的皇室应用
  7. windows上用virtualbox运行mac虚拟机时怎样使用usb
  8. 解决 button 的背景图片被拉伸
  9. “茄汁Ketchup”一词从汉语到英语的文化旅游
  10. 数论:快速傅里叶变换FFT题集