说明

Scrapy爬虫案例-淘宝比价定向爬虫学习笔记

学习教程:Python网络爬虫与信息提取
授课老师:嵩天
官方网站:https://python123.io
教程链接:https://python123.io/index/courses/804

“淘宝比价定向爬虫”实例

功能描述

目标:获取淘宝搜索页面的信息,提取其中的商品名称和价格

理解:

  • 淘宝的搜索接口
  • 翻页的处理
  • 技术路线:requests‐bs4‐re

关键词:“蕾丝裙”

https://s.taobao.com/search?q=%E8%95%BE%E4%B8%9D%E8%A3%99&js=1&stats_click=search_radio_all%3A1&initiative_id=staobaoz_20170105&ie=utf8&bcoffset=0&ntoffset=6&p4ppushleft=1%2C48&s=1
https://s.taobao.com/search?q=%E8%95%BE%E4%B8%9D%E8%A3%99&js=1&stats_click=search_radio_all%3A1&initiative_id=staobaoz_20170105&ie=utf8&bcoffset=0&ntoffset=6&p4ppushleft=1%2C48&s=44
https://s.taobao.com/search?q=%E8%95%BE%E4%B8%9D%E8%A3%99&js=1&stats_click=search_radio_all%3A1&initiative_id=staobaoz_20170105&ie=utf8&bcoffset=0&ntoffset=6&p4ppushleft=1%2C48&s=88

每页44个商品

搜索接口和翻页的URL对应属性

定向爬虫的可行性

https://s.taobao.com/robots.txt
User‐agent: *
Disallow: /

请注意:这个例子仅探讨技术实现,请不要不加限制的爬取该网站

程序的结构设计

步骤1:提交商品搜索请求,循环获取页面

步骤2:对于每个页面,提取商品名称和价格信息

步骤3:将信息保存到txt

实例编写

#!/usr/bin/env python
# coding=utf-8
"""
项目描述:获取淘宝搜索页面的信息,提取其中的商品名称和价格
运行环境:win7 64 + python3.7
三方库:fake_useragent代码详解:https://yangyang188.coding.me/
文件: TaobaoSpider.py
创建时间:2019/8/11 9:21
创建者:yangyang
博客: yangyang188.coding.me
"""import requests
import re
from fake_useragent import UserAgent
# 设置随机ua
ua = UserAgent()
headers = {'User-Agent': ua.random,'cookie': '***'}def getHTMLText(url):try:r = requests.get(url, timeout=30, headers=headers)r.raise_for_status()r.encoding = r.apparent_encodingreturn r.textexcept BaseException:return ""def parsePage(ilt, html):try:plt = re.findall(r'\"view_price\"\:\"[\d\.]*\"', html)tlt = re.findall(r'\"raw_title\"\:\".*?\"', html)for i in range(len(plt)):# eval去除最外层的""price = eval(plt[i].split(':')[1])title = eval(tlt[i].split(':')[1])ilt.append([price, title])except BaseException:print("异常")def printGoodsList(ilt):with open('淘宝.txt', 'w', encoding='utf-8') as f:tplt = "{:4}\t{:8}\t{:16}\n"f.write(tplt.format("序号", "价格", "商品名称"))count = 0for g in ilt:count = count + 1f.write(tplt.format(count, g[0], g[1]))# tplt = "{:4}\t{:8}\t{:16}"# print(tplt.format("序号", "价格", "商品名称"))# count = 0# for g in ilt:#     count = count + 1#     print(tplt.format(count, g[0], g[1]))def main():goods = '蕾丝裙'depth = 2start_url = 'https://s.taobao.com/search?q=' + goodsinfoList = []for i in range(depth):try:url = start_url + '&s=' + str(44 * i)html = getHTMLText(url)parsePage(infoList, html)except BaseException:continueprintGoodsList(infoList)if __name__ == '__main__':main()

结果

序号   价格          商品名称            1   99.00       中长款黑色蕾丝裙鱼尾包臀裙半身裙女秋季2    128.00      裙子女夏季2019新款水溶蕾丝半身裙a字裙鱼尾裙中长款高腰包臀裙3   94.00       凯莉欧原创2019夏季新款绣花网纱拼接蕾丝木耳花边连衣裙女4  299.50      ONLY2019秋季新款chic气质蕾丝修身收腰百褶连衣裙女|1191076505   349.50      ONLY2019秋季新款名媛气质蕾丝中长款连衣裙收腰显瘦女|1192075826    199.00      茵曼旗舰店小清新裙子夏连衣裙女裙2019新款女装蕾丝复古收腰长裙7   382.70      罗衣短袖连衣裙女2019夏装新款优雅蕾丝修身包臀雾蓝色裙子000798 385.70      罗衣原创蕾丝连衣裙2019春夏新款气质雾蓝色修身淑女中长裙子71089 259.00      茵曼旗舰店长裙女连衣裙长款2019夏装新款纯棉复古蕾丝很仙的裙子10  399.00      Vero Moda2019春季新款ins风蕾丝七分袖印花连衣裙|31917C54911 499.00      智熏裙法式桔梗裙2019新款夏装新款很仙的蕾丝网纱法国小众连衣裙12  188.00      2019流行裙子新款夏女韩版显瘦遮肚蕾丝连衣裙仙女超仙甜美小黑裙13  388.00      蕾丝连衣裙女2019夏新款法国小众气质显瘦中长款无袖打底背心裙子14  185.00      法国小众很仙的小个子蕾丝连衣裙2019新款夏甜美裙子仙女超仙森系15  388.00      2019夏装新款流行裙子夏很仙的法国小众蕾丝连衣裙女中长款仙女裙16  799.00      Vero Moda2019秋季新款蕾丝面料五分袖V领连衣裙|31936Z51317   389.00      网纱蕾丝裙子2019气质宽松小个子娃娃款刺绣超仙女白色连衣裙18    399.00      ZARA  2019新款 女装 珠宝纽扣饰蕾丝连衣裙0478606125119 398.00      SitiV领智熏法式蕾丝连衣裙七分袖修身小众A字中长气质高端复古夏20 339.00      伊芙丽鱼尾裙女裙子2019秋装新款A字裙中长款蕾丝裙黑色半身裙女21  398.00      秋水伊人法式蕾丝连衣裙2019新款夏装女eggsshop丧系裙子森系超仙22  757.00      JUZUI/玖姿官方旗舰店2019夏季新款气质蕾丝拼接时尚中长连衣裙女23   1893.00     sandro2019春夏新款女装蕾丝镂空凸花中长连衣裙R20656E24    1430.00     sandro2019春夏新款女装浪漫蕾丝连衣裙R20680E25    148.00      纯棉连衣裙女流行夏装2019新款妈妈纯棉蕾丝短袖休闲气质显瘦裙子26  782.00      JUZUI/玖姿官方旗舰店女装2019夏季新款短袖蕾丝印花中长连衣裙女27   988.00      DAZZLE地素 2019夏装新款纯色镂空装饰水溶蕾丝半身裙女2G2S2347B28  169.00      黑色半身裙女2019夏新款a字裙子中长款高腰网纱百褶学生蛋糕裙秋29  1399.00     商场同款DOUBLOVE贝爱2019春夏新款蕾丝连衣裙星星刺绣通透雅致30   1098.00     真丝连衣裙2019新款夏季女桑蚕丝高端时尚奢华大牌蕾丝白色裙子31   1086.00     SNIDEL2019春夏新品 甜美蕾丝钩花镂空鱼尾包中长半裙SWFS19113732  169.00      蕾丝连衣裙性感一字肩仙女超仙甜美沙滩裙子2019流行夏天海边度假33  1128.00     朗姿 裙子女2019夏装新款A字裙高腰修身V领条纹短袖蕾丝连衣裙女34 428.00      三彩2019夏季新款蕾丝雪纺连衣裙短袖假两件仙女流行蛋糕长裙子女35  1518.00     DAZZLE地素 秋装新款性感花纹收绳斜襟蕾丝连衣裙女2F3O4067T36  1428.00     YINER音儿女装2019夏季新款薄款蕾丝花边拼接喇叭袖收腰连衣裙37 218.00      阔太太连衣裙两件套2019新款夏季蕾丝披肩中长款显瘦气质过膝裙子38  339.90      阿卡雪纺连衣裙女2019夏新款蕾丝流行裙子收腰显瘦超仙甜美仙女裙39  685.00      【商场同款】太平鸟女装2019夏装新黑色蕾丝收腰连衣裙 A5FA9235040 79.00       白色蕾丝半身裙女夏一步裙新款高腰显瘦中长款包臀a字半身长裙子41    830.00      SNIDEL2019春夏新品复古宫廷风荷叶边蕾丝全棉连衣裙SWFO19103842   499.00      Five Plus2019新款女夏装蕾丝连衣裙短袖V领荷叶边长裙子高腰镂空43 764.00      ochirly 欧时力2019新款夏装带蕾丝连衣裙女1ZH208416044  1590.00     dzzit地素 2019秋专柜新款淑女千层蕾丝绣花连衣裙女3G3O50645  1345.00     Miss Sixty2019新款秋季设计感荷叶边修身蕾丝很仙的连衣裙女46   708.00      YINER音儿女装2019夏季新款纯色时尚蕾丝花边拼接包臀鱼尾半身裙47    199.00      诗凡黎很仙的纱裙女蕾丝2019新款中长款高腰雪纺a字裙女半身裙48   1396.00     影儿诗篇女装2019秋季新款撞色丝绒织带钉珠蕾丝网纱连衣裙49 389.00      网纱蕾丝裙子2019气质宽松小个子娃娃款刺绣超仙女白色连衣裙50    528.00      2019夏季新款女装大牌欧美时尚黑色蕾丝裙子长款真丝桑蚕丝连衣裙51  299.00      ONLY2019秋季新款领口系带气质名媛蕾丝修身连衣裙女|11916153052    399.00      IVENI/依维妮2019新款洋气蕾丝网纱长款过膝堆堆蛋糕裙连衣裙女潮53   399.50      ONLY2019秋季新款气质一字肩蕾丝百褶收腰连衣裙女|11916151154 1968.00     影儿YINER音儿女装2019秋季新款蕾丝拼接两件套连衣裙8C6930563655   499.50      Vero Moda2019夏季新款宴会礼服丝滑里衬收腰蕾丝连衣裙31927B56856 299.50      ONLY2019秋季新款桔梗领口气质蕾丝套装雪纺连衣裙女|11910760957    559.00      Five Plus2019新款女夏装蕾丝连衣裙女高腰蝴蝶结短裙子荷叶花边58  1728.00     YINER音儿女装2019秋新款优雅蕾丝花边拼接花朵装饰旗袍连衣裙59 499.00      智熏裙法式桔梗裙2019新款夏装新款很仙的蕾丝网纱法国小众连衣裙60  299.50      ONLY2019秋季新款chic气质蕾丝修身收腰百褶连衣裙女|11910765061  1277.00     JUZUI/玖姿官方旗舰店2019夏季新款蕾丝拼接收腰显瘦中长连衣裙女62   259.00      ZARA 新款 女装 凸纹蕾丝短连衣裙 0438722380063   299.00      ZARA新款 女装 凸纹蕾丝装饰小打褶连衣裙 0559822694264    299.90      蕾丝拼接连衣裙女夏装2019新款很仙的法国小众裙子女复古雪纺裙65   668.00      DAZZLE 地素 夏装新款 蕾丝镂空刺绣花高腰吊带连衣裙薄 2A2O33166    148.00      纯棉连衣裙女流行夏装2019新款妈妈纯棉蕾丝短袖休闲气质显瘦裙子67  179.90      乐町浪漫中长款裙子2019夏季新款蕾丝显瘦ins超火的半身a字纱裙女68    2153.00     sandro2019春夏新款女装 撞色蕾丝领连衣裙 R20499E69 558.00      欧洲站明星同款女装2019新款时尚气质小香风修身白色蕾丝连衣裙夏70  268.00      潘南奎 隐秘型性感 设计感蕾丝不规则连衣裙女无袖收腰气质小黑裙71   649.00      ONLY2019秋季新款仙女蕾丝网纱收腰连衣裙女|11930752872    1430.00     sandro2019春夏新款女装浪漫蕾丝连衣裙R20680E73    1368.00     YINER音儿女装2019夏季新款圆点娃娃领镂空蕾丝收腰连衣裙74   188.00      2019流行裙子新款夏女韩版显瘦遮肚蕾丝连衣裙仙女超仙甜美小黑裙75  149.00      欧洲站2019夏装新款宽松显瘦时尚蕾丝拼接连衣裙女胖mm鱼尾裙子潮76 298.00      初恋女长裙微胖显瘦2019夏装喇叭袖蕾丝拼接印花雪纺大码mm连衣裙77 79.00       白色蕾丝半身裙女夏一步裙新款高腰显瘦中长款包臀a字半身长裙子78    1488.00     YINER音儿女装2019秋季新款衬衫领纽扣拼接钩花镂空蕾丝连衣裙79 649.00      ONLY2019秋季新款仙女透视蕾丝松紧收腰网纱连衣裙女|11920757880    218.00      两件套连衣裙女夏季2019新款流行气质中长款蕾丝披肩雪纺套装裙子81  849.00      Vero Moda2019春季新款蕾丝拼接面料圆领连衣裙|31917B50482    1098.00     珂莱蒂尔蕾丝连衣裙2019秋季新款超仙甜美法式高腰显瘦短袖裙子女83  148.00      于momo民国大小姐复古风连衣裙斜门襟超仙气质收腰旗袍蕾丝裙84    1893.00     sandro2019春夏新款女装蕾丝镂空凸花中长连衣裙R20656E85    1548.00     YINER音儿女装2019夏季新款中国风钩花蕾丝拼接旗袍领收腰连衣裙86    1718.00     珂莱蒂尔蕾丝旗袍连衣裙2019秋季新款气质时尚刺绣花收腰显瘦裙子87  168.00      蕾丝连衣裙2019新款夏韩版显瘦小黑裙长裙气质收腰网纱流行裙子女88  615.12      SELECTED思莱德秋季新品撞色蕾丝拼接女士修身连衣裙S|41932J51689   349.00      ONLY2019秋季新款桔梗喇叭袖蕾丝雪纺连衣裙中长款女|11910768190    259.90      乐町蕾丝拼接连衣裙2019夏装新款超仙甜美很仙的法国小众雪纺裙子91  688.00      19妻子的浪漫旅行明星章子怡baby杨颖同款蕾丝镂空度假长款连衣裙92 799.00      宋慧乔明星同款2019新款夏收腰显瘦气质裙子女流行白色蕾丝连衣裙

Scrapy爬虫案例-淘宝比价定向爬虫学习笔记相关推荐

  1. 基于python的购物比价毕设_【Python爬虫】淘宝商品比价定向爬虫

    #CrowTaobaoPrice.py importrequestsimportredef getHTMLText(url):#获得网页信息 headers = {'User-Agent': 'Moz ...

  2. 淘宝商品价格定向爬虫

    淘宝商品价格定向爬虫 (1)  目标:获取淘宝搜索页面的信息,提取其中的商品名称和价格 要实现淘宝的搜索接口,翻页的处理.主要采用了Requests, bs4库,re库 (2)程序的结构设计: 步骤1 ...

  3. 网络爬虫与信息提取--正则表达式---淘宝商品比价定向爬虫

    淘宝商品比价定向爬虫 本实例爬取时间2019.9.11 由于淘宝代码的不断完善更新,本爬取代码已经不能爬取出商品信息内容 原因:结果为空:打印html看到,需要登录淘宝 在网上找解决方法,可以复制co ...

  4. Python网络爬虫与信息提取笔记08-实例2:淘宝商品比价定向爬虫

    Python网络爬虫与信息提取笔记01-Requests库入门 Python网络爬虫与信息提取笔记02-网络爬虫之"盗亦有道" Python网络爬虫与信息提取笔记03-Reques ...

  5. python爬虫笔记(六)网络爬虫之实战(1)——淘宝商品比价定向爬虫(解决淘宝爬虫限制:使用cookies)...

    1.  淘宝商品信息定向爬虫 链接: https://www.taobao.com/ 2. 实例编写 2.1 整体框架 # -*- coding: utf-8 -*-import requests i ...

  6. 淘宝商品比价定向爬虫-Python网络爬虫与信息提取-北京理工大学嵩天教授

    功能描述 目标:获取淘宝搜索页面的信息,提取其中的商品名称和价格: 理解:淘宝的搜索接口.翻页的处理: 以课程中的搜索书包为例,对应的url如下: (1)起始页: (2)第二页:最后的s=44: (3 ...

  7. 优化淘宝商品比价定向爬虫--爬虫的浏览器伪装

    目录 一. 原代码问题 二.淘宝Robots协议 三.User-Agent 四.查找headers和cookie 五. 完整代码 一. 原代码问题 爬取不到任何内容处理 原因:由于淘宝的设置,虽然可以 ...

  8. 爬虫(6)—— 淘宝商品比价定向爬虫

    该实例来源于中国大学慕课,视频教学链接如下: 传送门 目标: 获取淘宝搜索页面的额信息,提取其中的商品名称和价格 关键点: 淘宝的搜索接口 翻页的处理 从以上图片中可以看出,搜索接口的形式是: htt ...

  9. python淘宝爬虫_淘宝直播python爬虫

    淘宝直播爬虫 直接上代码: # !/usr/bin/python # -*- coding: UTF-8 -*- import requests appKey = '12574478' def get ...

  10. 网络爬虫实战||淘宝、股票定向爬虫

    正则表达式的概念 regular expression           regex          RE 正则表达式是用来简洁表达一组字符串的表达式. 正则表达式的优势:简洁 正则表达式的语法 ...

最新文章

  1. 试验设计与matlab数据分析 下载,试验设计与MATLAB数据分析(附光盘)
  2. 图解全排列问题_一道笔试题(122345求有条件全排列)的两种做法
  3. mysql新增阵列df_DF学Mysql(三)——索引操作
  4. 谷歌 Chrome Dev Tools 浅析 – 成为更高效的 Developer
  5. java中常见的编译错误的是_编译时JAVA最常见的错误有哪些
  6. Mysql删除数据时出现执行很慢并且删除失败--线程堵塞
  7. (进阶)LeetCode(258)——各位相加(JavaScript)
  8. nginx return知多少
  9. Arcgis Javascript那些事儿(六)--arcgis js API本地环境配置
  10. 重磅︱R+NLP:text2vec包——New 文本分析生态系统 No.1(一,简介)
  11. 5.应用测试 5.1测试Spring MVC的控制器
  12. 如何把netterm的内容输出到文件_python pandas如何输出csv文件
  13. AndroidStudio 编译报错 abc_list_selector_disabled_holo_light.9.png
  14. 【面经】携程数据仓库面经
  15. 十四届全国大学生“恩智浦”杯智能汽车竞赛信标组总结(3)
  16. 2010.4 计算机二级等级考试 vb上机试题 第一套 的答案,2012年计算机二级VB上机试题及解题思路第44套...
  17. php路由中间件,lumen5.5学习路由和中间件(四)
  18. Windows平台下使用 Rclone 挂载 OneDrive Google Drive 为本地硬盘
  19. 微信小程序之二(创建文件目录)
  20. 对手机网络状态改变时的监听

热门文章

  1. (六)CRAFT----2019CVPR论文解读
  2. linux_study_1
  3. 海南大学研究生计算机分数线,海南大学研究生录取分数线
  4. 小米手机相机英文翻译
  5. php的优秀案例,单页Web设计优秀案例_php
  6. Mac配置Qt环境和把应用打包成dmg文件
  7. 怀旧小霸王游戏机网页源码
  8. 计算机技术毕业生个人简历,计算机技术毕业生个人简历模板
  9. vue 路由跳转 外部链接
  10. Python beautiful soup解析html获得数据