这个也不错



import requests
import re
def getHTMLText(url):headers = {'cookie': 'miid=1296267545453648768; t=b4d385e2145f596a67961e4dd08e9a8f; cna=pqwcFXxbJjACAXWIA7AFEfA8; thw=cn; tracknick=tb487881011; lgc=tb487881011; _cc_=UIHiLt3xSw%3D%3D; tg=0; enc=%2FTqA3gAexHOKU0cyPYbSWM1pGS8vgnlEK3EMnkYd2T%2BlB%2BJh18hxryREG48c%2BYmdk7yfvbSMCBDQExP23eUm3w%3D%3D; hng=CN%7Czh-CN%7CCNY%7C156; x=e%3D1%26p%3D*%26s%3D0%26c%3D0%26f%3D0%26g%3D0%26t%3D0%26__ll%3D-1%26_ato%3D0; cookie2=19ef67fdfc3f433776e5e9cafaf6a8ea; v=0; _tb_token_=08b7e3e7e183; _m_h5_tk=62383241b06635c64b07942e50e47d9d_1562004576179; _m_h5_tk_enc=0465da475a8335f8fd8d9ef6bb280a71; unb=4235284520; sg=101; _l_g_=Ug%3D%3D; skt=c571ae590b7580cb; cookie1=AnQIvxj44XbyESoVNTVtwfJRB8W%2BbAPV%2BVZMWhAghjk%3D; csg=23f40375; uc3=vt3=F8dBy34cs3fc7ebsEqk%3D&id2=Vy67WD1MZomrsw%3D%3D&nk2=F5RBzeKtOazPVJc%3D&lg2=UtASsssmOIJ0bQ%3D%3D; existShop=MTU2MTk5NTE3MQ%3D%3D; dnk=tb487881011; _nk_=tb487881011; cookie17=Vy67WD1MZomrsw%3D%3D; mt=ci=21_1; uc1=cookie14=UoTaGdT0tHdY5w%3D%3D&lng=zh_CN&cookie16=VT5L2FSpNgq6fDudInPRgavC%2BQ%3D%3D&existShop=false&cookie21=VFC%2FuZ9aj3yE&tag=8&cookie15=UIHiLt3xD8xYTw%3D%3D&pas=0; whl=-1%260%260%261561995222497; isg=BHNzJqpkKgCWtOesccf13ZRUAnddACwkF8iwAyUQzxLJJJPGrXiXutG23hRvn19i; l=bBMxcfBPv539-OTkBOCanurza77OSIRYYuPzaNbMi_5K-6T_2qQOkAuQFF96Vj5Rs4YB4G2npwJ9-etkq','User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.169 Safari/537.36'}try:r=requests.get(url,headers=headers)r.raise_for_status()r.encoding=r.apparent_encoding#print(r.text)return r.textexcept:print('get失败')return ""
#获取商品的价格不用beautifulsoup 仅搜索
def parsePage(ilt,html):try:# plr=re.findall(r'\"view_price\"\:\"[\d\.]*"',html)plt = re.findall(r'\"view_price\"\:\"[\d\.]*"', html)#这里的plt打成了plrtlt = re.findall(r'\"raw_title\"\:\".*?"', html)for i in range(len(plt)):price = eval(plt[i].split(':')[1])#eval 去掉最外层单引双引号#spilt 分割获得字符串的后半部分title = eval(tlt[i].split(':')[1])ilt.append([price,title])except:print("parsePage错误")return ""
def printGoodsList(ilt):tplt="{:4}\t{:8}\t{:16}"print(tplt.format("序号","价格","名称"))count=0for g in ilt:count = count+1print(tplt.format(count,g[0],g[1]))def main():goods='书包'#定义深度depth=3start_url='https://s.taobao.com/search?q='+goodsinfoList = []for i in range(depth):try:url =start_url+'&s='+str(44*i)#一页44个html=getHTMLText(url)parsePage(infoList,html)except:continueprintGoodsList(infoList)main()

爬虫笔记8实例淘宝商品比价爬虫相关推荐

  1. 网络爬虫与信息提取--正则表达式---淘宝商品比价定向爬虫

    淘宝商品比价定向爬虫 本实例爬取时间2019.9.11 由于淘宝代码的不断完善更新,本爬取代码已经不能爬取出商品信息内容 原因:结果为空:打印html看到,需要登录淘宝 在网上找解决方法,可以复制co ...

  2. 爬虫(6)—— 淘宝商品比价定向爬虫

    该实例来源于中国大学慕课,视频教学链接如下: 传送门 目标: 获取淘宝搜索页面的额信息,提取其中的商品名称和价格 关键点: 淘宝的搜索接口 翻页的处理 从以上图片中可以看出,搜索接口的形式是: htt ...

  3. 【Python爬虫学习】淘宝商品比价爬虫实战

    功能描述 目标:获取淘宝搜索页面的信息,提取其中的商品名称和价格. 技术路线:requests­ re 程序的结构设计 步骤1:提交商品搜索请求,循环获取页面 步骤2:对于每个页面,提取商品名称和价格 ...

  4. python爬虫学习笔记(三)——淘宝商品比价实战(爬取成功)

    2020年最新淘宝商品比价定向爬取 功能描述 目标:获取淘宝搜索页面的信息,提取其中的商品名称和价格. 理解:淘宝的搜索接口 翻页的处理 技术路线:requests­          re 程序的结 ...

  5. java jsoup 网络爬虫 学习例子(八)京东和淘宝商品比价 PhantomJS

    java jsoup 网络爬虫 学习例子(八)京东和淘宝商品比价 PhantomJS /** filename getHtml.js* phantomjs.exe 2.0.0* author InJa ...

  6. java jsoup 网络爬虫 学习例子(七)京东和淘宝商品比价 htmlunit

    java jsoup 网络爬虫 学习例子(七)京东和淘宝商品比价 htmlunit package com.iteye.injavawetrust.pricecheck;import java.uti ...

  7. 网络定向爬虫实例---淘宝商品信息比价

    目录 一.前言: 二.前期准备: 1.如何绕过防爬虫 2.一些常见的问题及处理方法: 三.爬虫实例结构分析: 1.主体结构: 2.分析: (1)爬虫可行性: (2)网站数据结构 四.爬虫实例展示: 1 ...

  8. python爬虫淘宝实例-Python——爬虫实战 爬取淘宝店铺内所有宝贝图片

    之前用四篇很啰嗦的入门级别的文章,带着大家一起去了解并学习在编写爬虫的过程中,最基本的几个库的用法. 那么今天,我们就正式开始我们的第一篇实战内容,爬取一整个淘宝店铺里的所有宝贝的详情页,并且把详情页 ...

  9. Python爬虫之定时抢购淘宝商品

    Python爬虫之定时抢购淘宝商品 import time from selenium import webdriver import datetimeclass Spider:def __init_ ...

最新文章

  1. SOA:A note on RPC
  2. 微型计算机原理设计存储系统,微机原理与接口技术存储器设计.pdf
  3. linux系统pcb软件下载,开源PCB设计软件KiCad致力于下一个大版本的发布
  4. jsp 跳到servlet路径_请问如何从jsp中跳到servlet中?
  5. devops相关书籍哪个好_您在DevOps周期中的哪个位置进行安全保护?
  6. java.io.NotSerializableException: com.codahale.metrics.MetricRegistry
  7. NIPS风波 | 获奖者登台开炮:ML是炼金术,大神LeCun强硬回怼
  8. leecode第六十二题(不同路径)
  9. SQL Server高级查询之T-SQL编程(流程控制语句)
  10. 数值分析(2)-多项式插值: 拉格朗日插值法
  11. html 加粗_一篇文章带你了解HTML格式化元素
  12. 汇编语言ADDC可以把C清零吗,常用汇编语言指令及解释
  13. 将图片转换为Base64编码字符串、解析Base64编码字符串后生成图片
  14. 关于Landsat所有知识都在这里
  15. TeamCity Angent 配置(Ubuntu)
  16. 开源的UDP加速工具UDPspeeder介绍
  17. 容器服务ACK+容器网络文件系统CNFS快速搭建NGINX网站(体验有礼)
  18. CSS布局及实例仿LOL主页
  19. 指出下列程序运行的结果()
  20. HUAWEI Mate bookD 加装固态

热门文章

  1. php中的parse_ini_file函数
  2. jquery 操作字符串、数组、对象常用方法
  3. 【BZOJ-4522】密钥破解 数论 + 模拟 ( Pollard_Rho分解 + Exgcd求逆元 + 快速幂 + 快速乘)...
  4. 从Java中的length和length()开始
  5. Openfire配置过程,以及与php交互注意事项。
  6. IFRAME jquery 获取document对象
  7. java怎么用柱形图_java绘制柱形图
  8. linux redis php,Linux下编译redis和phpredis的方法
  9. mysql的各种语句_MySql常用操作SQL语句汇总
  10. canal mysql重置_canal: 首先装完阿里的canal,然后数据库同步,仅供学习参考