python爬虫爬取淘宝失败原因分析

发布时间:2018-10-20 15:50,

浏览次数:927

, 标签:

python

正则表达式data = re.findall(‘g_page_config = (.*?)g_srp_loadCss’, html,re.S)[0]

报错out of range

去掉[0]后输出,只输出了一个空列表,发现其实并没有抓取到网页信息,空列表里取首元素就出现了out of range的错误。

输出html后发现代码和网页源代码不相同,没有应有的商品信息。

思考得出大概有两种可能

*

淘宝页面异步加载,必须鼠标滑动到这一点才能加载信息,所以得不到商品的信息。

*

爬取到的html要求登陆,很可能是淘宝的反爬虫机制

所用代码(python3)

import urllib.request import re import json #要爬取的网页 url =

'https://s.taobao.com/search?q=python' #伪装成浏览器 headers = ('user-agent',

'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like

Gecko) Chrome/68.0.3440.106 Safari/537.36') opener=urllib.request.build_opener()

opener.addheaders=[headers] urllib.request.install_opener(opener) #爬出网页源文件 file

= urllib.request.urlopen(url) file.encoding = 'utf-8' html = str(file.read())

#查看爬到的html #print(html) data = re.compile('g_page_config = (.*?)g_srp_loadCss',

re.S).findall(html) print(data)

输出爬到的网页信息

>>>import requests >>>r=requests.get("https://s.taobao.com/search?q=python") >>

>r.text[:10000] #部分输出 "登录页面"改进建议\r\n \r\n

div>\r\n\t\t\t\r\n\t\t

\r\n\t\t

爬虫python淘宝_python爬虫爬取淘宝失败原因分析相关推荐

  1. Python爬虫:Selenium模拟Chrome浏览器爬取淘宝商品信息

    对于采用异步加载技术的网页,有时候想通过逆向工程的方式来设计爬虫进行爬取会比较困难,因此,要想通过python获取异步加载数据往往可以使用Selenium模拟浏览器的方式来获取. Selenium是一 ...

  2. python网络爬虫学习(六)利用Pyspider+Phantomjs爬取淘宝模特图片

    本篇博文在编写时参考了http://cuiqingcai.com/2652.html,向作者表示感谢 一.新的问题与工具 平时在淘宝上剁手的时候,总是会看到各种各样的模特.由于自己就读于一所男女比例三 ...

  3. python 爬虫实例-python爬虫实例,一小时上手爬取淘宝评论(附代码)

    前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 1 明确目的 通过访问天猫的网站,先搜索对应的商品,然后爬取它的评论数据. ...

  4. Python爬虫实例,一小时上手爬取淘宝评论(附代码)!

    前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 1 明确目的 通过访问天猫的网站,先搜索对应的商品,然后爬取它的评论数据. ...

  5. python爬虫实例,一小时上手爬取淘宝评论(附代码)

    前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 1 明确目的 通过访问天猫的网站,先搜索对应的商品,然后爬取它的评论数据. ...

  6. Python,自己修改的爬取淘宝网页的代码 修改Python爬虫,爬取淘宝商品信息也不报错,也不输出信息的错误

    代码部分: 下面是正确的: import requests import redef getHTMLText(url):try:r = requests.get(url, timeout = 30)r ...

  7. 爬虫(6)-使用selenium爬取淘宝天猫商品信息(价格,销售量等)

    文章目录 1.只读取第一页 1.1准备工作 1.2.定位 1.3.获取商品信息 1.4. 整体代码 1.5.输出结果展示 1.6改进,存储在CSV文件内并分行存储 2.读取多页商品信息 2.1部分问题 ...

  8. python爬虫表格数据匹配_python,爬取数据做成表格,解放你的双手

    前言 爬取豆瓣的 top250 电影榜 环境 请自行 安装python 需要的包 BeautifulSoup MySQL-python 开始 创建一个py文件 demo3.py 分析页面结构 ![im ...

  9. 爬虫python下载电影_python爬虫:抓取下载电影文件,合并ts文件为完整视频

    目标网站:https://www.88ys.cc/vod-play-id-58547-src-1-num-1.html 反贪风暴4 对电影进行分析 我们发现,电影是按片段一点点加载出来的,我们分别抓取 ...

  10. 爬虫python下载网站所有图片_爬取某图片网站多页图片的python爬虫

    1.[代码][Python]代码 # coding=utf-8 import requests import re from lxml import etree import time import ...

最新文章

  1. “情感计算”的蓬勃发展依赖于收集大量的行为和情感数据
  2. 部署SCCM2012之先决条件准备
  3. springboot集成mybatis-generator时候遇到的问题
  4. 查看端口被哪个进程占用
  5. 扩展 OpenLayers.Layer.WMS 为自定义的瓦片浏览服务
  6. 【移动通信】天线原理
  7. amazeui学习笔记--css(常用组件5)--评论列表Comment
  8. Python高级数组处理模块numpy用法精要
  9. 2013年想学的东西。。。
  10. 京东让员工参观看守所;华为电视面世;苹果市值重回全球第一 | 极客头条
  11. 微信小程序连接本地接口(转)
  12. 【数据结构算法】图解prime算法和Kruskal算法(最短路径问题)
  13. Shell 神技:掩盖 Linux 服务器上的操作痕迹
  14. 分布式存储 HDFS原理
  15. Jetson-TX2双声卡TLV320AIC32x4 alsa实现同时录音与播放
  16. python怎么测试opencv安装是否成功_测试opencv安装成功
  17. 比热容相关的热量计算机应用,13章三节比热容.doc
  18. Bean Definition到底是什么,附spring思维导图分享
  19. open-falcon详解
  20. PHP实现获取url地址中一级域名

热门文章

  1. 安装AAE v11.x Control Room简易教程
  2. winsxs文件夹可以删除吗?具体清理操作如下
  3. 小布什逗留香港6小时 赴知名裁缝店做18套西装——中新网
  4. 语法分析——自下而上分析
  5. 软件工程测试题(雨课堂学堂在线选择题汇总)
  6. monkey命令——压力测试——个人总结
  7. 友盟第三方分享 QQ QQ空间 微信 新浪 及走过的坑
  8. @PreAuthorize、@Secured、 @RolesAllowed优先级
  9. Pollard-Rho Algorithm简述
  10. 计算机水冷散热器原理,水冷散热器原理和作用是什么