爬虫python淘宝_python爬虫爬取淘宝失败原因分析
python爬虫爬取淘宝失败原因分析
发布时间:2018-10-20 15:50,
浏览次数:927
, 标签:
python
正则表达式data = re.findall(‘g_page_config = (.*?)g_srp_loadCss’, html,re.S)[0]
报错out of range
去掉[0]后输出,只输出了一个空列表,发现其实并没有抓取到网页信息,空列表里取首元素就出现了out of range的错误。
输出html后发现代码和网页源代码不相同,没有应有的商品信息。
思考得出大概有两种可能
*
淘宝页面异步加载,必须鼠标滑动到这一点才能加载信息,所以得不到商品的信息。
*
爬取到的html要求登陆,很可能是淘宝的反爬虫机制
所用代码(python3)
import urllib.request import re import json #要爬取的网页 url =
'https://s.taobao.com/search?q=python' #伪装成浏览器 headers = ('user-agent',
'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like
Gecko) Chrome/68.0.3440.106 Safari/537.36') opener=urllib.request.build_opener()
opener.addheaders=[headers] urllib.request.install_opener(opener) #爬出网页源文件 file
= urllib.request.urlopen(url) file.encoding = 'utf-8' html = str(file.read())
#查看爬到的html #print(html) data = re.compile('g_page_config = (.*?)g_srp_loadCss',
re.S).findall(html) print(data)
输出爬到的网页信息
>>>import requests >>>r=requests.get("https://s.taobao.com/search?q=python") >>
>r.text[:10000] #部分输出 "登录页面"改进建议\r\n \r\n
div>\r\n\t\t\t\r\n\t\t
\r\n\t\t
爬虫python淘宝_python爬虫爬取淘宝失败原因分析相关推荐
- Python爬虫:Selenium模拟Chrome浏览器爬取淘宝商品信息
对于采用异步加载技术的网页,有时候想通过逆向工程的方式来设计爬虫进行爬取会比较困难,因此,要想通过python获取异步加载数据往往可以使用Selenium模拟浏览器的方式来获取. Selenium是一 ...
- python网络爬虫学习(六)利用Pyspider+Phantomjs爬取淘宝模特图片
本篇博文在编写时参考了http://cuiqingcai.com/2652.html,向作者表示感谢 一.新的问题与工具 平时在淘宝上剁手的时候,总是会看到各种各样的模特.由于自己就读于一所男女比例三 ...
- python 爬虫实例-python爬虫实例,一小时上手爬取淘宝评论(附代码)
前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 1 明确目的 通过访问天猫的网站,先搜索对应的商品,然后爬取它的评论数据. ...
- Python爬虫实例,一小时上手爬取淘宝评论(附代码)!
前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 1 明确目的 通过访问天猫的网站,先搜索对应的商品,然后爬取它的评论数据. ...
- python爬虫实例,一小时上手爬取淘宝评论(附代码)
前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 1 明确目的 通过访问天猫的网站,先搜索对应的商品,然后爬取它的评论数据. ...
- Python,自己修改的爬取淘宝网页的代码 修改Python爬虫,爬取淘宝商品信息也不报错,也不输出信息的错误
代码部分: 下面是正确的: import requests import redef getHTMLText(url):try:r = requests.get(url, timeout = 30)r ...
- 爬虫(6)-使用selenium爬取淘宝天猫商品信息(价格,销售量等)
文章目录 1.只读取第一页 1.1准备工作 1.2.定位 1.3.获取商品信息 1.4. 整体代码 1.5.输出结果展示 1.6改进,存储在CSV文件内并分行存储 2.读取多页商品信息 2.1部分问题 ...
- python爬虫表格数据匹配_python,爬取数据做成表格,解放你的双手
前言 爬取豆瓣的 top250 电影榜 环境 请自行 安装python 需要的包 BeautifulSoup MySQL-python 开始 创建一个py文件 demo3.py 分析页面结构 ![im ...
- 爬虫python下载电影_python爬虫:抓取下载电影文件,合并ts文件为完整视频
目标网站:https://www.88ys.cc/vod-play-id-58547-src-1-num-1.html 反贪风暴4 对电影进行分析 我们发现,电影是按片段一点点加载出来的,我们分别抓取 ...
- 爬虫python下载网站所有图片_爬取某图片网站多页图片的python爬虫
1.[代码][Python]代码 # coding=utf-8 import requests import re from lxml import etree import time import ...
最新文章
- “情感计算”的蓬勃发展依赖于收集大量的行为和情感数据
- 部署SCCM2012之先决条件准备
- springboot集成mybatis-generator时候遇到的问题
- 查看端口被哪个进程占用
- 扩展 OpenLayers.Layer.WMS 为自定义的瓦片浏览服务
- 【移动通信】天线原理
- amazeui学习笔记--css(常用组件5)--评论列表Comment
- Python高级数组处理模块numpy用法精要
- 2013年想学的东西。。。
- 京东让员工参观看守所;华为电视面世;苹果市值重回全球第一 | 极客头条
- 微信小程序连接本地接口(转)
- 【数据结构算法】图解prime算法和Kruskal算法(最短路径问题)
- Shell 神技:掩盖 Linux 服务器上的操作痕迹
- 分布式存储 HDFS原理
- Jetson-TX2双声卡TLV320AIC32x4 alsa实现同时录音与播放
- python怎么测试opencv安装是否成功_测试opencv安装成功
- 比热容相关的热量计算机应用,13章三节比热容.doc
- Bean Definition到底是什么,附spring思维导图分享
- open-falcon详解
- PHP实现获取url地址中一级域名