爬虫python淘宝_python爬虫爬取淘宝失败原因分析

python爬虫爬取淘宝失败原因分析

发布时间：2018-10-20 15:50,

浏览次数：927

, 标签：

python

正则表达式data = re.findall(‘g_page_config = (.*?)g_srp_loadCss’, html,re.S)[0]

报错out of range

去掉[0]后输出，只输出了一个空列表，发现其实并没有抓取到网页信息，空列表里取首元素就出现了out of range的错误。

输出html后发现代码和网页源代码不相同，没有应有的商品信息。

思考得出大概有两种可能

淘宝页面异步加载，必须鼠标滑动到这一点才能加载信息，所以得不到商品的信息。

爬取到的html要求登陆，很可能是淘宝的反爬虫机制

所用代码(python3)

import urllib.request import re import json #要爬取的网页 url =

'https://s.taobao.com/search?q=python' #伪装成浏览器 headers = ('user-agent',

'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like

Gecko) Chrome/68.0.3440.106 Safari/537.36') opener=urllib.request.build_opener()

opener.addheaders=[headers] urllib.request.install_opener(opener) #爬出网页源文件 file

= urllib.request.urlopen(url) file.encoding = 'utf-8' html = str(file.read())

#查看爬到的html #print(html) data = re.compile('g_page_config = (.*?)g_srp_loadCss',

re.S).findall(html) print(data)

输出爬到的网页信息

>>>import requests >>>r=requests.get("https://s.taobao.com/search?q=python") >>

>r.text[:10000] #部分输出  "登录页面"改进建议\r\n \r\n

div>\r\n\t\t\t\r\n\t\t

\r\n\t\t

爬虫python淘宝_python爬虫爬取淘宝失败原因分析相关推荐

Python爬虫：Selenium模拟Chrome浏览器爬取淘宝商品信息
对于采用异步加载技术的网页,有时候想通过逆向工程的方式来设计爬虫进行爬取会比较困难,因此,要想通过python获取异步加载数据往往可以使用Selenium模拟浏览器的方式来获取. Selenium是一 ...
python网络爬虫学习(六)利用Pyspider+Phantomjs爬取淘宝模特图片
本篇博文在编写时参考了http://cuiqingcai.com/2652.html,向作者表示感谢一.新的问题与工具平时在淘宝上剁手的时候,总是会看到各种各样的模特.由于自己就读于一所男女比例三 ...
python 爬虫实例-python爬虫实例，一小时上手爬取淘宝评论(附代码)
前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 1 明确目的通过访问天猫的网站,先搜索对应的商品,然后爬取它的评论数据. ...
Python爬虫实例，一小时上手爬取淘宝评论(附代码)！
前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 1 明确目的通过访问天猫的网站,先搜索对应的商品,然后爬取它的评论数据. ...
python爬虫实例，一小时上手爬取淘宝评论（附代码）
前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 1 明确目的通过访问天猫的网站,先搜索对应的商品,然后爬取它的评论数据. ...
Python，自己修改的爬取淘宝网页的代码修改Python爬虫，爬取淘宝商品信息也不报错，也不输出信息的错误
代码部分: 下面是正确的: import requests import redef getHTMLText(url):try:r = requests.get(url, timeout = 30)r ...
爬虫（6）-使用selenium爬取淘宝天猫商品信息（价格，销售量等）
文章目录 1.只读取第一页 1.1准备工作 1.2.定位 1.3.获取商品信息 1.4. 整体代码 1.5.输出结果展示 1.6改进,存储在CSV文件内并分行存储 2.读取多页商品信息 2.1部分问题 ...
python爬虫表格数据匹配_python，爬取数据做成表格，解放你的双手
前言爬取豆瓣的 top250 电影榜环境请自行安装python 需要的包 BeautifulSoup MySQL-python 开始创建一个py文件 demo3.py 分析页面结构 ![im ...
爬虫python下载电影_python爬虫：抓取下载电影文件，合并ts文件为完整视频
目标网站:https://www.88ys.cc/vod-play-id-58547-src-1-num-1.html 反贪风暴4 对电影进行分析我们发现,电影是按片段一点点加载出来的,我们分别抓取 ...
爬虫python下载网站所有图片_爬取某图片网站多页图片的python爬虫
1.[代码][Python]代码 # coding=utf-8 import requests import re from lxml import etree import time import ...

爬虫python淘宝_python爬虫爬取淘宝失败原因分析

爬虫python淘宝_python爬虫爬取淘宝失败原因分析相关推荐

最新文章

热门文章