欲爬取网页链接
scrapy爬虫爬取该页面时的响应如下:

而此时,测试使用requests.get获得网页源代码长度如下:

此网站其他页面也出现上述问题,我按照浏览器的显示情况,用xpath定位的元素节点,再响应中的源代码中查询不到,如下:

将响应中的源代码另存为.htm文件后,再用浏览器打开显示如下:

网页结构完全不一样,最下角看到‘触屏版’字样,点击‘触屏版’后跳转网页与另存打开的网页结构一致,如下:

什么情况!由此可推出此时scrpay获取网页跳转到触屏版导致网页结构不一致,从而无法抓取信息。
考虑触屏版网页源代码数量较小,遂在爬虫脚本中添加判断语句,当响应的源代码总数小于一定量时,采用‘触屏版’的路径表达式定位获取,从而解决问题。

以上为个人笔记,其中的深层缘由暂未了解,其中的解决方法来源于网上各位大佬的解答分享和自己的推测和实践得来,若有不对的地方,请大家指教,谢谢

爬取网站页面与浏览器显示不一致相关推荐

  1. linux网站爬取,Kali下httrack 爬取网站页面

    简介: HTTrack 是一个免费开源的网站离线浏览器.通过它可以将整个网站下载到本地的某个目录,包括html.图片和脚本以及样式文件,并对其中的链接进行重构以便于在本地进行浏览. 官网:http:/ ...

  2. node 没有界面的浏览器_node.js爬虫入门(二)爬取动态页面(puppeteer)

    之前第一篇爬虫教程node.js爬虫入门(一)爬取静态页面讲解了静态网页的爬取,十分简单,但是遇到一些动态网页(ajax)的话,直接用之前的方法发送请求就无法获得我们想要的数据.这时就需要通过爬取动态 ...

  3. 今天教你用 Python 爬取网站的指南

    通过基本的 Python 工具获得爬取完整 HTML 网站的实践经验. (本文字数:11235,阅读时长大约:14 分钟) 有很多很棒的书可以帮助你学习 Python ,但是谁真正读了这那些大部头呢? ...

  4. python 第一行 报错_初学Python-只需4步,爬取网站图片

    很多人学习Python很重要的一个原因是,可以很简单的把一个网站的数据爬下来. 尤其是做我们这一行,产品经理,电商行业. 领导:弄一个买卖游戏周边商品的交易APP出来.我:行,那我们卖什么呀?领导:看 ...

  5. python数据爬取---简单页面的爬取

    1.准备Requests和User Agent python中能实现爬虫功能的库有若干个,而最简单最容易上手的,要数Requests库,它是一个常用的http请求库,首先用pip install re ...

  6. 爬取千库网ppt_初学Python-只需4步,爬取网站图片(附py文件)

    很多人学习Python很重要的一个原因是,可以很简单的把一个网站的数据爬下来. 尤其是做我们这一行,产品经理,电商行业. 领导:弄一个买卖游戏周边商品的交易APP出来. 我:行,那我们卖什么呀? 领导 ...

  7. 四个步骤教你爬取网站图片,新手必学

    很多人学习Python很重要的一个原因是,可以很简单的把一个网站的数据爬下来. 尤其是做我们这一行,产品经理,电商行业. 领导:弄一个买卖游戏周边商品的交易APP出来. 我:行,那我们卖什么呀? 领导 ...

  8. python爬取网站图片链接并保存,Python爬取网站图片并保存的实现示例

    先看看结果吧,去bilibili上拿到的图片=-= 第一步,导入模块 import requests from bs4 import BeautifulSoup requests用来请求html页面, ...

  9. Python爬取网站图片并保存,超级简单

    Python爬取网站图片并保存,超级简单 先看看结果吧,去bilibili上拿到的图片=-= 第一步,导入模块 import requests from bs4 import BeautifulSou ...

最新文章

  1. rn php,rn怎样在PHP的正则表达式中匹配到?
  2. R语言Logistic逐步回归模型案例:分析与冠心病有关的危险因素
  3. 《数据库系统实训》实验报告——游标
  4. EOS Nation更新“flash.sx遭攻击”进展:将建议MSIG根据快照将资金退还
  5. SAP License:FI常用表
  6. Pandas里面dataframe 中loc和iloc函数的区别
  7. 数据存储-传输-分析
  8. hdu 4320 Arcane Numbers 1 多校联合赛(三)第一题
  9. 三星平板电脑安linux,三星平板电脑怎样刷机_三星平板t805c怎么刷机_三星平板怎么刷机...
  10. 第十一届蓝桥杯物联网设计与开发实验(合集)STM32学习
  11. CocosCreator如何制作微信小游戏
  12. Kaldi 使用,egs下通用样例及功能小结
  13. Cisco wlan controlller配置
  14. NASA HEG tool安装心得
  15. 实现一个B站弹幕不挡人物的效果
  16. 交叉编译详解 - 概念篇
  17. 汽车电子系统网络安全指南与汽车信息物理融合系统网络安全指南
  18. 谷歌浏览器安装插件步骤
  19. Linux后台执行与日志保存方式
  20. 设置MySQL复制时,replicate-ignore-db模式下如何正常工作

热门文章

  1. BGP联动 + nqa联动
  2. 进化:从孤胆极客到高效团队_极客评论:使用Dia作为Microsoft Visio的免费替代品...
  3. JavaScript数组空位的处理
  4. java 局域网文件拷贝文件_局域网使用Java进行文件传输
  5. Linux 虚拟内存和物理内存的理解(转)
  6. git clone公司项目的代码到本地
  7. 零信任安全在攻防演练中的“防御”之道
  8. IDEA:java:无效的源发行版:14
  9. linux HTB 队列限速
  10. 破解大数据孤岛化 SaaS主流厂商共建开放标准