近期,通过做了一些小的项目,觉得对于Python爬虫有了一定的了解,于是,就对于Python爬虫爬取数据做了一个小小的总结,希望大家喜欢!

1.最简单的Python爬虫

最简单的Python爬虫莫过于直接使用urllib.request.urlopen(url=某网站)或者requests.get(url=某网站)

例如:爬取漫客栈里面的漫画

代码和运行结果:

这是最简单也是最基础的Python爬虫.

2.需要添加headers的Python爬虫

有的网址爬取数据需要添加User-Sgent、Cookie等字段信息,这个时候我们需要添加一个请求头,也就是一个字典,User-Sgent、Cookie等字段信息就放这里面。
如:运用Python爬虫下载表情包

没加请求头

加上请求头:

是不是加与没加,就有很大的区别.

3.所爬取的数据在NetWork里面

有个时候,我们所爬取的数据添加请求头之后,也爬取不到,这个时候,我们就需要想一想NetWork,下面有XHR和JS,也许所需要数据就在这两个其中的一个里面。
如:爬取王者荣耀英雄皮肤

如果用上面第二种方法,可以发现,就算添加请求头,也访问不到数据,我们看一下网页源代码,发现,这些数据根本就不在源代码中,所以这样肯定爬不到数据。

我们点击电脑键盘F12,然后再点击NetWork下面的JS,按F5刷新,可以发现,这些图片的下载链接在JS下面的一个json文件里。

4.动态加载的数据

动态加载的,像网易云音乐,虽然我们也可以在NetWork下面找到相应的数据,但是这是一个post请求,比较复杂,我们可以使用selenium模块,这个过程我就不讲解了。

5.总结

上面讲解的这些,我都有关于它们的文章,读者可以自行找到并阅读。

也许我还是一个Python爬虫小白吧!讲解的深度还不够,希望大家谅解,在以后的日子里,我会加油学的。如果读者觉得我的这篇文章对于你有所帮助,希望大家给我点一个小小的赞,谢谢!

爬虫爬到的网页源代码不是真正的源代码_Python爬虫经常爬不到数据?你可以看一下这篇文章...相关推荐

  1. 网页html做捏脸站,[技术研究]想做Web 3D捏脸?看了这篇文章你就会!

    原标题:[技术研究]想做Web 3D捏脸?看了这篇文章你就会! 游戏里的人物捏脸见的多了,网页里的捏脸见过么? 3月6日完美世界手游上线,前期需要一个预创角营销活动进行预热.与以往预创角活动不同的是, ...

  2. 爬虫推特数据分析的外文文献_什么是网络爬虫?有什么用?怎么爬?看完这篇文章你就明白了...

    源:Python架构师 https://dwz.cn/LI7NNc4g 一.什么是网络爬虫 随着大数据时代的来临,网络爬虫在互联网中的地位将越来越重要.互联网中的数据是海量的,如何自动高效地获取互联网 ...

  3. python爬虫获取小说根据正文调用函数传入章节地址列表_python爬虫之小说章节获取,聊斋志异小说完整版...

    "写鬼写妖高人一等,刺贪刺虐入骨三分." 没找到聊斋志异完整版的txt文档,那就把在线阅读的文章抓下来吧. 开发环境 python3.7 requests模块 lxml模块 获取分 ...

  4. python爬虫实战教程分享 或许你可以看一下这篇文章

    如今人工智能风暴席卷全球,上至太空探索.航空器&汽车自动驾驶,下至每天在用的人脸识别.计算影像.机器翻译,这些科技产品和项目均由AI人工智能技术实现. 人工智能深刻地影响着我们的生活,是人类对 ...

  5. Python爬虫爬取静态网页实例一:爬取内涵段子吧上的段子

    最近在学爬虫,这里用实例来与大家分享一下我学习的经验. 这里讲一个爬取静态网页内容的实例,Python一般利用正则表达式爬取静态静态网页的内容,而且因为静态网页源代码固定,不会发生变化,所以比较简单, ...

  6. python获取网站代码_python爬虫1——获取网站源代码(豆瓣图书top250信息)

    # -*- coding: utf-8 -*- import requests import re import sys reload(sys) sys.setdefaultencoding('utf ...

  7. 爬虫的步骤解析内容xpath介绍_爬虫入门到精通-网页的解析(xpath)

    在爬虫入门到精通第五讲中,我们了解了如何用正则表达式去抓取我们想要的内容.这一章我们来学习如何更加简单的来获取我们想要的内容. xpath的解释 XPath即为XML路径语言(XML Path Lan ...

  8. python在线爬虫_Python爬虫入门教程 99-100 Python爬虫在线服务大全

    本篇文章梦想橡皮擦会为大家介绍一些 python 爬虫相关的在线服务,这些在线服务或者工具很多时候都会大幅度的提高爬取数据的速度. 为何写本篇文章 爬虫百例博客已经临近结尾,最即将收尾之际,希望这篇文 ...

  9. 用python进行多页数据爬取_Python Scrapy如何实现多页数据爬取?

    Python Scrapy如何实现多页数据爬取? 发布时间:2020-06-23 11:47:46 来源:亿速云 阅读:112 作者:清晨 这篇文章将为大家详细讲解有关Python Scrapy如何实 ...

最新文章

  1. 多人VR游戏或成未来VR游戏发展的爆点
  2. [LeetCode]题解(python):140-Word Break II
  3. SweetAlert2模态窗的使用
  4. 公有云 --- 华为云的基本运用
  5. 深度学习将灰度图着色_通过深度学习为视频着色
  6. 【自定义标签开发】01-标签简介和开发第一个标签
  7. 如何获取元素在父级div里的位置_关于元素的浮动你了解多少
  8. 无返回值_只需一步,在Spring Boot中统一Restful API返回值格式与处理异常
  9. Java中static、final用法小结
  10. C语言中scanf()的用法
  11. VS2010安装部署成.NET 2.0过程的几个问题
  12. android 弹窗banner,弹窗交互规范分析|UI|观点|DesigneR_D - 原创文章 - 站酷 (ZCOOL)
  13. Excel画竖着的折线图
  14. 【马司机带带我】电话骚扰自动化及其对策
  15. 《那些年啊,那些事——一个程序员的奋斗史》——98
  16. Artemis客户端安装
  17. 斯蒂夫乔布斯传札记:第六波
  18. 从苏宁电器到卡巴斯基(第二部)第07篇:我在卡巴的日子 VII
  19. 指尖江湖李忘生鸿蒙初开,剑网3指尖江湖李忘生技能搭配攻略
  20. 德州仪器推出3D霍尔效应位置传感器;天旦亮相2021中国IPv6创新发展大会;Amazfit发布全新品牌标志 | 全球TMT...

热门文章

  1. 年底要算绩效了,高校青椒有多难?
  2. 鸿星尔克捐款前后仓库对比
  3. 直博清华!陕西女学霸:从农村走出,3次斩获国奖,还被央视采访
  4. 重磅!新增一个假期!此地已正式发文!
  5. 2020诺奖预测出炉!“引文桂冠”奖今日公布,华人学者戴宏杰入选
  6. 吴军:我们之所以高估一些事情,源于认知
  7. 达文西画中的数学密码
  8. 华人学者黄皓两页证明解决计算机科学领域难题:布尔函数敏感度猜想
  9. Java集合之Vector源码分析
  10. 揭晓远程证明架构EAA:机密容器安全部署的最后一环 | 龙蜥技术