原标题:解决Python爬虫爬不到数据

前言:

近期,通过做了一些小的项目,觉得对于Python爬虫有了一定的了解,于是,就对于Python爬虫爬取数据做了一个小小的总结,希望大家喜欢!

文章目录

  • 原标题:解决Python爬虫爬不到数据
    • 1.最简单的Python爬虫
    • 2.需要添加headers的Python爬虫
    • 3.所爬取的数据在NetWork里面
    • 4.动态加载的数据
    • 5.总结
1.最简单的Python爬虫

最简单的Python爬虫莫过于直接使用urllib.request.urlopen(url=某网站)或者requests.get(url=某网站)
例如:爬取漫客栈里面的漫画
文章链接:运用Python爬虫下载漫客栈里面的漫画


代码和运行结果:

这是最简单也是最基础的Python爬虫.

2.需要添加headers的Python爬虫

有的网址爬取数据需要添加User-Sgent、Cookie等字段信息,这个时候我们需要添加一个请求头,也就是一个字典,User-Sgent、Cookie等字段信息就放这里面。
如:运用Python爬虫下载表情包
文章链接:运用Python爬虫下载表情包

没加请求头

加上请求头:

是不是加与没加,就有很大的区别.

3.所爬取的数据在NetWork里面

有个时候,我们所爬取的数据添加请求头之后,也爬取不到,这个时候,我们就需要想一想NetWork,下面有XHR和JS,也许所需要数据就在这两个其中的一个里面。
如:爬取王者荣耀英雄皮肤
爬取王者荣耀英雄皮肤


如果用上面第二种方法,可以发现,就算添加请求头,也访问不到数据,我们看一下网页源代码,发现,这些数据根本就不在源代码中,所以这样肯定爬不到数据。
我们点击电脑键盘F12,然后再点击NetWork下面的JS,按F5刷新,可以发现,这些图片的下载链接在JS下面的一个json文件里。

4.动态加载的数据

动态加载的,像网易云音乐,虽然我们也可以在NetWork下面找到相应的数据,但是这是一个post请求,比较复杂,我们可以使用selenium模块,这个过程我就不讲解了
这里有关于它的文章链接:运用selenium下载网易云音乐

5.总结

上面讲解的这些,我都有关于它们的文章,读者可以自行找到并阅读。
也许我还是一个Python爬虫小白吧!讲解的深度还不够,希望大家谅解,在以后的日子里,我会加油学的。如果读者觉得我的这篇文章对于你有所帮助,希望大家给我点一个小小的赞,谢谢!

Python爬虫经常爬不到数据,或许你可以看一下小编的这篇文章相关推荐

  1. python 网上爬取数据源码_Python爬虫经常爬不到数据,或许你可以看一下小编的这篇文章...

    1.最简单的Python爬虫 最简单的Python爬虫莫过于直接使用urllib.request.urlopen(url=某网站)或者requests.get(url=某网站)例如:爬取漫客栈里面的漫 ...

  2. 玩王者技术太菜,或许读者可以看看小编的这篇文章

    原标题:运用Python爬虫下载王者荣耀英雄讲解视频 前言: 王者官网上的英雄讲解视频的确不错,但是不知道读者知不知道这个玩意啊!但愿知道吧!不过,即使不知道,看了小编的这篇文章也就知道了,注意:部分 ...

  3. 初识Python爬虫----如何爬取网络数据

    一.什么是网络爬虫 即爬取网络数据的虫子,也就是Python程序. 二.爬虫的实质是什么? 模拟浏览器的工作原理,向服务器发送请求数据. 三.浏览器的工作原理是什么? 浏览器还可以起到翻译数据的作用. ...

  4. Pycharm + python 爬虫简单爬取网站数据

    本文主要介绍简单的写一个爬取网站图片并将图片下载的python爬虫示例. 首先,python爬虫爬取数据,需要先了解工具包requests以及BeautifulSoup requests中文文档:ht ...

  5. python爬虫——对爬到的数据进行清洗的一些姿势(5)

    做爬虫,当然就要用数据.想拿数据进行分析,首先清洗数据.这个清洗数据包括清除无用数据列和维度,删除相同数据,对数据进行勘误之类的. 从各大不同新闻网站可以爬到重复新闻...这个可以有.之前为了对爬到的 ...

  6. 【Python爬虫】爬取大量数据网络超时的解决思路

    问题 在爬取大量数据的过程中,有时没有注意,会出现网络超时,结果也不知道爬到了哪里,重新爬一遍代价太大. 解决思路 目前提供解决思路,实践之后补充示例代码. 思路一 1.设置超时处理,超过时间返回异常 ...

  7. 爬虫爬到的网页源代码不是真正的源代码_Python爬虫经常爬不到数据?你可以看一下这篇文章...

    近期,通过做了一些小的项目,觉得对于Python爬虫有了一定的了解,于是,就对于Python爬虫爬取数据做了一个小小的总结,希望大家喜欢! 1.最简单的Python爬虫 最简单的Python爬虫莫过于 ...

  8. 【python爬虫】爬取网站数据,整理三句半语料数据集

    因为目前没有公开的三句半语料库,所以在网络上爬取一些网站上公开的三句半数据. 主要分为两部分: 目录 爬取数据 清洗数据 爬取数据 以爬取 http://p.onegreen.net/JuBen 上的 ...

  9. python爬取网页内容_你以为Python爬虫只能爬取网页数据吗?APP也是可以的呢!

    摘要 大多数APP里面返回的是json格式数据,或者一堆加密过的数据 .这里以超级课程表APP为例,抓取超级课程表里用户发的话题. 1 抓取APP数据包 方法详细可以参考这篇博文:http://my. ...

最新文章

  1. php flock 都是true_php并发处理的几种方法
  2. laravel数据迁移的时候遇到的字符串长度的问题
  3. UA OPTI544 量子光学9 2-level system approximation的向量模型
  4. mysqld install mysql default_MySQL安装默认配置
  5. php如何将mysql数据库中的admin字段赋值给session_php实现将Session写入数据库
  6. vue 模板 html 表达式,Vue 模板template、指令directive、修饰符
  7. “Hello,Github!——如何配置并上传一个已有项目到Git上
  8. NAND Flash【转】
  9. 数据科学和人工智能技术笔记 十二、逻辑回归
  10. Java 11 升级:“债务”“危机”
  11. ODBC访问数据库(转载)
  12. 解决:win10在空白处右键资源管理器重启的故障
  13. txt文本换行(txt文本设置、wps替换换行)
  14. mysql max as_mysql使用max函数+将类似123的字符型数据转换成数据类型
  15. 基于微信小程序校内论坛系统设计与实现(毕业设计论文+数据库脚本+源码+答辩ppt)
  16. 本地文件秒搜工具 Everything
  17. java还原合并单元格_Java 合并/取消合并 Excel 单元格
  18. iTween之iTweenPath的使用
  19. 绕过阮一峰网络日志的反广告过滤脚本
  20. 怎么快速无损地把avi转换mov格式?简单3步就能搞定!

热门文章

  1. druid连接池例子
  2. 链霉亲和素包被的荧光微球/二甲氨基磁珠,氨基磁珠,羧基磁珠,交联磁珠,光滑表面磁珠,聚苯乙烯磁性微球,磁珠,荧光微球玻片
  3. 命令方块召唤别墅指令_我的世界指令大全
  4. 图片(矩阵)相似度计算
  5. 什么是负载均衡,为什么要做负载均衡?
  6. 对HTML中的table拆分合并的行或列
  7. php安卓浏览器调用相机拍照,浏览器调用相机进行拍照
  8. 哄女朋友玩的c语言编程,在线教学:哄女朋友陪你玩游戏的真正秘诀
  9. 用html5做的柱状图,使用h5新特性canvas简单生成一个柱状图
  10. 怎样清理苹果手机内存空间_苹果机天天显示内存不足,怎样能快速有效的清理内存?长知识了...