爬虫可以爬取的数据大致有四类:

  • 网页源代码。最常见的便是常规网页,它们对应着HTML代码,而最长抓取的便是HTML源代码。
  • JSON字符串。可能有些网页返回的不是HTML源代码,而是一个JSON字符串(API接口大多采用这种形式),这种格式的数据方便传输和解析,爬虫同样可以爬取,而且数据提取更加方便。
  • 二进制数据。各种二进制数据,如图片、视频和音频等,利用爬虫可以将这些二进制数据抓取下来,然后保存成对应的文件名。
  • 各种扩展名的文件。如CSS、JavaScript和配置文件等,只要在浏览器里面可以访问到,就可以将其抓取下来。

上述内容其中都对应各自的URL,是基于HTTP或HTTPS协议的,只要是这种数据,爬虫都可以爬取。

爬虫的基本原理:爬虫能爬什么数据相关推荐

  1. Python 爬虫实战,模拟登陆爬取数据

    Python 爬虫实战,模拟登陆爬取数据 从0记录爬取某网站上的资源连接: 模拟登陆 爬取数据 保存到本地 结果演示: 源网站展示: 爬到的本地文件展示: 环境准备: python环境安装 略 安装r ...

  2. PYTHON爬虫神站——curl.trillworks 爬取数据只需两步!

    前不久作者因为需要爬取一些建筑类数据 于是又又又准备苦哈哈的打开百度搜索"如何爬取XX",然后看html,找到关键点再挨个循环访问.....以下省略. 但这次 这款朋友推荐网站拯救 ...

  3. java爬虫问题二: 使用jsoup爬取数据class选择器中空格多选择怎么解决

    问题描述: 在使用jsoup爬取其他网站数据的时候,发现class是带空格的多选择,如果直接使用doc.getElementsByClass("class的值"),这种方法获取不到 ...

  4. Python爬虫入门教程06:爬取数据后的词云图制作

    前言

  5. 和移动对接短信http协议和cmpp协议那个好_python网络爬虫之HTTP原理,爬虫的基本原理,Cookies和代理介绍...

    一.HTTP基本原理 (一)URI和URL URI的全称为统一资源标志符,URL的全称为统一资源定位符.用来指定一个资源的访问方式,包括访问协议,访问路径和资源名称,从而找到需要的资源(网页的内容都是 ...

  6. Python的爬虫学习笔记本(一)爬虫的基本原理

    NLP的任务往往需要大量的语料库作为数据集,而尽管现有的许多任务上都有固定的数据集,但还是在很多方面存在着欠缺.为了弥补这个欠缺,网上的大量免费的文本信息就需要通过爬虫爬下来.由此开始了爬虫的学习. ...

  7. Python爬虫实战之一 - 基于Requests爬取拉勾网招聘信息,并保存至本地csv文件

    Python爬虫实战之二 - 基于Requests抓取拉勾网招聘信息 ---------------readme--------------- 简介:本人产品汪一枚,Python自学数月,对于小白,本 ...

  8. 2个月精通Python爬虫——3大爬虫框架+6场实战+分布式爬虫,包教包会

    2019独角兽企业重金招聘Python工程师标准>>> 阿里云大学在线工作坊上线,原理精讲+实操演练,让你真正掌握云计算.大数据技能. 在第一批上线的课程中,有一个Python爬虫的 ...

  9. 【通用技术】2个月精通Python爬虫——3大爬虫框架+6场实战+分布式爬虫,包教包会...

    网络爬虫(又被称为网页蜘蛛,网络机器人),是一种按照一定的规则,自动的抓取信息的程序或者脚本. 网络爬虫是互联网上进行信息采集的通用手段,在互联网的各个专业方向上都是不可或缺的底层技术支撑.本课程从爬 ...

  10. pythonrequestspost爬取数据不全_Python爬取数据之Requests库

    爬虫三步走包括爬取数据.解析数据和保存数据,Python强大之处就是每一步都提供了强大的库,我们只要使用对应的库,就能把网站中想要的数据爬取下来.第一步爬取数据,最常用的就是Requests库.Req ...

最新文章

  1. fckeditor的jsp中的使用
  2. 【 MATLAB 】DFT的性质讨论(二)序列的循环移位及其 MATLAB 实现(时域方法)
  3. 查看.Net Framework版本号
  4. 纯CSS图片缩放后显示详细信息
  5. 修改python的pip下载源
  6. web项目怎么连接云服务器,web项目怎么连接云服务器
  7. 如何预防后台被攻击?Tomcat 的安全配置来啦!
  8. Linux操作系统原理与应用04:内存管理
  9. Linux进阶之给nginx设置登录用户验证
  10. 字符串、数组处理方法总结
  11. 虚拟机VMware镜像下载及安装Linux系统
  12. dfema规则_DFMEA失效分析简介
  13. dex2jar和jd-GUI的下载安装与使用
  14. 回忆杀:那些年,山寨机,暗号*#220807#,和玩过的mrp游戏
  15. 突破百度知道瓶颈,问淘宝引流
  16. 【微信公众号开发系列文章】一、微信公众号开发环境搭建
  17. 浅析大数据给我们带来的便利和好处
  18. 制作Unity的二维时间轴编辑器界面
  19. IIS 无法启动:发生意外错误0x8ffe2740 的原因
  20. (已解决)STM32报错Error: L6218E: Undefined symbol assert_param (referred from misc.o).

热门文章

  1. Strange Characters On Budgetary Control Result Page [ID 1439888.1]
  2. Windows 7系统安装图解
  3. Q for Mortals2笔记 -- 列表
  4. codevs——T3111 CYD啃骨头
  5. 移动网游SDK接入渠道收集
  6. 文本处理--中文分词
  7. java水果商城实战项目_20年王汉远JAVA实战项目:水果SSM商城网站开发,教程+源码百度云(10G)...
  8. Linux新手的选择:Deepin(深度操作系统)
  9. C++学习笔记【模板】
  10. cgminer 2.2.4 参数详解!