1.什么是爬虫

爬虫就是进入网页自动获取数据的程序。当它进入一个网页时,将网页上需要的数据下载下来,并跟踪网页上的其他链接,进入新的页面下载数据,并继续跟踪链接下载数据。

2.URL

URL,即统一资源定位符,也就是我们说的网址,统一资源定位符是对可以从互联网上得到的资源的位置和访问方法的一种简洁的表示,是互联网上标准资源的地址。互联网上的每个文件都有一个唯一的 URL,它包含的信息指出文件的位置以及浏览器应该怎么处理它

URL由三部分组成:资源类型、存放资源的主机域名、资源文件名。
也可认为由4部分组成:协议、主机、端口、路径
URL的一般语法格式为:
(带方括号[]的为可选项):
protocol

Python爬虫学习二爬虫基础了解相关推荐

  1. Python入门学习笔记1-Python基础

    Python入门学习笔记1-Python基础 前言:本文介绍了Python学习的前导知识概念以及必记基础函数,如善用help方法查看帮助文档,以及内置对象类型的概念以及常用函数的详解. 一.Pytho ...

  2. Python深度学习之机器学习基础

    Python深度学习之机器学习基础 一.前言 本文记录 弗朗索瓦·肖莱的<Python深度学习>第四章 机器学习基础有关笔记. 二.笔记 2.1机器学习的四个分支 监督学习 序列生成(se ...

  3. OpenStack(M)+ ubuntu 搭建学习二:基础环境配置

    目录 一.配置网络接口 二.配置域名解析 三 .配置国内的软件源 四. 启用OpenStack库 五.安装OpenStack客户端 六.同步系统时钟与时钟服务器(NTP) 具体步骤可参考官方文档:Op ...

  4. python爬虫学习笔记-requests基础

    爬虫初始 为什么要学习爬虫 之前在授课过程中,好多同学都问过我这样的一个问题:为什么要学习爬虫,学习爬虫能够为我们以后的发展带来那些好处?其实学习爬虫的原因和为我们以后发展带来的好处都是显而易见的,无 ...

  5. Python爬虫学习二

    1.selenium自动测试工具 2.主要使用selenium的目的是跳过登录验证3.下载驱动器下载请求库 ''' from selenium import webdriver import time ...

  6. python爬虫学习(二) 简易网页爬取

    先在网页进行搜索 得到url https://www.sogou.com/web?query=波晓张&_asf=www.sogou.com&_ast=&w=01019900&a ...

  7. 爬虫学习二: bs4 xpath re

    欢迎关注datawhale:http://www.datawhale.club/ 2.1 Beautiful Soup库入门 目标: 2.1.1 Beautiful Soup库的基本元素 2.1.2 ...

  8. scrapy 爬虫学习二[中间件的学习]

    scrapy源码解析参考连接:https://www.jianshu.com/p/d492adf17312 ,直接看大佬的就行了,这里便就不多说了. 今天要学习的是:Scrapy框架中的downloa ...

  9. python爬虫学习:爬虫QQ说说并生成词云图,回忆满满

    自学过一段时间的python,用django自己做了个 网站,也用requests+BeautifulSoup爬虫过些简单的网站,周末研究学习了一波,准备爬取QQ空间的说说,并把内容存在txt中,读取 ...

最新文章

  1. 台3岁女童疑把玩风枪致死案疑点多 警方将调查厘清
  2. [Job Interview] C/C plus plus Programming
  3. FVR420v试用感受之六!
  4. C++常量指针this
  5. toArray()方法使用说明
  6. 在Windows 7中禁用或修改Aero Peek的“延迟时间”
  7. 菜鸟学java要多久_菜鸟学java,根本停不下来!
  8. c55x汇编语言,TMS320C55x汇编语言编程A.ppt
  9. 苹果发布iOS 13.1.1更新 修复第三方键盘APP安全等问题
  10. windows2003手工安装配置php5详细指南
  11. 雾霾的结构化责任主体
  12. 5、那智机器人编码器复位与编码器修正
  13. java 正态分布数_生成正态分布的数
  14. 安卓短信转发qq邮箱
  15. 邮件传输的过程都看不懂。那我走(狗头)
  16. H.265编码视频播放器在播放FLV视频流时出现黑屏,如何解决?
  17. 视频去水印、文案提取和智能配音,视频搬运合成速成教程,超简单
  18. Android拉取微信公众号列表,Xposed实时获取微信公众号推送
  19. html导出excel,数据显示过长E+
  20. 转载 电容的ESR

热门文章

  1. 【转】全面理解javascript的arguments,callee,caller,call,apply概念(修改版)
  2. 算法基础系列之三:螺旋形矩阵
  3. 【转贴】想应聘的瞧仔细了:HW分析大全
  4. a/b测试_如何进行A / B测试?
  5. css+沿正方形旋转,CSS3+SVG+JS 正方形沿着正方本中轴移动翻转的动画
  6. 熊猫数据集_大熊猫数据框的5个基本操作
  7. doom 源码_Cartpole和Doom的策略梯度简介
  8. 软件项目可行性分析定义_如何定义最低可行产品
  9. 准确性 敏感性 特异性_如何掌握类型特异性的艺术
  10. 华为开源构建工具_为什么我构建了用于大数据测试和质量控制的开源工具