为了方便,在Windows下我用了PyCharm,个人感觉这是一款优秀的python学习软件。爬虫,即网络爬虫,大家可以理解为在网络上爬行的一直蜘蛛,互联网就比作一张大网,而爬虫便是在这张网上爬来爬去的蜘蛛咯,如果它遇到资源,那么它就会抓取下来。

学习python爬虫前,先学习下其他的一些知识:

(一)url

URL,即统一资源定位符,也就是我们说的网址,统一资源定位符是对可以从互联网上得到的资源的位置和访问方法的一种简洁的表示,是互联网上标准资源的地址。互联网上的每个文件都有一个唯一的URL,它包含的信息指出文件的位置以及浏览器应该怎么处理它。

URL的格式由三部分组成:
①第一部分是协议(或称为服务方式)。
②第二部分是存有该资源的主机IP地址(有时也包括端口号)。
③第三部分是主机资源的具体地址,如目录和文件名等

(二)urllib和urllib2库

urllib和urllib2库是学习Python爬虫最基本的库,利用这个库我们可以得到网页的内容,并对内容用正则表达式提取分析,得到我们想要的结果。

(三)正则表达式

正则表达式是一种用来匹配字符串的强有力的武器。它的设计思想是用一种描述性的语言来给字符串定义一个规则,凡是符合规则的字符串,我们就认为它“匹配”了,否则,该字符串就是不合法的。

转载于:https://blog.51cto.com/zhouxt/1655682

python 网络爬虫学习笔记(一)相关推荐

  1. python网络爬虫学习笔记(6)动态网页抓取(一)知识

    文章目录 网络爬虫学习笔记(2) 1 资料 2 笔记 2-1 动态抓取概述 2-2 通过浏览器审查元素解析真实网页地址 2-3 网页URL地址的规律 2-4 json库 2-5 通过Selenium模 ...

  2. python网络爬虫学习笔记(7)动态网页抓取(二)实践

    文章目录 1 资料 2 笔记 2-1 准备 2-1-1. 网址 2-2-2 文本位置 2-2 代码 2-2-1 原型 2-2-2 ver0.1 1 资料 <Python网络爬虫从入门到实践> ...

  3. Python网络爬虫学习笔记(二)基本库的使用

    基本库的使用 最基础的 HTTP 库有 urllib . httplib2 . requests . treq 等 . 使用urlib urlib 包含四个模块 口 request : 它是最基本的 ...

  4. python网络爬虫学习笔记(二):爬虫基本概述

    1.爬虫的基本概述 (1) 获取网页 爬虫首先要做的工作就是获取网页,这里就是获取网页的源代码.源代码里包含了网页的部分有用信息,所以只要把源代码获取下来,就可以从中提取想要的信息了. python提 ...

  5. python网络爬虫学习笔记(三):urllib库的使用

    文章目录 使用urllib库 1.urllib.request.urlopen()函数 urlopen()函数API: 2.urllib.request函数 验证 Cookies 保存Cookies ...

  6. python网络爬虫学习笔记(一):网页基础

    1.URI和URL URI的全称为Uniform Resource Identifier,即统一资源标志符,URL的全称为Universal Resource Locator,即统一资源定位符. 2. ...

  7. python网络爬虫学习笔记(十一):Ajax数据爬取

    文章目录 1.基本介绍 2.基本原理 3.实战 有时候我们在用requests抓取页面的时候,得到的结果可能和在浏览器中看到的不一样:在浏览器中可以看到正常显示的页面数据,但是使用requests得到 ...

  8. python网络爬虫学习笔记(十):数据存储

    文章目录 1.文本存储 2.JSON文件存储 2.1 读取JOSN 2.2 输出JSON 3.CSV文件存储 3.1 写入 3.2 读取 1.文本存储 import requests from pyq ...

  9. python网络爬虫学习笔记(九):Beautiful Soup的使用

    文章目录 1.基本用法 2.节点选择器 2.1 获取属性和名称 2.2 获取内容 (1)子节点和子孙节点 (2)父节点和祖先节点 (3)兄弟节点 3.方法选择器 4.CSS选择器 Beautiful ...

最新文章

  1. 以太坊智能合约预言机
  2. ORA-12154:TNS:无法解析指定的连接标识符
  3. String到底是值类型还是引用类型(C#)
  4. MIT正式发布编程语言Julia 1.0:Python、R、C++三合一
  5. java 全排列 非递归_全排列(递归与非递归实现) | 学步园
  6. 三星首款5nm A78旗舰芯Exynos 1080即将亮相
  7. Android 仿 新闻阅读器 菜单弹出效果(附源码DEMO)
  8. SpringBoot安装CLI(mac)
  9. jsp el表达式无法正常显示解决方法
  10. js微信监听返回_Node.js入门
  11. 百旺智能编码_百旺税控盘如何增加商品编码?
  12. 神经网络的数学原理(二):神经元与神经网络
  13. 面向对象-当谈论面向对象的时候,我们到底在谈论什么?
  14. 拿它们练Python爬虫,是在法律边缘试探吗?爬虫圈香饽饽之视频网站的评论区采集
  15. Elasticsearch-analysis-pinyin7.6.0--可选参数详情
  16. 台式计算机常用哪些主板结构,一种台式计算机用主板的制作方法
  17. 给一个字符串数组,判断其是否是首尾相连的
  18. 电子商务系统的测试(十四)
  19. 中科红旗之死--国产软件界最大不幸
  20. SCHIEDERWERK电源维修SMPS12/50 PFC3800解析

热门文章

  1. 徐铁:当深度学习握手脑科学-圣城会议归来
  2. 业界 | 清华发布《人工智能芯片技术白皮书(2018)》
  3. 程序员大危机,工作难逃监视系统“法眼”!
  4. 阿里青橙奖名单公布,23位院士、2位图灵奖得主推荐
  5. 高性能计时器Timer的设计(时间轮和时间堆两种方式)
  6. EOS主网上线只是开始,如何运营决定未来
  7. TCP/IPICMP报文的分类
  8. [转]mysql使用关键字作为列名的处理方式
  9. J2ee分布式框架--技术介绍文档
  10. Spring Boot特性