Python除了可以用来开发Python Web之后,其实还可以用来编写一些爬虫小工具,可能还有人不知道什么是爬虫的。

一、爬虫的定义:

爬虫——网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本。

二、学习内容:

1.Python基础知识;

2.Python的两个库:urllib和urllib2;

3.Python正则表达式;

4.Python爬虫框架Scrapy。

三、内容解析:

1.urllib和urllib2库和正则表达式:

urllib和urllib2两个库是Python中最基本的爬虫库,利用这两个库可以获取指定网页的内容,然后使用正则表达式对内容进行提取和解析,便可得到我们想要的内容。

Python的正则表达式是一种用来匹配字符串的工具,它的设计思想:用一种描述性的语言来给字符串定义一个规则,凡是符合规则的字符串,就认为它“匹配”的,否则该字符串就不匹配。

2.Scrapy框架:

其实上述的库和正则表达式已经能够完成基本的爬虫功能,使用框架的目的是为了更快地获取更多的信息内容,关于Scrapy的介绍如下:

Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。

转载于:https://www.cnblogs.com/linshuhe/p/5733263.html

Python 爬虫1——爬虫简述相关推荐

  1. Python 简单网页爬虫学习

    1 #coding=utf-8 2 3 # 参考文章: 4 # 1. python实现简单爬虫功能 5 # http://www.cnblogs.com/fnng/p/3576154.html 6 # ...

  2. 基于python的数据爬虫学习与体会

    文章目录 一.从Python编程基础中简述爬虫应用都会用到哪些pip模块以及对应的功能. pip install reqeusts pip install bs4 pip install pandas ...

  3. python创建scrapy_Python爬虫教程-31-创建 Scrapy 爬虫框架项目

    首先说一下,本篇是在 Anaconda 环境下,所以如果没有安装 Anaconda 请先到官网下载安装 Scrapy 爬虫框架项目的创建0.打开[cmd] 1.进入你要使用的 Anaconda 环境1 ...

  4. python免费自学爬虫_这套Python爬虫学习教程,不到一天即可新手到进阶!免费领...

    想用Python做爬虫,而你却还不会Python的话,那么这些入门基础知识必不可少.很多小伙伴,特别是在学校的学生,接触到爬虫之后就感觉这个好厉害的样子,我要学.但是却完全不知道从何开始,很迷茫,学的 ...

  5. python爬虫数据提取,Python 信息提取-爬虫,爬虫提取数据, import re

    Python 信息提取-爬虫,爬虫提取数据, import re import requestsimport refrom bs4 import BeautifulSoupurl = "ht ...

  6. python爬取百度贴吧中的所有邮箱_使用 Python 编写多线程爬虫抓取百度贴吧邮箱与手机号...

    原标题:使用 Python 编写多线程爬虫抓取百度贴吧邮箱与手机号 不知道大家过年都是怎么过的,反正栏主是在家睡了一天,醒来的时候登QQ发现有人找我要一份贴吧爬虫的源代码,想起之前练手的时候写过一个抓 ...

  7. scrapy爬虫储存到mysql_详解Python之Scrapy爬虫教程NBA球员数据存放到Mysql数据库

    获取要爬取的URL 爬虫前期工作 用Pycharm打开项目开始写爬虫文件 字段文件items # Define here the models for your scraped items # # S ...

  8. python urllib.request 爬虫 数据处理-运维学python之爬虫基础篇(二)urllib模块使用...

    1 何为爬虫 网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本.另外一些不常使用的名字还有蚂蚁.自动索引. ...

  9. python拿什么做可视化界面好-用python打造可视化爬虫监控系统,酷炫的图形化界面...

    原标题:用python打造可视化爬虫监控系统,酷炫的图形化界面 本文并不是讲解爬虫的相关技术实现的,而是从实用性的角度,将抓取并存入 MongoDB 的数据 用 InfluxDB 进行处理,而后又通过 ...

最新文章

  1. 图的邻接表存储与深度优先遍历代码实现
  2. Mac下提示APP已损坏,打不开,请移至废纸篓
  3. React绑定this的三种方式
  4. IEnumerable.EachTSource(FuncTSource, TSource predicate) 逐个更改列表成员的值
  5. FreeModbus输入寄存器
  6. TortoiseSVN的安装和使用
  7. win10删除开机密码_讲解win10忘记开机密码
  8. mysql geometry 维度_使用MySQL的geometry类型处理经纬度距离问题的方法
  9. 方差(Variance)和标准差(Standard Deviation)
  10. pro git学习笔记 4
  11. Hive安装部署及简单测试 网页《一》
  12. 一梦江湖获取服务器信息卡住,一梦江湖手游2021年8月6日更新公告
  13. [转载]JSP利用组件实现文件上传的全攻略
  14. ROS2 中的 launch 文件入门的 6 个疑问
  15. 电影《Green book》观后感_已补全:携带着种族歧视的“光环”,艰难地获得朋友的相互依赖,依然得享受生活的酸甜苦咸。...
  16. 关于电脑新建共享文件夹相关教程
  17. Python编程:loguru管理日志输出
  18. grid_map(五):grid_map函数定义、类型定义学习
  19. 485 CAN 单总线 SPI I2C 的总结
  20. 基于北方苍鹰优化算法的函数寻优算法

热门文章

  1. 10 种机器学习算法的要点
  2. sscanf操作字符串和整型的区别
  3. 多进程同时写一个文件会怎样?分别用write和fwrite去观察现象
  4. realloc函数在使用上要注意什么问题
  5. 将同一列的值用逗号分隔连接成一个字符串
  6. Hexo+OSChina(码云)+git 搭建个人博客
  7. 输出控制台传递的参数——小小实例。
  8. 九度OJ—题目1032:ZOJ
  9. 使用实体框架、Dapper和Chain的仓储模式实现策略
  10. Oracle 监听器日志配置与管理