更多编程教程请到:菜鸟教程 https://www.piaodoo.com/

友情链接:

高州阳光论坛https://www.hnthzk.com/

人人影视http://www.sfkyty.com/

首先爬虫是什么?

网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本。

根据我的经验,要学习Python爬虫,我们要学习的共有以下几点:

Python基础知识

Python中urllib和urllib2库的用法

Python正则表达式

Python爬虫框架Scrapy

Python爬虫更高级的功能

1.Python基础学习

首先,我们要用Python写爬虫,肯定要了解Python的基础吧,万丈高楼平地起,不能忘啦那地基,哈哈,那么我就分享一下自己曾经看过的一些Python教程,小伙伴们可以作为参考。

1) Python学习网

Python学习网上有大量免费的Python入门教程,以便大家学习。不仅有视频教程,还有相应的问答版块,帮你解决学习过程中的问题,效果还是蛮不错的,内容基本上都是最基础的,入门开始的话,就这个吧

2) 廖雪峰Python教程

后来,我发现了廖老师的Python教程,讲的那是非常通俗易懂哪,感觉也是非常不错,大家如果想进一步了解Python就看一下这个吧。

3) 简明Python教程

还有一个我看过的,简明Python教程,感觉讲的也不错

学习网址:简明Python教程(https://woodpecker.org.cn/abyteofpython_cn/chinese/pr01.html#s01)

4) 汪海的实验室

这是我的本科实验室学长,入门的时候参考的他的文章,自己重新做了总结,后来这些系列文章又在他的基础上增加了一些内容。

学习网址:汪海的实验室(https://blog.csdn.net/wxg694175346/category_1418998_1.html)

2.Python urllib和urllib2 库的用法

urllib和urllib2库是学习Python爬虫最基本的库,利用这个库我们可以得到网页的内容,并对内容用正则表达式提取分析,得到我们想要的结果。这个在学习过程中我会和大家分享的。

3.Python 正则表达式

Python正则表达式是一种用来匹配字符串的强有力的武器。它的设计思想是用一种描述性的语言来给字符串定义一个规则,凡是符合规则的字符串,我们就认为它“匹配”了,否则,该字符串就是不合法的。这个在后面的博文会分享的。

4.爬虫框架Scrapy

如果你是一个Python高手,基本的爬虫知识都已经掌握了,那么就寻觅一下Python框架吧,我选择的框架是Scrapy框架。这个框架有什么强大的功能呢?下面是它的官方介绍:

HTML, XML源数据 选择及提取 的内置支持

提供了一系列在spider之间共享的可复用的过滤器(即 Item Loaders),对智能处理爬取数据提供了内置支持。

通过 feed导出 提供了多格式(JSON、CSV、XML),多存储后端(FTP、S3、本地文件系统)的内置支持

提供了media pipeline,可以 自动下载 爬取到的数据中的图片(或者其他资源)。

高扩展性。您可以通过使用 signals ,设计好的API(中间件, extensions, pipelines)来定制实现您的功能。

内置的中间件及扩展为下列功能提供了支持:

cookies and session 处理

HTTP 压缩

HTTP 认证

HTTP 缓存

user-agent模拟

robots.txt

爬取深度限制

针对非英语语系中不标准或者错误的编码声明, 提供了自动检测以及健壮的编码支持。

支持根据模板生成爬虫。在加速爬虫创建的同时,保持在大型项目中的代码更为一致。详细内容请参阅 genspider 命令。

针对多爬虫下性能评估、失败检测,提供了可扩展的 状态收集工具 。

提供 交互式shell终端 , 为您测试XPath表达式,编写和调试爬虫提供了极大的方便

提供 System service, 简化在生产环境的部署及运行

内置 Web service, 使您可以监视及控制您的机器

内置 Telnet终端 ,通过在Scrapy进程中钩入Python终端,使您可以查看并且调试爬虫

Logging 为您在爬取过程中捕捉错误提供了方便

支持 Sitemaps 爬取

具有缓存的DNS解析器

官方文档:http://doc.scrapy.org/en/latest/

等我们掌握了基础的知识,再用这个 Scrapy 框架吧!

扯了这么多,好像没多少有用的东西额,那就不扯啦!

知识点扩展:

爬虫基本原理

爬虫是 模拟用户在浏览器或者App应用上的操作,把操作的过程、实现自动化的程序

当我们在浏览器中输入一个url后回车,后台会发生什么?比如说你输入https://www.baidu.com

简单来说这段过程发生了以下四个步骤:

查找域名对应的IP地址。

浏览器首先访问的是DNS(Domain Name System,域名系统),dns的主要工作就是把域名转换成相应的IP地址向IP对应的服务器发送请求。

服务器响应请求,发回网页内容。

浏览器显示网页内容。

网络爬虫要做的,简单来说,就是实现浏览器的功能。通过指定url,直接返回给用户所需要的数据, 而不需要一步步人工去操纵浏览器获取。

到此这篇关于python爬虫基础知识点整理的文章就介绍到这了,更多相关Python2爬虫入门内容请搜索菜鸟教程www.piaodoo.com以前的文章或继续浏览下面的相关文章希望大家以后多多支持菜鸟教程www.piaodoo.com!

python基础知识500题_python爬虫基础知识点整理相关推荐

  1. python基础知识500题_Python基础语法习题参考(0-9关)

    第0关 练习-打印皮卡丘-参考 请你使用**print()函数**和**'''**将下面的皮卡丘打印出来.皮卡丘字符画可以直接复制步骤1里的. ``` へ /| /\7 ∠_/ / │ / / │ Z ...

  2. 计算机基础知识判断题答案,计算机基础知识试题及答案判断题模板.docx

    优质文档 PAGE 页码页码/NUMPAGES 总页数总页数 计算机基础知识试题及答案判断题(一) 1. 冯?诺依曼原理是计算机的唯一工作原理..( × ) 2. 计算机能直接识别汇编语言程序..( ...

  3. 计算机基础知识判断题答案,计算机基础知识试题及答案判断题

    计算机基础知识试题及答案判断题(一) 1.冯?诺依曼原理是计算机的唯一工作原理.(×) 2.计算机能直接识别汇编语言程序.(×) 3.计算机能直接执行高级语言源程序.(×) 4.计算机掉电后,ROM中 ...

  4. python代码html显示数据_Python爬虫基础之认识html和学习数据提取(上)

    我:我已经学会了基本的python,接下来可以学什么鸭? 惨绿青年:接下来可以学习制作python爬虫了,但还是需要学习相关的知识. 我:什么知识鸭? 惨绿青年:网页的相关知识.我们看到的网页一般是h ...

  5. python win32ui选取文件夹_Python爬虫基础之认识html和学习数据提取(上)

    我:我已经学会了基本的python,接下来可以学什么鸭? 惨绿青年:接下来可以学习制作python爬虫了,但还是需要学习相关的知识. 我:什么知识鸭? 惨绿青年:网页的相关知识.我们看到的网页一般是h ...

  6. python爬视频网站数据_python爬虫基础应用----爬取无反爬视频网站

    一.爬虫简单介绍 爬虫是什么? 爬虫是首先使用模拟浏览器访问网站获取数据,然后通过解析过滤获得有价值的信息,最后保存到到自己库中的程序. 爬虫程序包括哪些模块? python中的爬虫程序主要包括,re ...

  7. python发短信 金山_Python爬虫基础练习(四) 金山翻译爬取(进阶篇)

    上一篇文章金山翻译爬取(基础篇)讲到爬取金山翻译,并且实现了简单词汇的爬取,但是我们的报错信息都是一长串字符,就像这样 当然这个报错还是很容易看懂的,"列表索引超出范围",但是我们 ...

  8. python字符串操作编程题_python开发基础02-字符串操作方法练习题

    1.执行 Python 脚本的两种方式 python解释器 py文件  #!/usr/bin/env python 进入python解释器,便捷命令并执行 pycharm或其他pythonIDE sh ...

  9. python爬取头条图集_Python爬虫基础练习(六) 今日头条街头篮球图片爬取

    今天我们要爬取的仍然是图片,不过与上一篇有所不一样的是,今天爬取的是今日头条上的图集,接着往下看吧~ 运行平台:Windows Python版本:Python3.6 IDE: Sublime Text ...

最新文章

  1. 泰晤士报华科计算机排名,国内大学排行被“高估”的三所985大学,实力远小于排名,你认可吗?...
  2. class没有发布到tomcat_SpringBoot内置tomcat启动原理
  3. Linux函数名加数字,C++ 编译器的函数名修饰规则
  4. 沐创密码芯片获奖!中国电子学会年度技术发明一等奖,颁给国产集成电路公司...
  5. Oracle使用imp/exp导入/导出数据库
  6. OS- -操作系统概念
  7. 4 [面向对象]-三大特性:多态
  8. WAMP本地环境配置多站点虚拟目录教程(详细)
  9. 使用跟踪和调试进行条件编译
  10. css案例学习之并集选择器
  11. 【动态规划】P1220:区间dp:关路灯
  12. linux 线程头文件,[填空题] 在Linux多线程编程时,需要包含头文件()。
  13. 测试手机软件打开速度的app,16个软件打开速度测试 iPhoneXS怒胜三星Note9
  14. 函数----ModifyStyle
  15. linux根据uid反查用户名
  16. 移动光猫怎么设置虚拟服务器设置,移动光纤怎么设置无线路由器?
  17. Mono.Cecil FAQ文档翻译
  18. 滴水三期:day04.3-标志寄存器
  19. c 语言程序设计形考4,国开学习网电大C语言程序设计形考任务4答案
  20. verilog符号 与或非 异或_在Verilog HDL设计中用什么表示异或

热门文章

  1. 万字综述:行业知识图谱构建最新进展
  2. 虹科案例 | 实现了新的核磁共振应用!(下)
  3. html复选框全选怎么实现,js html css实现复选框全选与反选
  4. 用数学方法计算井字棋合法局面数——波利亚定理的简单应用
  5. heroku 服务器的使用
  6. 抱歉,Xposed真的可以为所欲为——3.微信运动占领封面出售广告位
  7. 在article文档类型中使用中文字体
  8. 网络安全:文件上传 + 一句话木马原理 + 菜刀的简单使用
  9. 华为云人脸识别SDK踩坑日记
  10. 数字孪生|成熟度等级