同样都是程序员,为什么别人家的程序员效率那么高?因为他用 Python。

接下来我们一起来看一个入门级的Python爬虫案例是实战。

主讲内容:

  • 1.什么是爬虫
  • 2.浏览器的工作原理
  • 3.爬虫的工作原理
  • 4.爬虫的工作步骤
  • 5.爬取糗事百科全网小视频
  • 6.使用正则表达式提取数据
  • 7.数据的存储

1、什么是爬虫

从本质上来说,就是利用程序在网上拿到对我们有价值的数据。
实际上爬虫就是使用编程语言所编写的程序,作用是从网络上获取有价值的数据,重要的就是速度比手动获取数据快 。

2、浏览器的工作原理

3、爬虫的工作原理

4、爬虫的工作步骤

爬虫的工作步骤

  • (1)获取数据:爬虫程序会根据我们提供的网址,向服务器发起请求,然后返回数据  -url
  • (2)解析数据:爬虫程序会把服务器返回的数据解析成我们能读懂的格式。response响应结果
  • (3)提取数据:爬虫程序再从中提取出我们需要的数据。
  • (4)储存数据:爬虫程序把这些有用的数据保存起来,便于你日后的使用和分析-文件存储

5、请求与响应

  • 请求request
  • 请求方式 get和post get
  • 请求:地址栏上显示表单数据    http://127.0.0.1:8020/siper/get.html ? uname=admin&pwd=8888 post
  • 请求:表单数据在form data中
  • 响应response
  • 响应回来的数据:html+css+js+data,由浏览器进行解析执行

6、小试牛刀-糗事百科(提取数据)

  • 请求网址url:
  • 请求方式:get
  • 爬虫方式发送请求得到响应

 

  • 分析网址:
  • 使用正则表达式提取数据

数据存储

  • 文件的分类: 文本文件
  • 二进制文件 (视频属于二进制文件)
  • 文件的打开模式

文件读写之后需要释放资料

  • (1)使用close()释放资源缺点,容易忘写
  • (2)使用上下文管理器 with  执行完毕自动释放资源

7、爬虫操作步骤总结

  • 分析请求网址发送请求
  • 分析数据
  • 数据提取(正则表达式、BeautifulSoup)
  • 数据的存储

同学你实战成功了吗?

Python爬虫入门实战,图文详细教学,一看就懂相关推荐

  1. python爬虫入门实战---------一周天气预报爬取_Python爬虫入门实战--------一周天气预报爬取【转载】【没有分析...

    Python爬虫入门实战--------一周天气预报爬取[转载][没有分析 Python爬虫入门实战--------一周天气预报爬取[转载][没有分析] 来源:https://blog.csdn.ne ...

  2. python爬虫入门教程(非常详细),超级简单的Python爬虫教程

    一.基础入门 1.1什么是爬虫 爬虫(spider,又网络爬虫),是指向网站/网络发起请求,获取资源后分析并提取有用数据的程序. 从技术层面来说就是 通过程序模拟浏览器请求站点的行为,把站点返回的HT ...

  3. Python爬虫入门实战2:获取CSDN个人博客文章基础信息

    ☞ ░ 老猿Python博文目录:https://blog.csdn.net/LaoYuanPython/article/details/98245036 ░ 一.引言 当爬取博文内容时,有时需要进行 ...

  4. python爬虫入门实战!爬取博客文章标题和链接!

    最近有小伙伴和我留言想学python爬虫,那么就搞起来吧. 准备阶段 爬虫有什么用呢?举个最简单的小例子,你需要<战狼2>的所有豆瓣影评.最先想的做法可能是打开浏览器,进入该网站,找到评论 ...

  5. Python爬虫入门实战之猫眼电影数据抓取(实战篇)

    项目实战 静态网页实战 本节我们将为大家展现一个完整爬虫的大致过程,此次项目内容为提取猫眼电影TOP100榜中的所有电影信息并存储至CSV文件中,其首页地址为http://maoyan.com/boa ...

  6. python爬虫入门(超详细!!!)

    python爬虫 一.爬虫基础 安装模块 requests:lxml [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-2BYx7jJh-1664347823627)(E: ...

  7. Python爬虫入门实战之猫眼电影数据抓取(理论篇)

    前言 本文可能篇幅较长,但是绝对干货满满,提供了大量的学习资源和途径.达到让读者独立自主的编写基础网络爬虫的目标,这也是本文的主旨,输出有价值能够真正帮助到读者的知识,即授人以鱼不如授人以渔,让我们直 ...

  8. python爬虫入门实战争胜法_Python爬虫入门实战之猫眼电影数据抓取(理论篇)

    前言 本文可能篇幅较长,但是绝对干货满满,提供了大量的学习资源和途径.达到让读者独立自主的编写基础网络爬虫的目标,这也是本文的主旨,输出有价值能够真正帮助到读者的知识,即授人以鱼不如授人以渔,让我们直 ...

  9. Python爬虫入门实战学习笔记(一)

    (全部代码在最后,学自"我的IT私塾") 什么是爬虫 网络爬虫,是一种按照一定规则,自动抓取互联网信息的程序或者脚本.由于互联网数据的多样性和资源的有限性,根据用户需求定向抓取相关 ...

最新文章

  1. 智能卡技术和身份认证
  2. qt 启动画面显示图片_用QT实现软件启动画面的效果,学习参考!
  3. 【Java例题】7.6文件题3-文本文件统计
  4. linux https重定向,Linux | Apache环境下强制http跳转至https的配置总结
  5. Pixhawk之姿态解算篇(3)_源码姿态解算算法分析
  6. netty实现客户端服务端心跳重连
  7. python人脸识别opencv_基于python+OpenCV模块的人脸识别定位技术
  8. Windows Server_2008下搭建个人下载服务器(FTP)
  9. C/C++ 中的指针
  10. TensorFlow 训练单特征和多特征的线性回归
  11. jquery_ui_api中文
  12. GitHub使用教程-官网指南
  13. keil 结构体引用_详解keil采用C语言模块化编程时全局变量、结构体的定义、声明以及头文件包含的处理方法...
  14. 硬盘文件系统系列专题之二 NTFS
  15. mysql 执行delete引发死锁问题
  16. 图片浏览器java程序_图片浏览器用java实现
  17. 加速安装pytorch
  18. style=扑克牌游戏大家应该都比较熟悉了,一副牌由54张组成,含3~A、2各4张,小王1张,大王1张。 牌面从小到大用如下字符和字符串表示(其中,小写joker表示小王,大写JOKER表示大
  19. 独孤思维:互联网赚钱的底层逻辑
  20. 【计算机网络】计算机网络的主要功能

热门文章

  1. 渡一教育公开课web前端开发JavaScript精英课学习笔记(六)函数及作用域
  2. Mysql数据库宾馆管理系统_Maven+JSP+Servlet+JDBC+Mysql实现的dbExper宾馆管理系统
  3. 虚拟机mac已连接以太网但是依旧没网络解决方法
  4. PaddlePaddle : AI抠图及图片合成
  5. VTP(VLAN Trunking Protocol) - Pruning
  6. pdf转换器4.1下载?
  7. Fishbone Diagram
  8. 关于金字塔格式转tiff并且openslide能获取到缩略图等标签信息
  9. node.js实现编码转GBK转UTF8,中文乱码方案!!!
  10. R语言分类变量进行回归时的编码方案