在学习Python爬虫部分,需要你已经学过Python基础和前端的相关知识。

文章目录

  • 开发环境介绍:
  • 数据的来源及作用
  • 数据的作用
  • 爬虫的相关概念
    • a) 爬虫的概念
    • b) 爬虫分类
    • c) 爬虫的原理
      • d) 各种语言写爬虫的对比

开发环境介绍:

  • window10 操作系统
  • Python解释器3.8
  • 集成开发环境pycharm

数据的来源及作用

数据的来源有哪些?

  • 用户产生的数据: 百度指数
  • 政府统计的数据: 政府数据
  • 数据管理公司: 聚合数据
  • 自己爬取的数据: 爬取网站上的某些视频

数据的作用

  • 数据分析
  • 智能产品的练习数据
  • 其他(比如买卖)

爬虫的相关概念

a) 爬虫的概念

爬虫就是应用程序,从网上下载各种各样的资源。
换句话说就是使用编程语言编写一个用于爬虫web或者app的数据应用程序。
怎么爬取数据呢?

  • 找到要爬取的目标网站,发起请求
  • 分析url是如何变化的和提取有用的url
  • 提取有用的信息

爬虫什么数据都可以爬吗?
当然不能,需要遵守一定的规则和协议

可以看一下京东的:

有些是允许的,有些是不允许的。

b) 爬虫分类

  • 通用爬虫
    百度等搜索引擎,从一些初始的URL扩展到整个网站,主要为门户站点搜索引起和大型网站服务采集数据
  • 聚焦网站爬虫
    主题网络爬虫,选择性爬取根据需求相关的页面的网络爬虫
  • 增量式网络爬虫
    对已经下载的页面采取更新知识和只爬新产生的。

c) 爬虫的原理

  • 通用的爬虫原理
  • 聚焦网络爬虫原理

d) 各种语言写爬虫的对比

  • php对多线程,异步支持不是很友好,并发能力弱。速度和效率低
  • java: 代码量大,而且重构成本比较高,任何改动都会导致大量的改动,而爬虫需要经常修改采集代码
  • Python: 开发效率高,代码简洁,支持的模块多,和HTTP请求和html解析模块非常丰富,还有scrapy,scrapy-redis框架,让开发爬虫更简单。

【Python从零到壹】Python爬虫部分开篇相关推荐

  1. [Python从零到壹] 九.网络爬虫之Selenium基础技术万字详解(定位元素、常用方法、键盘鼠标操作)

    欢迎大家来到"Python从零到壹",在这里我将分享约200篇Python系列文章,带大家一起去学习和玩耍,看看Python这个有趣的世界.所有文章都将结合案例.代码和作者的经验讲 ...

  2. [Python从零到壹] 五.网络爬虫之BeautifulSoup基础语法万字详解

    欢迎大家来到"Python从零到壹",在这里我将分享约200篇Python系列文章,带大家一起去学习和玩耍,看看Python这个有趣的世界.所有文章都将结合案例.代码和作者的经验讲 ...

  3. [Python从零到壹] 四.网络爬虫之入门基础及正则表达式抓取博客案例

    欢迎大家来到"Python从零到壹",在这里我将分享约200篇Python系列文章,带大家一起去学习和玩耍,看看Python这个有趣的世界.所有文章都将结合案例.代码和作者的经验讲 ...

  4. c#使用正则表达式获取TR中的多个TD_[Python从零到壹] 四.网络爬虫之入门基础及正则表达式抓取博客案例...

    首先祝大家中秋节和国庆节快乐,欢迎大家来到"Python从零到壹",在这里我将分享约200篇Python系列文章,带大家一起去学习和玩耍,看看Python这个有趣的世界.所有文章都 ...

  5. [Python从零到壹] 四十一.图像处理基础篇之图像采样处理

    欢迎大家来到"Python从零到壹",在这里我将分享约200篇Python系列文章,带大家一起去学习和玩耍,看看Python这个有趣的世界.所有文章都将结合案例.代码和作者的经验讲 ...

  6. [Python从零到壹] 三十七.图像处理基础篇之图像融合处理和ROI区域绘制

    欢迎大家来到"Python从零到壹",在这里我将分享约200篇Python系列文章,带大家一起去学习和玩耍,看看Python这个有趣的世界.所有文章都将结合案例.代码和作者的经验讲 ...

  7. [Python从零到壹] 三十五.图像处理基础篇之OpenCV绘制各类几何图形

    欢迎大家来到"Python从零到壹",在这里我将分享约200篇Python系列文章,带大家一起去学习和玩耍,看看Python这个有趣的世界.所有文章都将结合案例.代码和作者的经验讲 ...

  8. [Python从零到壹] 十四.机器学习之分类算法五万字总结全网首发(决策树、KNN、SVM、分类对比实验)

    欢迎大家来到"Python从零到壹",在这里我将分享约200篇Python系列文章,带大家一起去学习和玩耍,看看Python这个有趣的世界.所有文章都将结合案例.代码和作者的经验讲 ...

  9. [Python从零到壹] 十三.机器学习之聚类算法四万字总结全网首发(K-Means、BIRCH、树状聚类、MeanShift)

    欢迎大家来到"Python从零到壹",在这里我将分享约200篇Python系列文章,带大家一起去学习和玩耍,看看Python这个有趣的世界.所有文章都将结合案例.代码和作者的经验讲 ...

  10. [Python从零到壹] 十二.机器学习之回归分析万字总结全网首发(线性回归、多项式回归、逻辑回归)

    欢迎大家来到"Python从零到壹",在这里我将分享约200篇Python系列文章,带大家一起去学习和玩耍,看看Python这个有趣的世界.所有文章都将结合案例.代码和作者的经验讲 ...

最新文章

  1. ggplot2 调整绘图区域大小
  2. Spring Cloud Gateway(续)
  3. 密码6-12位数字和字母组成
  4. bzoj 3144: [Hnoi2013]切糕
  5. 恢复Ext3下被删除的文件
  6. java程序设计及实践实践代码_杭+新闻:姚争为老师把程序设计讲“活”了,满是代码的枯燥课程被学生“秒杀”...
  7. linux上mysql卸数_Linux下MySQL卸载和安装图文教程
  8. 设置git客户端不经过代理
  9. 【转】比较page、request、session、application的使用范围
  10. 寫下來,免得下次又忘了
  11. picasa2中文版,picasa2中文,picasa2中文版下载,picasa2中文版本
  12. c语言自学手册百度云,C语言新手入门自学零基础通俗易懂教程百度云
  13. python设计麻将_python麻将和牌算法
  14. 唐僧为什么可以领导孙悟空(项目管理)
  15. S7-1200PLC通过增量式编码器实现速度采集和模拟量采集
  16. Juniper SRX NAT46/NAT64配置
  17. Java反射--藤原豆腐店自用
  18. hdu 4745 区间dp
  19. Getaverse,走向 Web3 的远方桥梁
  20. 近日学习笔记:df -h和du -sh命令,查看linux版本,vbm管理工具,su命令,ssh服务升级技巧,source命令

热门文章

  1. yi.k7p.co/index.php,Muzeum Jarocin
  2. linux 系统业务迁移,记录一次linux系统迁移过程
  3. 斑马打印机Zebra 105SL每次开机就出纸
  4. 企业为何需要在内部推广Devops
  5. 微信开发:解决IOS端下面的点击延迟问题
  6. java log写入txt文件_使用java.util.logging.Logger时如何在文本文件中写日志
  7. 线性代数学习-矩阵在电流计算中的应用
  8. echarts 桑基图 添加标志线问题
  9. vue.runtime.esm.js?2b0e:619 [Vue warn]: Property “XX“ must be accessed with “$data._tos“ because
  10. 利用CASS使用三种方法计算两期土方