HTML基础

本节主要讲述HTML的基本概念。爬取网页首先要对网页有基本了解,入门网页知识可以访问 w3c school 学习

1. 页面组成

一个页面通常由css,js和html元素构成,其中css定义了页面的样式,js负责完成动态页面渲染,html元素构成静态页面。

常见的html元素有文本元素text,超链接(一般形式a href='#)',图片(一般形式img src='img.png');css在页面中一般通过 div class='demo'的形式来引用;js以javascript标签形式引用。

常用的查看页面元素的工具是Chrome浏览器的‘审查元素’功能,一个典型的页面元素如下:

可以看出页面元素都是通过各种标签来组织的。

2. 静态页面和动态页面

网络上最初的web页面都是静态的html页面,页面元素比较简单都是一些文本,图片等信息的展示,但随着js和ajax等技术的发展,web页面逐渐呈现动态化。动态页面可以提供更好的用户体验但是增加了爬虫爬取的困难,对于动态页面,右键‘查看网页源代码’和Chrome下右键‘审查元素’看到的页面结构是不同的。‘审查元素’可以得到动态加载后的页面,在爬虫爬取时需要注意静态和动态页面的区别处理

3. get和post请求

简单来讲,一般访问网页是get请求,当需要发送数据给服务器时使用的是post请求。在爬虫中获取网页信息使用get请求,发送数据给服务器时(如登陆提交)使用post请求。

网页爬虫 html知识,python爬虫相关推荐

  1. python爬虫教程书籍-python爬虫有哪些书(python爬虫教程知乎)

    python爬虫有哪些书 python有哪?下面给大家介绍6本有关爬书: 更多Python书籍推荐,可以参考这篇文<想学python看哪些书> 1.Python网络爬虫实战 本书从Pyth ...

  2. python写爬虫的优势-python爬虫优势

    广告关闭 腾讯云双11爆品提前享,精选热门产品助力上云,云服务器首年88元起,买的越多返的越多,最高满返5000元! 一.爬虫是什么? 如果我们把互联网比作一张大的蜘蛛网,数据便是存放于蜘蛛网的各个节 ...

  3. python爬虫可以干什么-python爬虫能够干什么

    Python爬虫是用Python编程语言实现的网络爬虫,主要用于网络数据的抓取和处理,相比于其他语言,Python是一门非常适合开发网络爬虫的编程语言,大量内置包,可以轻松实现网络爬虫功能. Pyth ...

  4. python爬虫怎么赚钱-python爬虫怎么赚钱

    python爬虫是什么意思 网络爬虫的工作原理 网络爬虫,即Web Spider,是一个很形象的名字.把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛.网络蜘蛛是通过网页的链接地址来 ...

  5. 【爬虫】利用Python爬虫爬取小麦苗itpub博客的所有文章的连接地址并写入Excel中(2)...

    [爬虫]利用Python爬虫爬取小麦苗itpub博客的所有文章的连接地址并写入Excel中(2) 第一篇( http://blog.itpub.net/26736162/viewspace-22865 ...

  6. python爬虫教程下载-Python爬虫入门教程!手把手教会你爬取网页数据

    其实在当今社会,网络上充斥着大量有用的数据,我们只需要耐心的观察,再加上一些技术手段,就可以获取到大量的有价值数据.这里的"技术手段"就是网络爬虫.今天就给大家分享一篇爬虫基础知识 ...

  7. python爬虫入门基础知识_【PYTHON】【爬虫】关于python爬虫的一些基础知识

    基础知识 HTTP协议 我们浏览网页的浏览器和手机应用客户端与服务器通信几乎都是基于HTTP协议,而爬虫可以看作是一个另类的客户端,它把自己伪装成浏览器或者手机应用客户端,按照自己的逻辑贪婪的向服务器 ...

  8. python爬虫需要哪些基础知识-【PYTHON】【爬虫】关于python爬虫的一些基础知识

    基础知识 HTTP协议 我们浏览网页的浏览器和手机应用客户端与服务器通信几乎都是基于HTTP协议,而爬虫可以看作是一个另类的客户端,它把自己伪装成浏览器或者手机应用客户端,按照自己的逻辑贪婪的向服务器 ...

  9. python爬取网页表格数据匹配,python爬虫——数据爬取和具体解析

    标签:pattern   div   mat   txt   保存   关于   json   result   with open 关于正则表达式的更多用法,可参考链接:https://blog.c ...

最新文章

  1. 杨超越的声音+高晓松的脸~如此酸爽的技术,你值得拥有!
  2. 安全产品研发与落地的一些方法与思考
  3. 如何安装Bit-Z IOS版APP
  4. MyBatis——insert错误[Could not set property ‘id‘ of ‘class‘ with value ‘xxx‘]解决方案
  5. LInux--进程间通信
  6. 【转】宏定义中#和##的使用
  7. linux备份mysql部分表数据,linux mysql 数据按表名称备份
  8. TrackBack 技术规范
  9. python自动化办公都能做什么-用Python自动办公,做职场高手(完结)
  10. Entity Framework - 利用T4 分离 Entity 和 DbContext
  11. Python Frozenset()
  12. python数据分析需要哪些库-用python进行数据分析的五个最常用库
  13. 我给来大家介绍一下秉承WEB2.0理念的无书网(nonobo.com)的近况
  14. 用python做五子棋双人_python实现双人五子棋(终端版)
  15. 小学计算机应用到英语课教案,信息技术与小学英语教学有效融合(转载)
  16. 数据库为什么需要锁机制?有哪些锁机制?
  17. mysqli_fetch_assoc()和mysqli_fetch_array()的区别与用法
  18. 2022第8届中国大学生程序设计竞赛CCPC威海站, 签到题7题
  19. Android设置自定义字体
  20. 【身体这些部位不舒服的时候,你知道意味着什么吗?】

热门文章

  1. 为什么LED内部不集成限流电阻呢?
  2. 关于全国大学生智能汽车竞赛 参赛队员信息的情况说明
  3. 一位刚刚成功上岸的智能车队员对于参赛经历总结与对比赛的建议
  4. 基于 RT-Thread的全向赛车算法开发
  5. 对于STM32F103三轴机械臂控制器进行基本功能测试-上下运动功能
  6. Prolific PL2303SA 调试
  7. linux的sort如何对时间排序,Linux中用Sort和Tsort对文件进行排序
  8. python 处理数据量大的数据内存_PyTables处理的数据比内存大很多倍
  9. 平均获客成本_获客成本创新高,英语流利说(LAIX.US)获客难流利
  10. java代码走查常见错误_FindBugs常见错误描述和解决方法