一、bs4解析介绍

   1bs4解析:BS4全称是Beatiful Soup,它提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱,自动将输入文档转换为Unicode编码,输出文档转换为utf-8编码。

       2HTML:用来描述网页的一种语言。

1)HTML指的是超文本标记语言 (Hyper Text Markup Language)

2)HTML 不是一种编程语言,而是一种标记语言 (markup language)

3)标记语言是一套标记标签 (markup tag)

4)HTML 使用标记标签来描述网页

       3. HTML常见标签:

h1:一级标签

h2:二级标签

p:段落

body:主体

二、使用bs4解析实战爬取优美图库图片

1. 获取主页面源代码。

2.定位标签,找到主页面源代码中子页面的链接位置。

3. 获取子页面下载链接,得到“href”。

4.子页面下载地址不全,进行子页面下载了解拼接补全。,得到完整下载链接。

5. 获取子页面源代码。

6. 从子页面获取图片下载路径。

7. 下载图片,创建文件夹img,将下载图片存入img文件夹中,取名为下载链接最后一部分(唯一)。

三、xpath解析介绍

XPath即为XML路径语言(XML Path Language),它是一种用来确定XML文档中某部分位置的语言。基于XML的树状结构,提供在数据结构树中找寻节点的能力。

1)XML 指可扩展标记语言(EXtensible Markup Language)

2)XML 是一种标记语言,很类似 HTML

3)XML 的设计宗旨是传输数据,而非显示数据

4)XML 标签没有被预定义。您需要自行定义标签。

5)XML 被设计为具有自我描述性。

       1.xpath入门,准备一个节点示例。

2. 从节点示例中找到book节点。

3. 获取节点实例中name节点下文本。

4. 获取author节点下所有的nick节点的文本,示例中存在author节点下的nick节点以及author节点下div中的nick节点,下面将全部内容进行输出。

5.常见的命令

//:当前目录中后面所有节点

*:通配符

@:属性

[]:表示索引

[1]:第一条(xpath顺序是从1开始计算)

[@xx=’xxx’] :表示属性的筛选

./:表示当前节点,相对查找

四、使用xpath实战爬取猪八戒网信息

获取如图中四个信息:店铺、位置、价格、标题

1.获取页面源代码。

2.使用xpath解析,找到整体源代码位置。

3.寻找所需信息位置进行爬取。

4.对输出结果进行整理,输出适合格式,完成猪八戒网信息获取。

Python爬虫教程(二)相关推荐

  1. 无敌python爬虫教程学习笔记(二)

    系列文章目录 无敌python爬虫教程学习笔记(一) 无敌python爬虫教程学习笔记(二) 无敌python爬虫教程学习笔记(三) 无敌python爬虫教程学习笔记(四) 手刃一个小爬虫 系列文章目 ...

  2. 下载 | 9G火爆的Python爬虫教程+ 520页《图解机器学习》

    前段时间,小伙伴多次在后台留言询问Python爬虫教程的问题.经过这两个多月以来的收集与整理,汇集了多个高校以及公开课视频教程,包括python爬虫的入门.进阶与实践,共9G左右.爬虫作为机器学习语料 ...

  3. 无敌python爬虫教程学习笔记(一)

    python爬虫系列文章目录 无敌python爬虫教程学习笔记(一) 无敌python爬虫教程学习笔记(二) 无敌python爬虫教程学习笔记(三) 无敌python爬虫教程学习笔记(四) 本文目录 ...

  4. Python爬虫教程(一):基础知识

    目录 01 基础知识 1.1 渲染 1.2 http(超文本传输协议)协议 1.3 requests进阶 02 数据解析 2.1 re模块 2.2 bs4模块 2.3 xpath模块 01 基础知识 ...

  5. python爬虫设计在哪里_《python 爬虫教程 知乎》 怎样用Python设计一个爬虫模拟登陆知乎...

    <python 爬虫教程 知乎> 怎样用Python设计一个爬虫模拟登陆知乎 python 爬虫教程 知乎2020-09-23 01:45:13人已围观 怎样用Python设计一个爬虫模拟 ...

  6. Python爬虫教程-00-写在前面

    鉴于好多人想学Python爬虫,缺没有简单易学的教程,我将在CSDN和大家分享Python爬虫的学习笔记,不定期更新 基础要求 Python 基础知识 Python 的基础知识,大家可以去菜鸟教程进行 ...

  7. 不跳步骤的新手python爬虫教程(一)

    代码不是看出来的,而是敲出来的,建议关注公众号,收藏教程,跟着步骤练习爬虫,成为真正的Spider Man. Python同C.Java一样都是计算机程序设计语言,python语言作为高级语言可以写网 ...

  8. python爬虫抓取图片-简单的python爬虫教程:批量爬取图片

    python编程语言,可以说是新型语言,也是这两年来发展比较快的一种语言,而且不管是少儿还是成年人都可以学习这个新型编程语言,今天南京小码王python培训机构变为大家分享了一个python爬虫教程. ...

  9. python 爬虫实例 电影-Python爬虫教程-17-ajax爬取实例(豆瓣电影)

    Python爬虫教程-17-ajax爬取实例(豆瓣电影) ajax: 简单的说,就是一段js代码,通过这段代码,可以让页面发送异步的请求,或者向服务器发送一个东西,即和服务器进行交互 对于ajax: ...

  10. 爬虫python代码-Python爬虫教程:200行代码实现一个滑动验证码

    Python爬虫教程:教你用200行代码实现一个滑动验证码 做网络爬虫的同学肯定见过各种各样的验证码,比较高级的有滑动.点选等样式,看起来好像挺复杂的,但实际上它们的核心原理还是还是很清晰的,本文章大 ...

最新文章

  1. 每日一皮:有一天某程序员去买肉,要了一公斤...
  2. SQL SERVER 数据库清空语句 忽略外键 触发器 等
  3. 操作系统课设--虚拟内存
  4. java值栈_Struts2 中的值栈是什么?
  5. 下载丨 MySQL运维管理+编程开发大全
  6. c语言用if如何删除末尾空格,新人提问:如何将输出时每行最后一个空格删除
  7. 学习JavaScript需要什么基础?
  8. 剑指offer——二叉搜索树的后序遍历序列
  9. Tomcat绑定jre
  10. windows 勾子简介
  11. 沈熙-JavaScript引擎原理及优化
  12. Struts 2 之校验器
  13. 在API中发现的好东东
  14. 配置JDK环境变量详细步骤
  15. SAP MTO生产模式和计划策略组
  16. rapidminer java,rapidminer 数据导入及几个算子简单应用
  17. 截止失真放大电路_模拟放大器
  18. 【系列1】使用Dockerfile创建带sshd服务的Centos Docker镜像
  19. 点对点语音通信(转)
  20. 解决Windows找不到steam_api.dll文件

热门文章

  1. java集合---迭代器iterator
  2. 不同的jar里边相同的包名类名怎么区别导入
  3. 将cocos2dx项目从VS移植到Eclipse
  4. python怎么把所有标点符号置空_Python从小白到攻城狮(1)——python环境搭建
  5. keytool安装tls证书_TLS使用指南(一):如何在Rancher 2.x中进行TLS终止?
  6. FPGA的发展历史及相关名词解释
  7. 北斗导航 | NB-IoT——了解什么是NB-IoT,与短报文有什么关系
  8. Android studio | Unused import statement
  9. java数组解析_Java - 数组解析
  10. php入门公开课,【PHP公开课|送你一篇有关laravel入门教程的php菜鸟笔记】- 环球网校...