Python爬虫教程(二)
一、bs4解析介绍
1.bs4解析:BS4全称是Beatiful Soup,它提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱,自动将输入文档转换为Unicode编码,输出文档转换为utf-8编码。
2.HTML:用来描述网页的一种语言。
1)HTML指的是超文本标记语言 (Hyper Text Markup Language)
2)HTML 不是一种编程语言,而是一种标记语言 (markup language)
3)标记语言是一套标记标签 (markup tag)
4)HTML 使用标记标签来描述网页
3. HTML常见标签:
h1:一级标签
h2:二级标签
p:段落
body:主体
二、使用bs4解析实战爬取优美图库图片
1. 获取主页面源代码。
2.定位标签,找到主页面源代码中子页面的链接位置。
3. 获取子页面下载链接,得到“href”。
4.子页面下载地址不全,进行子页面下载了解拼接补全。,得到完整下载链接。
5. 获取子页面源代码。
6. 从子页面获取图片下载路径。
7. 下载图片,创建文件夹img,将下载图片存入img文件夹中,取名为下载链接最后一部分(唯一)。
三、xpath解析介绍
XPath即为XML路径语言(XML Path Language),它是一种用来确定XML文档中某部分位置的语言。基于XML的树状结构,提供在数据结构树中找寻节点的能力。
1)XML 指可扩展标记语言(EXtensible Markup Language)
2)XML 是一种标记语言,很类似 HTML
3)XML 的设计宗旨是传输数据,而非显示数据
4)XML 标签没有被预定义。您需要自行定义标签。
5)XML 被设计为具有自我描述性。
1.xpath入门,准备一个节点示例。
2. 从节点示例中找到book节点。
3. 获取节点实例中name节点下文本。
4. 获取author节点下所有的nick节点的文本,示例中存在author节点下的nick节点以及author节点下div中的nick节点,下面将全部内容进行输出。
5.常见的命令
//:当前目录中后面所有节点
*:通配符
@:属性
[]:表示索引
[1]:第一条(xpath顺序是从1开始计算)
[@xx=’xxx’] :表示属性的筛选
./:表示当前节点,相对查找
四、使用xpath实战爬取猪八戒网信息
获取如图中四个信息:店铺、位置、价格、标题
1.获取页面源代码。
2.使用xpath解析,找到整体源代码位置。
3.寻找所需信息位置进行爬取。
4.对输出结果进行整理,输出适合格式,完成猪八戒网信息获取。
Python爬虫教程(二)相关推荐
- 无敌python爬虫教程学习笔记(二)
系列文章目录 无敌python爬虫教程学习笔记(一) 无敌python爬虫教程学习笔记(二) 无敌python爬虫教程学习笔记(三) 无敌python爬虫教程学习笔记(四) 手刃一个小爬虫 系列文章目 ...
- 下载 | 9G火爆的Python爬虫教程+ 520页《图解机器学习》
前段时间,小伙伴多次在后台留言询问Python爬虫教程的问题.经过这两个多月以来的收集与整理,汇集了多个高校以及公开课视频教程,包括python爬虫的入门.进阶与实践,共9G左右.爬虫作为机器学习语料 ...
- 无敌python爬虫教程学习笔记(一)
python爬虫系列文章目录 无敌python爬虫教程学习笔记(一) 无敌python爬虫教程学习笔记(二) 无敌python爬虫教程学习笔记(三) 无敌python爬虫教程学习笔记(四) 本文目录 ...
- Python爬虫教程(一):基础知识
目录 01 基础知识 1.1 渲染 1.2 http(超文本传输协议)协议 1.3 requests进阶 02 数据解析 2.1 re模块 2.2 bs4模块 2.3 xpath模块 01 基础知识 ...
- python爬虫设计在哪里_《python 爬虫教程 知乎》 怎样用Python设计一个爬虫模拟登陆知乎...
<python 爬虫教程 知乎> 怎样用Python设计一个爬虫模拟登陆知乎 python 爬虫教程 知乎2020-09-23 01:45:13人已围观 怎样用Python设计一个爬虫模拟 ...
- Python爬虫教程-00-写在前面
鉴于好多人想学Python爬虫,缺没有简单易学的教程,我将在CSDN和大家分享Python爬虫的学习笔记,不定期更新 基础要求 Python 基础知识 Python 的基础知识,大家可以去菜鸟教程进行 ...
- 不跳步骤的新手python爬虫教程(一)
代码不是看出来的,而是敲出来的,建议关注公众号,收藏教程,跟着步骤练习爬虫,成为真正的Spider Man. Python同C.Java一样都是计算机程序设计语言,python语言作为高级语言可以写网 ...
- python爬虫抓取图片-简单的python爬虫教程:批量爬取图片
python编程语言,可以说是新型语言,也是这两年来发展比较快的一种语言,而且不管是少儿还是成年人都可以学习这个新型编程语言,今天南京小码王python培训机构变为大家分享了一个python爬虫教程. ...
- python 爬虫实例 电影-Python爬虫教程-17-ajax爬取实例(豆瓣电影)
Python爬虫教程-17-ajax爬取实例(豆瓣电影) ajax: 简单的说,就是一段js代码,通过这段代码,可以让页面发送异步的请求,或者向服务器发送一个东西,即和服务器进行交互 对于ajax: ...
- 爬虫python代码-Python爬虫教程:200行代码实现一个滑动验证码
Python爬虫教程:教你用200行代码实现一个滑动验证码 做网络爬虫的同学肯定见过各种各样的验证码,比较高级的有滑动.点选等样式,看起来好像挺复杂的,但实际上它们的核心原理还是还是很清晰的,本文章大 ...
最新文章
- 每日一皮:有一天某程序员去买肉,要了一公斤...
- SQL SERVER 数据库清空语句 忽略外键 触发器 等
- 操作系统课设--虚拟内存
- java值栈_Struts2 中的值栈是什么?
- 下载丨 MySQL运维管理+编程开发大全
- c语言用if如何删除末尾空格,新人提问:如何将输出时每行最后一个空格删除
- 学习JavaScript需要什么基础?
- 剑指offer——二叉搜索树的后序遍历序列
- Tomcat绑定jre
- windows 勾子简介
- 沈熙-JavaScript引擎原理及优化
- Struts 2 之校验器
- 在API中发现的好东东
- 配置JDK环境变量详细步骤
- SAP MTO生产模式和计划策略组
- rapidminer java,rapidminer 数据导入及几个算子简单应用
- 截止失真放大电路_模拟放大器
- 【系列1】使用Dockerfile创建带sshd服务的Centos Docker镜像
- 点对点语音通信(转)
- 解决Windows找不到steam_api.dll文件
热门文章
- java集合---迭代器iterator
- 不同的jar里边相同的包名类名怎么区别导入
- 将cocos2dx项目从VS移植到Eclipse
- python怎么把所有标点符号置空_Python从小白到攻城狮(1)——python环境搭建
- keytool安装tls证书_TLS使用指南(一):如何在Rancher 2.x中进行TLS终止?
- FPGA的发展历史及相关名词解释
- 北斗导航 | NB-IoT——了解什么是NB-IoT,与短报文有什么关系
- Android studio | Unused import statement
- java数组解析_Java - 数组解析
- php入门公开课,【PHP公开课|送你一篇有关laravel入门教程的php菜鸟笔记】- 环球网校...