1.1 BeautifulSoup使用方法
先上实例代码:
1 from urllib.request import urlopen 2 from bs4 import BeautifulSoup 3 4 html = urlopen("http://www.pythonscraping.com/pages/page1.html") 5 bs0bj = BeautifulSoup(html.read()) 6 print(bs0bj.h1) 7 print(bs0bj.html.body.h1) 8 print(bs0bj.body.h1) 9 print(bs0bj.html.h1)
BeautifulSoup的作用,如官网所言:
Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱,通过解析文档为用户提供需要抓取的数据,因为简单,所以不需要多少代码就可以写出一个完整的应用程序。
Beautiful Soup自动将输入文档转换为Unicode编码,输出文档转换为utf-8编码。你不需要考虑编码方式,除非文档没有指定一个编码方式,这时,Beautiful Soup就不能自动识别编码方式了。然后,你仅仅需要说明一下原始编码方式就可以了。
Beautiful Soup已成为和lxml、html6lib一样出色的python解释器,为用户灵活地提供不同的解析策略或强劲的速度。
简单而言,就是解析网页结构,将html代码格式化。
待续...
转载于:https://www.cnblogs.com/zhliu/p/10402963.html
1.1 BeautifulSoup使用方法相关推荐
- 超级详细的BeautifulSoup使用方法
BeautifulSoup 的使用 我们学习了正则表达式的相关用法,但是一旦正则写的有问题,可能得到的就不是我们想要的结果了,而且对于一个网页来说,都有一定的特殊的结构和层级关系,而且很多标签都有 i ...
- python爬虫——爬取酷狗音乐top500(BeautifulSoup使用方法)
酷狗音乐Top500 酷狗top500http://www.kugou.com/yy/rank/home/1-8888.html?from=rank 进入,并按F12打开开发者工具(本文以火狐浏览器为 ...
- python练习题,使用爬虫爬取百度百科内置BeautifulSoup安装方法
链接 -> http://baike.baidu.com/view/284853.htm 首先安装bs4,python -m pip install bs4就可以了 Beautiful Soup ...
- Crawler:利用Beautifulsoup库+find_all方法实现下载在线书架小说《星祖的电影世界》
Crawler:利用Beautifulsoup库+find_all方法实现下载在线书架小说<星祖的电影世界> 目录 输出结果 核心代码 输出结果 核心代码 # -*- coding: ut ...
- 运用BeautifulSoup抓取网页的链接
之前一直都是做前端,不知道搜索引擎后台核心是怎样实现.今天看到bd内部的spider资料,决定运用先前学过的python模拟一把,把指定网页的a标签中的href提取出来. 运用到扩展模块Beautif ...
- python爬取小说章节信息用pygame进行数据显示_爬虫不过如此(python的Re 、Requests、BeautifulSoup 详细篇)...
网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本. 爬虫的本质就是一段自动抓取互联网信息的程序,从网络获取 ...
- python爬虫详细步骤-Python爬虫的两套解析方法和四种爬虫实现过程
对于大多数朋友而言,爬虫绝对是学习 python 的最好的起手和入门方式.因为爬虫思维模式固定,编程模式也相对简单,一般在细节处理上积累一些经验都可以成功入门.本文想针对某一网页对 python 基础 ...
- 【Python】Python爬虫快速入门,BeautifulSoup基本使用及实践
来源:Python数据之道 作者:Peter 整理:阳哥 爬虫,是学习Python的一个有用的分支,互联网时代,信息浩瀚如海,如果能够便捷的获取有用的信息,我们便有可能领先一步,而爬虫正是这样的一个工 ...
- 【Python基础】Python爬虫的两套解析方法和四种信息提取方式
Python爬虫 Author:Iouwill Machine Learning Lab 分享一篇往日旧文章,非常实用. 对于大多数朋友而言,爬虫绝对是学习python的最好的起手和入门方式.因为爬虫 ...
最新文章
- 使用DX 一些知识点整理(随时添加)
- 王道计算机考研 数据结构 (查找-上)
- Boost:宏BOOST_ASSERT的使用实例
- 指引趋势和方向!2019开发者技能报告出炉!!
- 「雕爷学编程」Arduino动手做(24)——水位传感器模块
- vue 对象中数组中对象某个属性更改_vue之监听对象、对象数组的改变
- 你知道这5年我怎么过的吗!谈谈我做测试开发的这些年……【总结】
- php 常用正则表达 邮箱 手机号啥的
- python编写一个汽车类_python实现汽车管理系统
- 新浪微博系统 Xweibo v1.1.1beta 免费版Xweibo-Xweibo 软件系统简介(PHP+MYSQL)
- Iphone5的机身4S的配置 山寨版“iPhone 5S”上手视频
- 部署Extmail邮件服务器教程——适用于小白
- RNA-seq流程学习笔记(5)-Linux系统下载UCSC人类基因组和基因注释文件(未完成)
- vba python 基金历史排名_历史数据揭秘:跟着业绩排名买基金靠谱吗?
- C语言简单游戏编程入门之四子棋
- UPC 桐桐的爬山计划
- 记录关于利用txt文件划分训练集、测试集与验证集
- 现任明教教主CCNP Security SecureV1.0 第一天.3
- 分类模型指标ks的含义
- 摄像机服务器端返回消息错误,_平安城市_视频监控(本科)毕业论文设计.doc
热门文章
- python用scrapy爬虫豆瓣_Python-用Scrapy爬取豆瓣电影
- java json插件安装_IDEAL葵花宝典:java代码开发规范插件:GsonFormat插件将JSONObject格式的String 解析成实体...
- img width 百分比_手机端之img的width:100%解析(百分比显示)
- Burp Suite如何拦截GET请求提交POET请求的参数
- echarts时间轴传什么格式_职场必看,使用Excel实现大事件时间轴的做法,不看后悔...
- docker 空间满数据迁移笔记
- 阿里云CentOS Linux 7安全基线检查
- LeetCode443-压缩字符串(双索引)
- ubuntu command
- (12) 需求征集 -- 序列管理、编号管理