先上实例代码:

1 from urllib.request import urlopen
2 from bs4 import BeautifulSoup
3
4 html = urlopen("http://www.pythonscraping.com/pages/page1.html")
5 bs0bj = BeautifulSoup(html.read())
6 print(bs0bj.h1)
7 print(bs0bj.html.body.h1)
8 print(bs0bj.body.h1)
9 print(bs0bj.html.h1)

BeautifulSoup的作用,如官网所言:

Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱,通过解析文档为用户提供需要抓取的数据,因为简单,所以不需要多少代码就可以写出一个完整的应用程序。

Beautiful Soup自动将输入文档转换为Unicode编码,输出文档转换为utf-8编码。你不需要考虑编码方式,除非文档没有指定一个编码方式,这时,Beautiful Soup就不能自动识别编码方式了。然后,你仅仅需要说明一下原始编码方式就可以了。

Beautiful Soup已成为和lxml、html6lib一样出色的python解释器,为用户灵活地提供不同的解析策略或强劲的速度。

简单而言,就是解析网页结构,将html代码格式化。

待续...

转载于:https://www.cnblogs.com/zhliu/p/10402963.html

1.1 BeautifulSoup使用方法相关推荐

  1. 超级详细的BeautifulSoup使用方法

    BeautifulSoup 的使用 我们学习了正则表达式的相关用法,但是一旦正则写的有问题,可能得到的就不是我们想要的结果了,而且对于一个网页来说,都有一定的特殊的结构和层级关系,而且很多标签都有 i ...

  2. python爬虫——爬取酷狗音乐top500(BeautifulSoup使用方法)

    酷狗音乐Top500 酷狗top500http://www.kugou.com/yy/rank/home/1-8888.html?from=rank 进入,并按F12打开开发者工具(本文以火狐浏览器为 ...

  3. python练习题,使用爬虫爬取百度百科内置BeautifulSoup安装方法

    链接 -> http://baike.baidu.com/view/284853.htm 首先安装bs4,python -m pip install bs4就可以了 Beautiful Soup ...

  4. Crawler:利用Beautifulsoup库+find_all方法实现下载在线书架小说《星祖的电影世界》

    Crawler:利用Beautifulsoup库+find_all方法实现下载在线书架小说<星祖的电影世界> 目录 输出结果 核心代码 输出结果 核心代码 # -*- coding: ut ...

  5. 运用BeautifulSoup抓取网页的链接

    之前一直都是做前端,不知道搜索引擎后台核心是怎样实现.今天看到bd内部的spider资料,决定运用先前学过的python模拟一把,把指定网页的a标签中的href提取出来. 运用到扩展模块Beautif ...

  6. python爬取小说章节信息用pygame进行数据显示_爬虫不过如此(python的Re 、Requests、BeautifulSoup 详细篇)...

    网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本. 爬虫的本质就是一段自动抓取互联网信息的程序,从网络获取 ...

  7. python爬虫详细步骤-Python爬虫的两套解析方法和四种爬虫实现过程

    对于大多数朋友而言,爬虫绝对是学习 python 的最好的起手和入门方式.因为爬虫思维模式固定,编程模式也相对简单,一般在细节处理上积累一些经验都可以成功入门.本文想针对某一网页对 python 基础 ...

  8. 【Python】Python爬虫快速入门,BeautifulSoup基本使用及实践

    来源:Python数据之道 作者:Peter 整理:阳哥 爬虫,是学习Python的一个有用的分支,互联网时代,信息浩瀚如海,如果能够便捷的获取有用的信息,我们便有可能领先一步,而爬虫正是这样的一个工 ...

  9. 【Python基础】Python爬虫的两套解析方法和四种信息提取方式

    Python爬虫 Author:Iouwill Machine Learning Lab 分享一篇往日旧文章,非常实用. 对于大多数朋友而言,爬虫绝对是学习python的最好的起手和入门方式.因为爬虫 ...

最新文章

  1. 使用DX 一些知识点整理(随时添加)
  2. 王道计算机考研 数据结构 (查找-上)
  3. Boost:宏BOOST_ASSERT的使用实例
  4. 指引趋势和方向!2019开发者技能报告出炉!!
  5. 「雕爷学编程」Arduino动手做(24)——水位传感器模块
  6. vue 对象中数组中对象某个属性更改_vue之监听对象、对象数组的改变
  7. 你知道这5年我怎么过的吗!谈谈我做测试开发的这些年……【总结】
  8. php 常用正则表达 邮箱 手机号啥的
  9. python编写一个汽车类_python实现汽车管理系统
  10. 新浪微博系统 Xweibo v1.1.1beta 免费版Xweibo-Xweibo 软件系统简介(PHP+MYSQL)
  11. Iphone5的机身4S的配置 山寨版“iPhone 5S”上手视频
  12. 部署Extmail邮件服务器教程——适用于小白
  13. RNA-seq流程学习笔记(5)-Linux系统下载UCSC人类基因组和基因注释文件(未完成)
  14. vba python 基金历史排名_历史数据揭秘:跟着业绩排名买基金靠谱吗?
  15. C语言简单游戏编程入门之四子棋
  16. UPC 桐桐的爬山计划
  17. 记录关于利用txt文件划分训练集、测试集与验证集
  18. 现任明教教主CCNP Security SecureV1.0 第一天.3
  19. 分类模型指标ks的含义
  20. 摄像机服务器端返回消息错误,_平安城市_视频监控(本科)毕业论文设计.doc

热门文章

  1. python用scrapy爬虫豆瓣_Python-用Scrapy爬取豆瓣电影
  2. java json插件安装_IDEAL葵花宝典:java代码开发规范插件:GsonFormat插件将JSONObject格式的String 解析成实体...
  3. img width 百分比_手机端之img的width:100%解析(百分比显示)
  4. Burp Suite如何拦截GET请求提交POET请求的参数
  5. echarts时间轴传什么格式_职场必看,使用Excel实现大事件时间轴的做法,不看后悔...
  6. docker 空间满数据迁移笔记
  7. 阿里云CentOS Linux 7安全基线检查
  8. LeetCode443-压缩字符串(双索引)
  9. ubuntu command
  10. (12) 需求征集 -- 序列管理、编号管理