有一个类库叫作beautifulsoup。 使用这个库,可以搜索html标签的值,并获取页面标题和页面标题列表等特定数据。

安装Beautifulsoup

使用Anaconda软件包管理器安装所需的软件包及其相关软件包。

conda install Beaustifulsoap

读取HTML文件

在下面的例子中,我们请求一个url被加载到python环境中。 然后使用html parser参数来读取整个html文件。 接下来,打印html页面的前几行。

import urllib2

from bs4 import BeautifulSoup

# Fetch the html file

import urllib3

from bs4 import BeautifulSoup

# Fetch the html file

http = urllib3.PoolManager()

response = http.request('GET','http://www.zyiz.net/python/features.html')

html_doc = response.data

# Parse the html file

soup = BeautifulSoup(html_doc, 'html.parser')

# Format the parsed html file

strhtm = soup.prettify()

# Print the first few characters

print (strhtm[:225])

当执行上面示例代码,得到以下输出结果 -

提取标记值

可以使用以下代码从标签的第一个实例中提取标签值。

import urllib3

from bs4 import BeautifulSoup

# Fetch the html file

http = urllib3.PoolManager()

response = http.request('GET','http://www.zyiz.net/python/features.html')

html_doc = response.data

# Parse the html file

soup = BeautifulSoup(html_doc, 'html.parser')

print (soup.title)

print(soup.title.string)

print(soup.a.string)

print(soup.b.string)

执行上面示例代码,得到以下结果 -

找一找教程网教程? - 专注于IT教程和实例

找一找教程网教程? - 专注于IT教程和实例

None

友情链接:

提取所有标签

可以使用以下代码从标签的所有实例中提取标签值。

import urllib3

from bs4 import BeautifulSoup

# Fetch the html file

http = urllib3.PoolManager()

response = http.request('GET','http://www.zyiz.net/python/features.html')

html_doc = response.data

# Parse the html file

soup = BeautifulSoup(html_doc, 'html.parser')

for x in soup.find_all('h1'):

print(x.string)

执行上面示例代码,得到以下结果 -

None

Python功能特点

python调用html数据_Python读取HTML页面相关推荐

  1. python通信达数据_Python读取通达信数据

    Python读取通达信数据 一.介绍 python获取股票数据的方法很多,其中Tushare 财经数据接口包很好用,当然,也可以通过通达信本地的数据获取,这样更为方便. 日线数据存在这路径下 D:\通 ...

  2. python 通达信数据_Python读取通达信本地数据

    一.介绍 python获取股票数据的方法很多,其中 Tushare 财经数据接口包很好用,当然,也可以通过通达信本地的数据获取,这样更为方便. 日线数据存在这路径下 D:\通达信\vipdoc\sh\ ...

  3. python处理mat数据_python读取.mat文件的数据及实例代码

    首先导入scipy的包 from scipy.io import loadmat 然后读取 m = loadmat("F:/__identity/activity/论文/data/D001. ...

  4. python读mat数据_python读取mat数据集

    以http://ufldl.stanford.edu/housenumbers/上的mat数据集为例 需要注意以下几点 从mat提取出来的数据以字典的形式保存,所以需要提取字典的key和value i ...

  5. python调用mysql数据_python使用mysql数据库(虫师)

    转自虫师 http://www.cnblogs.com/fnng/p/3565912.html 一,安装mysql 如果是windows 用户,mysql 的安装非常简单,直接下载安装文件,双击安装文 ...

  6. python提取数据库数据_Python读取xlsx并写入数据库

    ### 此程序是用来将表格的数据读入到数据库中 import xlrd import re import pymysql def read_xlsx(): workbook = xlrd.open_w ...

  7. Python: 二进制字节流数据的读取操作 -- bytes 与 bitstring

    Python: 二进制字节流数据的读取操作 – bytes 与 bitstring 最近项目有个需求,需要对二进制文件读取内容,操作读取到的字节流数据,主要是查找与切片获取内容.这要求有两个标志,一个 ...

  8. python读取html文件中的表格数据_Python 读取各类文件格式的文本信息 | doc,excel,html,mht...

    原标题:Python 读取各类文件格式的文本信息 | doc,excel,html,mht 众所周知,python最强大的地方在于,python社区汇总拥有丰富的第三方库,开源的特性,使得有越来越多的 ...

  9. python读取表格数据_Python读取Excel数据并根据列名取值

    一直想将自己接触到的东西梳理一遍,可就是迈不出第一步,希望从这篇总结开始不要再做行动的矮人了. 最近测试过程中需要用到python读取excel用例数据,于是去了解和学习了下xlrd库,这里只记录使用 ...

最新文章

  1. (五)springmvc+mybatis+dubbo+zookeeper分布式架构 整合 - maven构建根项目
  2. 给你的博客添加个看电影的频道
  3. 服务器怎么可以维修荒野行动,荒野行动PC版 设置单独服务器让你尽情畅玩
  4. 前端一HTML:十四: important
  5. spring boot第七讲
  6. Redis 如何保持和MySQL数据一致【一】
  7. 计算机应用12班,计算机应用二班xx毕业论文.doc
  8. oracle11gr2配置监听,Windows环境配置Oracle 11gR2 Listener
  9. linux的解压zip文件,Linux解压zip文件命令
  10. Apache ShenYu源码阅读系列-基于Http长轮询的数据同步
  11. TSE for SketchUp Pro - 建筑行业
  12. 输入框常规测试数据用例设计
  13. 普通程序员如何走出困境?【转】
  14. 小程序webview关注公众号_微信小程序和公众号互相跳转
  15. 标准盒模型与怪异盒模型
  16. 链行动之精选案例——区块链解决四大痛点 福费廷结合案例逐步落地
  17. Makefile简单讲解
  18. C语言 | 自由落地,求第10次落地共经过多少米
  19. b站视频-尚硅谷jQuery教程张晓飞老师-笔记
  20. shell 文件连接

热门文章

  1. 快手宣布取消“大小周”,互联网公司“996风气”松动?
  2. 语音红包小程序开发项目建议以及营销玩法
  3. 对双STA-双连接的一些思考
  4. 双十一必购:科睿27E1QX,千元价位的2K 170Hz电竞显示器
  5. WIN10搭建http文件服务器
  6. mysql中show databases显示Ignoring query to other database
  7. Nginx 部署前端项目dist文件
  8. miui系统负一屏快递详情“显示数据加载异常,请点击重试”的解决方法
  9. 华为和腾讯鸿蒙,魅族选择与鸿蒙合作,华为这下要成了?
  10. linux安装rpm提示nokey,Linux rpm安装问题解决