遇到像下面的数据,里面是获取到的一些新闻资讯,但是不是以文本保存的,而是HTML。

想要直接读取HTML

import os
file_path = './data'
file_names = os.listdir(file_path)
i = 1
with open(os.path.join(file_path, file_names[i]), 'r', encoding='utf-8') as f:txt = f.read()

得到结果如下:

'\ufeff<html><head><meta http-equiv="Content-Type" content="text/html; charset=UTF-8"><title>地址识别试题</title></head><body><div><h1>深度|翼装飞行是玩命?拒绝冒险,专业比赛都要“看天吃饭”</h1><h3>翼装飞行其实最早是从高空跳伞运动中产生的,一些爱好者希望实现人类自由飞翔而开始穿着翼装,然后才逐渐出现低空翼装飞行这样更加刺激的飞行形式。”根据方泽体育的介绍,翼装飞行之所以危险性高,主要源于两个原因:一是飞行速度快;二是起跳方式和飞行环境的特殊。</h3><h2>极限运动,反而最不能冒风险</h2><h3>值得一提的是,对于高空翼装跳伞,全球有相关的培训中心和机构认证,经过培训合格的人才可以拿到证书。而低空翼装飞行没有被大范围推广,并不存在相关的资格认证,那么作为赛事方,如何来评定参赛者的准入资格呢?相关人员告诉记者,低空翼装飞行这样的超极限运动非常小众,全球人数也不过600人左右,国内更是只有寥寥数人,有鉴于此,世界翼装飞行联盟会举办一个预选赛来决定参赛人选。“预选赛每年6月份在挪威举行,是从海边悬崖上定点起跳,但整体难度略低,相对安全。裁判都是翼装飞行领域最具权威的飞行员,通过比赛对于选手的飞行速度、技术能力和飞行过程中的姿态控制有一个全面直观的判断,优胜者才有资格参加世锦赛。”</h3><h3>作为业内人,因掌握的具体信息有限,李良东无法对女飞行员遇难细节多加评价,他就自己更加了解的低空翼装飞行进行了分析。此间,他回忆了2011年底一次事故,事故地位于广州越秀区中山四路228-自编113号,当时就是由于微风吹偏了定位的气球导致飞行太过贴近悬崖,飞行员的腿打在了岩石上,但这位经验老到的选手还是在千钧一发之际下意识完成了开伞,保住了性命。</h3><h4 style="float:right">广州晚报实习生:李四报道</h4></div></body></html>'

除了正文还包含HTML代码格式,故需要进一步处理(使用第三方库html2text)

from html2text import html2texthtml2text(txt)

处理后结果如下:

'\ufeff\n\n# 深度|翼装飞行是玩命?拒绝冒险,专业比赛都要“看天吃饭”\n\n###\n翼装飞行其实最早是从高空跳伞运动中产生的,一些爱好者希望实现人类自由飞翔而开始穿着翼装,然后才逐渐出现低空翼装飞行这样更加刺激的飞行形式。”根据方泽体育的介绍,翼装飞行之所以危险性高,主要源于两个原因:一是飞行速度快;二是起跳方式和飞行环境的特殊。\n\n## 极限运动,反而最不能冒风险\n\n###\n值得一提的是,对于高空翼装跳伞,全球有相关的培训中心和机构认证,经过培训合格的人才可以拿到证书。而低空翼装飞行没有被大范围推广,并不存在相关的资格认证,那么作为赛事方,如何来评定参赛者的准入资格呢?相关人员告诉记者,低空翼装飞行这样的超极限运动非常小众,全球人数也不过600人左右,国内更是只有寥寥数人,有鉴于此,世界翼装飞行联盟会举办一个预选赛来决定参赛人选。“预选赛每年6月份在挪威举行,是从海边悬崖上定点起跳,但整体难度略低,相对安全。裁判都是翼装飞行领域最具权威的飞行员,通过比赛对于选手的飞行速度、技术能力和飞行过程中的姿态控制有一个全面直观的判断,优胜者才有资格参加世锦赛。”\n\n###\n作为业内人,因掌握的具体信息有限,李良东无法对女飞行员遇难细节多加评价,他就自己更加了解的低空翼装飞行进行了分析。此间,他回忆了2011年底一次事故,事故地位于广州越秀区中山四路228-自编113号,当时就是由于微风吹偏了定位的气球导致飞行太过贴近悬崖,飞行员的腿打在了岩石上,但这位经验老到的选手还是在千钧一发之际下意识完成了开伞,保住了性命。\n\n#### 广州晚报实习生:李四报道\n\n'

接下来就可以按照文本进行分析了。

python读取HTML文本文件相关推荐

  1. Python 读取txt文本文件

    Python的文本文件的内容读取中,有三类方法:read().readline().readlines(),这三种方法各有利弊. read(): read()是最简单的一种方法,一次性读取文件的所有内 ...

  2. python读取坐标文本文件_Python 实现文件读写、坐标寻址、查找替换功能

    读文件 打开文件(文件需要存在) #打开文件 f = open("data.txt","r") #设置文件对象 print(f)#文件句柄 f.close() ...

  3. python读取坐标文本文件_使用python读取txt坐标文件生成挖空矿山_探矿批量

    # -*-coding:utf-8-*- import arcpy import fileinput import os # 探矿权坐标格式举例 # 111.0846,31.1530 # 111.10 ...

  4. python的读取纯文本文件的几种模式

    python读取纯文本文件利用open函数: fout = open(path,[arg]) path表示你要读取的文件的路径,可以是绝对路径,也可以是相对路径. arg表示你读取这个文件采取的模式, ...

  5. python 读取文本文件_如何在Python中读取大文本文件

    python 读取文本文件 Python File object provides various ways to read a text file. The popular way is to us ...

  6. python读取txt文件写入-Python读写txt文本文件的操作方法全解析

    一.文件的打开和创建 >>> f = open('/tmp/test.txt') >>> f.read() 'hello python! hello world! ...

  7. python 打开当前目录的txt文件-Python - 读取其他文件夹/目录中的文本文件

    这是我的情况:我有一些.txt文件在我可以运行脚本的不同目录中.Python - 读取其他文件夹/目录中的文本文件 mainDir/ -face/ -57268-face-_tracker.txt - ...

  8. Pandas读取中文文本文件报错:python ‘utf-8‘ codec can‘t decode byte 0xe3 in position 0: unexpected end of data

    近日用pandas的read_csv读取中文文本文件时报错:python 'utf-8' codec can't decode byte 0xe3 in position 0: unexpected ...

  9. python读取文本文件的三种方法

    参考链接 python读取文本文件的内容,有三种方法. read().readline().readlines() read() read()是最简单的一种方法,一次性读取文件的所有内容放在一个大字符 ...

最新文章

  1. windows共享linux的某一文件夹
  2. Qt编写的线损分析工具
  3. android studio lambda插件,Android Studio Lambda插件(gradle-retrolambda)安装
  4. 电子科技大学研究生计算机与科学,2019年电子科技大学计算机科学与工程学院考研复试分数线...
  5. PAT:1032. Sharing (25) AC
  6. MATLAB编程思想
  7. Android官方教程翻译(2)——运行第一个程序
  8. Mysql学习第一课-mysql的定义及sql语句
  9. 斯皮尔曼相关系数范围_斯皮尔曼相关系数
  10. 批量删除文件名前的数字编号
  11. 家用路由器配置方法(精简版)
  12. java制作手机投射电脑_将Android手机投影到Win10计算机的最简单教程
  13. 互联网和大数据是什么意思_数据化和互联网行业 互联网大数据什么意思
  14. mac下使用diskutil给U盘格式化
  15. 这篇文章能让你明白经验模态分解(EMD)——基础理论篇
  16. Pytorch实战3:DCGAN深度卷积对抗生成网络生成动漫头像
  17. python制作英语字典_Python爬虫之自制英汉字典
  18. cmos sensor (图像传感器) CSI接口
  19. 电路中滤波电容和退耦电容_带你学习退耦电容的PCB布局
  20. 【软件工具】之黑客矩阵特效软件Cmatrix

热门文章

  1. 最大子序和(动态规划实现)
  2. 15、JVM监控及诊断工具-GUI篇
  3. 一位MIT计算机博士对数学知识的思考
  4. Abstract Factory模式(抽象工厂模式)
  5. 【新周报(049)】Datawhale组队学习
  6. 小米一代扫地机器人磨损家具_为了以后的众测 篇二:无差评居家神器——Mi 小米 扫地机器人...
  7. 尘锋信息scrm与企鲸客的功能差别
  8. 高二学业水平测试计算机考试时间,2019高中学业水平考试时间 普通高中学业水平什么时候考试...
  9. C语言数据储存(保姆级教学)
  10. Photoshop几何3D立体头像制作教程