python 将html文件转化为txt文件

①需求:一千多篇乌云知识库的文章,收集下来后是html文件,需要将它们都转化为txt文件。由于本人又菜又懒,找了很久代码想要ctrl+c和ctrl+v大佬的,然后收工,然而没有找到好使的代码。下了一个转化工具,但是转化效果不太好,只好苦逼的研究一下代码了(害无非就是循环读取html文件,再进行编码转化,再保存到txt文件罢了),文件的编码格式真是博大精深,菜鸡不想深入苦海,以下的代码仅供参考哦~欢迎大佬指点。

②目的:将一个文件夹下的所有html文件转化为txt文件,并放入另外一个文件夹下(也就是一个漏漏的文件转化器),在可爱的jupyter上运行。

(1)开始转化

# -*- coding:utf-8 -*-
import os
import nltk
from bs4 import BeautifulSoup# root_dir为要读取文件的根目录
root_dir = r"C:\\Users\\z\\Desktop\\drops_html版"# 依次读取根目录下的每一个文件
for file in os.listdir(root_dir):file_name = root_dir + "\\" + filefilein = open(file_name, "rb")#将html转化为txt,用变量bb来暂时保存转化后的txt文本bb = BeautifulSoup(filein).get_text()with open("C:\\Users\\z\\Desktop\\temp\\{0}.txt".format(file),"a",encoding="gb18030") as file_handle:   # .txt可以不自己新建,代码会自动新建file_handle.write(bb)     #将txt文本依次写入文件夹中file_handle.write('\n')

(2)删除txt文本的空行

转化后的txt文件太太太多空行了,将其删除

import sys
import os# root_dir为要读取文件的根目录
root_dir = r"C:\\Users\\z\\Desktop\\temp"# 依次读取根目录下的每一个文件
for file in os.listdir(root_dir):file_name = root_dir + "\\" + filefilein = open(file_name, "r",encoding="gb18030")# txt可以不自己新建,代码会自动新建with open("C:\\Users\\z\\Desktop\\txt\\{0}".format(file),"a",encoding="gb18030") as fnew: #对每一行先删除空格,\n等无用的字符,再检查此行是否长度为0for line in filein.readlines():                                  data=line.strip()if len(data)!=0:fnew.write(data)fnew.write('\n')

python 将html文件转化为txt文件相关推荐

  1. 如何用python修改pdf内容_如何利用python将pdf文件转化为txt文件?

    https://www.wukong.com/answer/6579491774144708872/?iid=15906422033&app=news_article&share_an ...

  2. python快速将excel文件转化为txt文件

    在进行数据预处理的时候,我们可能习惯于将用于存储数据的其他格式的文件转换为.txt文件,因为这类文件读取.写入和处理起来都比较高效.这篇博客主要介绍一种快速地将excel文件转化为.txt文件的方法, ...

  3. java scel_使用java将搜狗词库.scel文件转化为.txt文件

    需求:批量将.scel文件转化为可视的txt文件(支持1对1,多对1,多对多),并从中提取中文词(去重),支持追加内容. 成果: 使用: package com.hxl.files; import j ...

  4. 将npz文件转化为txt文件中出现错误(ValueError: Expected 1D or 2D array, got 3D array instead)的解决办法

    seq.npz直接使用Notepad++打开发生错误,试着使用python去读这个文件包. import numpy as np# %% seq_data = np.load('seq.npz') p ...

  5. (-):wav文件转化为txt文件

    首先声明一下,由于水平有限,所以这里的代码没有加入错误处理程序,为version1: 第一步:明确wav格式: 一.综述     WAVE文件作为多媒体中使用的声波文件格式之一,它是以RIFF格式为标 ...

  6. python 把txt文件转化为pcd文件并用open3D可视化

    python 把txt文件转化为pcd文件并用open3D进行可视化 最近在弄3D点云的一些东西,遇到一个问题:很多数据集给的点云数据都是txt格式的,但是在模型上用到的数据集基本是pcd格式!找了很 ...

  7. python不同数据的读入_python读写不同编码txt文件_python读写txt文件

    python读写不同编码txt文件_python读写txt文件 以后整理规范 [python] view plaincopy import os import codecs filenames=os. ...

  8. python 怎么表示sqlserver null_如何使用Python将sqlserver查询输出写入.txt文件?

    我是Python新手,尝试连接到sqlserverdb并将查询的输出转换成一个flat.txt文件.在 一些代码正在工作,但是只写了将近1000条记录,然后就停止了.在 Python版本:2.7.13 ...

  9. 如何将nc文件转化为txt格式

    如何将nc文件转化为txt格式 该类型文件全成为netCDF文件格式 需要使用netCDF软件体系 目前CSDN和百度出的结果均使用的是该软件下面的支持保 但是流传的版本过低,许多新的nc文件打不开 ...

最新文章

  1. 计算机英语缩写AGP,IT行业常用计算机缩略语
  2. oracle错误:ORA-12545
  3. 从netty-example分析Netty组件
  4. 【Scratch】青少年蓝桥杯_每日一题_1.9_小猫旅行
  5. P2680 运输计划
  6. Android RecyclerView 滑动到指定位置 RecyclerView 滑动到顶部
  7. java指的是什么_java什么是实例意思指的是
  8. 2022年 27 个最佳 UX/UI 设计灵感网站
  9. mini2440的串口在Qt上实现
  10. html字体倾斜45度,CSS3+JS 很酷的45度角斜射式照片墙效果
  11. android 高级工具包,root工具箱app下载
  12. python 日常记录笔记
  13. windows11磁盘分区步骤
  14. libgdx开发记录
  15. 为何苹果不会成为一个手机公司?
  16. 如何衡量和分配广告渠道?
  17. 显示651_没有太阳,白天黑夜怎么区分?腕表昼夜显示功能
  18. 初识PowerApps
  19. 170604 逆向-CrackMe之013
  20. msfvenom生成远控木马

热门文章

  1. ZSV10-20M、DHF10-220H插装式电磁常闭型阀ZSV10-21、DHF10-221
  2. 科研入门,在导师完全散养不管的状态下,怎么提升自己的科研能力?
  3. 计算机应用基础2014版,计算机应用基础2014版_在线作业答案A-F[参考].doc
  4. 别焦虑,好的人生,不慌不忙
  5. Error: invalid constant after fixup
  6. python抠图_Python用5行代码实现批量抠图的示例代码
  7. jquery选择器返回值
  8. python翻译器教程_自动翻译器1
  9. numpy.meshgrid(),ravel(),contourf(),scater()理解
  10. Python3爬虫新手项目详解:爬取豆瓣读书的前50条评论内容并显示评分。提示:有的评论不包含评分