python 将html文件转化为txt文件
python 将html文件转化为txt文件
①需求:一千多篇乌云知识库的文章,收集下来后是html文件,需要将它们都转化为txt文件。由于本人又菜又懒,找了很久代码想要ctrl+c和ctrl+v大佬的,然后收工,然而没有找到好使的代码。下了一个转化工具,但是转化效果不太好,只好苦逼的研究一下代码了(害无非就是循环读取html文件,再进行编码转化,再保存到txt文件罢了),文件的编码格式真是博大精深,菜鸡不想深入苦海,以下的代码仅供参考哦~欢迎大佬指点。
②目的:将一个文件夹下的所有html文件转化为txt文件,并放入另外一个文件夹下(也就是一个漏漏的文件转化器),在可爱的jupyter上运行。
(1)开始转化
# -*- coding:utf-8 -*-
import os
import nltk
from bs4 import BeautifulSoup# root_dir为要读取文件的根目录
root_dir = r"C:\\Users\\z\\Desktop\\drops_html版"# 依次读取根目录下的每一个文件
for file in os.listdir(root_dir):file_name = root_dir + "\\" + filefilein = open(file_name, "rb")#将html转化为txt,用变量bb来暂时保存转化后的txt文本bb = BeautifulSoup(filein).get_text()with open("C:\\Users\\z\\Desktop\\temp\\{0}.txt".format(file),"a",encoding="gb18030") as file_handle: # .txt可以不自己新建,代码会自动新建file_handle.write(bb) #将txt文本依次写入文件夹中file_handle.write('\n')
(2)删除txt文本的空行
转化后的txt文件太太太多空行了,将其删除
import sys
import os# root_dir为要读取文件的根目录
root_dir = r"C:\\Users\\z\\Desktop\\temp"# 依次读取根目录下的每一个文件
for file in os.listdir(root_dir):file_name = root_dir + "\\" + filefilein = open(file_name, "r",encoding="gb18030")# txt可以不自己新建,代码会自动新建with open("C:\\Users\\z\\Desktop\\txt\\{0}".format(file),"a",encoding="gb18030") as fnew: #对每一行先删除空格,\n等无用的字符,再检查此行是否长度为0for line in filein.readlines(): data=line.strip()if len(data)!=0:fnew.write(data)fnew.write('\n')
python 将html文件转化为txt文件相关推荐
- 如何用python修改pdf内容_如何利用python将pdf文件转化为txt文件?
https://www.wukong.com/answer/6579491774144708872/?iid=15906422033&app=news_article&share_an ...
- python快速将excel文件转化为txt文件
在进行数据预处理的时候,我们可能习惯于将用于存储数据的其他格式的文件转换为.txt文件,因为这类文件读取.写入和处理起来都比较高效.这篇博客主要介绍一种快速地将excel文件转化为.txt文件的方法, ...
- java scel_使用java将搜狗词库.scel文件转化为.txt文件
需求:批量将.scel文件转化为可视的txt文件(支持1对1,多对1,多对多),并从中提取中文词(去重),支持追加内容. 成果: 使用: package com.hxl.files; import j ...
- 将npz文件转化为txt文件中出现错误(ValueError: Expected 1D or 2D array, got 3D array instead)的解决办法
seq.npz直接使用Notepad++打开发生错误,试着使用python去读这个文件包. import numpy as np# %% seq_data = np.load('seq.npz') p ...
- (-):wav文件转化为txt文件
首先声明一下,由于水平有限,所以这里的代码没有加入错误处理程序,为version1: 第一步:明确wav格式: 一.综述 WAVE文件作为多媒体中使用的声波文件格式之一,它是以RIFF格式为标 ...
- python 把txt文件转化为pcd文件并用open3D可视化
python 把txt文件转化为pcd文件并用open3D进行可视化 最近在弄3D点云的一些东西,遇到一个问题:很多数据集给的点云数据都是txt格式的,但是在模型上用到的数据集基本是pcd格式!找了很 ...
- python不同数据的读入_python读写不同编码txt文件_python读写txt文件
python读写不同编码txt文件_python读写txt文件 以后整理规范 [python] view plaincopy import os import codecs filenames=os. ...
- python 怎么表示sqlserver null_如何使用Python将sqlserver查询输出写入.txt文件?
我是Python新手,尝试连接到sqlserverdb并将查询的输出转换成一个flat.txt文件.在 一些代码正在工作,但是只写了将近1000条记录,然后就停止了.在 Python版本:2.7.13 ...
- 如何将nc文件转化为txt格式
如何将nc文件转化为txt格式 该类型文件全成为netCDF文件格式 需要使用netCDF软件体系 目前CSDN和百度出的结果均使用的是该软件下面的支持保 但是流传的版本过低,许多新的nc文件打不开 ...
最新文章
- 计算机英语缩写AGP,IT行业常用计算机缩略语
- oracle错误:ORA-12545
- 从netty-example分析Netty组件
- 【Scratch】青少年蓝桥杯_每日一题_1.9_小猫旅行
- P2680 运输计划
- Android RecyclerView 滑动到指定位置 RecyclerView 滑动到顶部
- java指的是什么_java什么是实例意思指的是
- 2022年 27 个最佳 UX/UI 设计灵感网站
- mini2440的串口在Qt上实现
- html字体倾斜45度,CSS3+JS 很酷的45度角斜射式照片墙效果
- android 高级工具包,root工具箱app下载
- python 日常记录笔记
- windows11磁盘分区步骤
- libgdx开发记录
- 为何苹果不会成为一个手机公司?
- 如何衡量和分配广告渠道?
- 显示651_没有太阳,白天黑夜怎么区分?腕表昼夜显示功能
- 初识PowerApps
- 170604 逆向-CrackMe之013
- msfvenom生成远控木马
热门文章
- ZSV10-20M、DHF10-220H插装式电磁常闭型阀ZSV10-21、DHF10-221
- 科研入门,在导师完全散养不管的状态下,怎么提升自己的科研能力?
- 计算机应用基础2014版,计算机应用基础2014版_在线作业答案A-F[参考].doc
- 别焦虑,好的人生,不慌不忙
- Error: invalid constant after fixup
- python抠图_Python用5行代码实现批量抠图的示例代码
- jquery选择器返回值
- python翻译器教程_自动翻译器1
- numpy.meshgrid(),ravel(),contourf(),scater()理解
- Python3爬虫新手项目详解:爬取豆瓣读书的前50条评论内容并显示评分。提示:有的评论不包含评分