htmltoExcel
# -- codingutf-8 --
#authorzhl
# from robot.api import logger
# logger.info('提示信息打印', True,True)
# logger.error('错误信息打印', True)
from html.parser import HTMLParser
import pandas as pd
import re
def html_tr_td(data)
##html文件预处理,处理tdtd标签内容为空的情况:
data=data.replace(td,NULLtd)
class hp(HTMLParser)
tr = False
td = False
flag=False
allmx=[]
temp=[]
def handle_starttag(self, tag, attr)
if tag == 'tr'
self.tr = True
self.flag = False ##遇到一次tr开始标签时,设置为False
if tag== 'td'
self.td = True
def handle_endtag(self, tag)
if tag == 'tr'
self.tr = False
self.flag=True ##遇到一次tr结束标签时,设置为True
if tag == 'td'
self.td = False
def handle_data(self, data)
if self.td and self.tr
# print(data)
if len(data)
self.temp.append(data)
if self.flag##一行数据结束
self.allmx.append(self.temp)
self.temp=[]
yk = hp()
yk.feed(data)
yk.close()
##获取结果的二维数组
newlist=[]
headlist=yk.allmx[0][3]
newlist.append(headlist)
print(len(yk.allmx))
i=1
for i in range(1,len(yk.allmx)-8)
flag=True
for j in range(len(yk.allmx[i]))
if re.search(条记录,yk.allmx[i][j])
print('here')
flag=False
continue
if flag == False
continue
if flag == False
continue
newlist.append(yk.allmx[i][4])
#df=pd.DataFrame(yk.allmx)
df = pd.DataFrame(newlist)
#print(df)
name =
df.to_excel(final.xls,index=None,header=None)
if __name__ == '__main__'
ff = open(rCProgram Files (x86)Suning RobotStudioProjectstesttest.html, 'r', encoding=gbk)
data = ff.read()
html_tr_td(data)
转载于:https://www.cnblogs.com/jessitommy/p/11077210.html
htmltoExcel相关推荐
- apache poi_将HTML转换为Apache POI的RichTextString
apache poi 1.概述 在本教程中,我们将构建一个将HTML作为输入的应用程序,并使用提供HTML的RichText表示形式创建Microsoft Excel工作簿. 为了生成Microsof ...
- 将HTML转换为Apache POI的RichTextString
1.概述 在本教程中,我们将构建一个将HTML作为输入的应用程序,并使用提供HTML的RichText表示形式创建Microsoft Excel工作簿. 为了生成Microsoft Excel工作簿, ...
- 解决导出为Excel时文件名乱码的问题。
以前代码:public static void htmlToExcel(HttpContext context, string title, string html, string fileCss = ...
- C#/VB.NET 将Html转为Excel
vb.net教程https://www.xin3721.com/eschool/vbnetxin3721/ 本文介绍通过C#和VB.NET代码展示将Html转为Excel文档的方法. dll引用 方法 ...
- POI导出Excel (满满的干货啊)
已经实现的POI导出Excel 步骤一:导入依赖 <dependency><groupId>org.apache.poi</groupId><artifact ...
- EasyPOI 使用教程
目录 1. 前传 1.1 前言 1.2 Easypoi介绍 1.3 使用 1.4 测试项目 1.5 可能存在的小坑 2. Excel 注解版 2.1 Excel导入导出 2.2 注解 2.3 注解导出 ...
- 通过js代码导出Excel表格
1.js代码 View Code //grid导出exl function outputAddress(grid, strMethod) {try {var xls = new ActiveXObje ...
- 常见问题任务(汇总一)
目录 vue 1.vue项目中导出表格 2.使用轮播展示数据 3.全局事件总线的运用 4.获取焦点元素上移,加阴影 5. 使用echarts 6.添加加载的进度条 7.使用ant-design-vue ...
- vue导出Excel表格全局函数(简洁明了)
vue导出excel全局函数(简洁明了) 将导出到Excel功能封装成一个公用js函数,供其他vue页面复用. 1.安装Excel插件 npm install --save xlsx file-sav ...
最新文章
- Python中怎样改变集合之间的关系?
- [译]Selenium Python文档:一、安装
- python3 PIL、opencv, 二进制、base64 四种图片格式转换
- RAW SOCKET探索
- JAVA web项目报错no sigar-x86-winnt.dll in java.library.path
- 行业专业的移动广告聚合平台--KeyMob
- 双11万亿流量下的分布式缓存
- 查看java运行时参数_查看JVM运行时参数
- NLP简报(Issue #3)
- 开课吧Java课堂:Transient和volatile修饰符如何运用
- 动态规划练习合集(c++)
- linux用Vim上传.sql,真的有(很多)linux大牛用vim写项目吗?
- 使用 TF-IDF 算法将文本向量化
- Scratch少儿趣味编程pdf
- 【翻译】Visual Place Recognition_ A Survey视觉场景识别综述【一】
- 职业经理人影响力自检手册(二)
- CDM技术分析和产品选型建议
- 博弈论笔记--06--纳什均衡之约会游戏与古诺模型
- 自从我用了这些浏览器插件,工作效率至少提高了一倍,谷歌浏览器插件
- 宝剑锋从磨砺出——编译器gcc的使用
热门文章
- D: Starry的神奇魔法(矩阵快速幂)
- JVM体系结构与工作方式
- Remove Duplicates from Sorted Array II
- JDBC结合JSP使用(2)
- PhoneGap学习笔记(一) 框架搭建
- __mmc_claim_host
- 管理系统网页模板_档案管理系统应该涵盖一些什么功能?
- 分布式选举协议:Raft
- 电脑硬盘为什么叫计算机,电脑分区为何从C盘开始?
- java fastdfs 压测_利用jmeter+JAVA对RPC的单接口(dubbo接口等)进行性能测试,零基础(2)...