# -- codingutf-8 --
#authorzhl
# from robot.api import logger
# logger.info('提示信息打印', True,True)
# logger.error('错误信息打印', True)

from html.parser import HTMLParser
import pandas as pd

import re

def html_tr_td(data)
##html文件预处理,处理tdtd标签内容为空的情况:
data=data.replace(td,NULLtd)

class hp(HTMLParser)
tr = False
td = False
flag=False
allmx=[]
temp=[]

def handle_starttag(self, tag, attr)
if tag == 'tr'
self.tr = True
self.flag = False ##遇到一次tr开始标签时,设置为False

if tag== 'td'
self.td = True

def handle_endtag(self, tag)
if tag == 'tr'
self.tr = False
self.flag=True ##遇到一次tr结束标签时,设置为True
if tag == 'td'
self.td = False

def handle_data(self, data)
if self.td and self.tr
# print(data)
if len(data)
self.temp.append(data)

if self.flag##一行数据结束
self.allmx.append(self.temp)
self.temp=[]
yk = hp()
yk.feed(data)
yk.close()
##获取结果的二维数组
newlist=[]
headlist=yk.allmx[0][3]
newlist.append(headlist)
print(len(yk.allmx))
i=1
for i in range(1,len(yk.allmx)-8)
flag=True
for j in range(len(yk.allmx[i]))
if re.search(条记录,yk.allmx[i][j])
print('here')
flag=False
continue
if flag == False
continue
if flag == False
continue
newlist.append(yk.allmx[i][4])

#df=pd.DataFrame(yk.allmx)
df = pd.DataFrame(newlist)
#print(df)
name =
df.to_excel(final.xls,index=None,header=None)

if __name__ == '__main__'
ff = open(rCProgram Files (x86)Suning RobotStudioProjectstesttest.html, 'r', encoding=gbk)
data = ff.read()
html_tr_td(data)

转载于:https://www.cnblogs.com/jessitommy/p/11077210.html

htmltoExcel相关推荐

  1. apache poi_将HTML转换为Apache POI的RichTextString

    apache poi 1.概述 在本教程中,我们将构建一个将HTML作为输入的应用程序,并使用提供HTML的RichText表示形式创建Microsoft Excel工作簿. 为了生成Microsof ...

  2. 将HTML转换为Apache POI的RichTextString

    1.概述 在本教程中,我们将构建一个将HTML作为输入的应用程序,并使用提供HTML的RichText表示形式创建Microsoft Excel工作簿. 为了生成Microsoft Excel工作簿, ...

  3. 解决导出为Excel时文件名乱码的问题。

    以前代码:public static void htmlToExcel(HttpContext context, string title, string html, string fileCss = ...

  4. C#/VB.NET 将Html转为Excel

    vb.net教程https://www.xin3721.com/eschool/vbnetxin3721/ 本文介绍通过C#和VB.NET代码展示将Html转为Excel文档的方法. dll引用 方法 ...

  5. POI导出Excel (满满的干货啊)

    已经实现的POI导出Excel 步骤一:导入依赖 <dependency><groupId>org.apache.poi</groupId><artifact ...

  6. EasyPOI 使用教程

    目录 1. 前传 1.1 前言 1.2 Easypoi介绍 1.3 使用 1.4 测试项目 1.5 可能存在的小坑 2. Excel 注解版 2.1 Excel导入导出 2.2 注解 2.3 注解导出 ...

  7. 通过js代码导出Excel表格

    1.js代码 View Code //grid导出exl function outputAddress(grid, strMethod) {try {var xls = new ActiveXObje ...

  8. 常见问题任务(汇总一)

    目录 vue 1.vue项目中导出表格 2.使用轮播展示数据 3.全局事件总线的运用 4.获取焦点元素上移,加阴影 5. 使用echarts 6.添加加载的进度条 7.使用ant-design-vue ...

  9. vue导出Excel表格全局函数(简洁明了)

    vue导出excel全局函数(简洁明了) 将导出到Excel功能封装成一个公用js函数,供其他vue页面复用. 1.安装Excel插件 npm install --save xlsx file-sav ...

最新文章

  1. Python中怎样改变集合之间的关系?
  2. [译]Selenium Python文档:一、安装
  3. python3 PIL、opencv, 二进制、base64 四种图片格式转换
  4. RAW SOCKET探索
  5. JAVA web项目报错no sigar-x86-winnt.dll in java.library.path
  6. 行业专业的移动广告聚合平台--KeyMob
  7. 双11万亿流量下的分布式缓存
  8. 查看java运行时参数_查看JVM运行时参数
  9. NLP简报(Issue #3)
  10. 开课吧Java课堂:Transient和volatile修饰符如何运用
  11. 动态规划练习合集(c++)
  12. linux用Vim上传.sql,真的有(很多)linux大牛用vim写项目吗?
  13. 使用 TF-IDF 算法将文本向量化
  14. Scratch少儿趣味编程pdf
  15. 【翻译】Visual Place Recognition_ A Survey视觉场景识别综述【一】
  16. 职业经理人影响力自检手册(二)
  17. CDM技术分析和产品选型建议
  18. 博弈论笔记--06--纳什均衡之约会游戏与古诺模型
  19. 自从我用了这些浏览器插件,工作效率至少提高了一倍,谷歌浏览器插件
  20. 宝剑锋从磨砺出——编译器gcc的使用

热门文章

  1. D: Starry的神奇魔法(矩阵快速幂)
  2. JVM体系结构与工作方式
  3. Remove Duplicates from Sorted Array II
  4. JDBC结合JSP使用(2)
  5. PhoneGap学习笔记(一) 框架搭建
  6. __mmc_claim_host
  7. 管理系统网页模板_档案管理系统应该涵盖一些什么功能?
  8. 分布式选举协议:Raft
  9. 电脑硬盘为什么叫计算机,电脑分区为何从C盘开始?
  10. java fastdfs 压测_利用jmeter+JAVA对RPC的单接口(dubbo接口等)进行性能测试,零基础(2)...