机器学习过程中往往需要对数据进行预处理,这一工作常占据整个数据分析工作量的40%~50%的时间。应用Python的Excel工具往往可以加速这一过程。本文采用xlwings打开Excel表格,从而加速数据的预处理速度。之所以选用xlwings原因如下:

很多数据处理软件比如WEKA,并不能支持中文, 一种方法是对表格数据进行英文翻译,但该方法不能很好地支持中文姓名的翻译,且python的英文翻译工具太过复杂;另一种方法是以汉语拼音替代,该方法要求表格中不要有太过冗长的句子。本文选择了后者。首先本文待处理的数据源自于云南省普洱市澜沧县富东乡小坝寸的扶贫统计小数据集,如下图所示:

该表的特征是从2014到2019年的数据都集中在了一张表中,训练数据集需要把该表拆分为6张以年为单位的单独表。其实现代码如下:

import xlwings
from xpinyin import Pinyin
p = Pinyin()# 指定不显示得打开工作簿
app = xlwings.App(visible=False,add_book=False)# 打开需要转换为拼音的EXCEL表格
wb = app.books.open(r"testset2.xlsx")# 获取第一张表
sheet1 = wb.sheets[0]
rowNum = sheet1.used_range.last_cell.row + 1
colNum = sheet1.used_range.last_cell.column + 1
print(rowNum)
print(colNum)
# 提取指定单元格文本'''['A', 'B', 'C', 'D', 'E', 'F', 'G', 'H', 'I', 'J', 'k', 'L', 'M', 'N']:'''
for C in range(1,colNum):for R in range(1,rowNum):#cell = C + str(R)text = sheet1.range(R , C).valueif (isinstance(text, str)):sheet1.range(R , C).value = p.get_pinyin(text, splitter=" ")# 保存并关闭工作簿
wb.save()
wb.close()

首先得到一张转换为汉语拼音后的表,如下图:

应用Python把汉语Excel表转换为拼音表格相关推荐

  1. Excel中文转换为拼音(大写首字母、小写首字母、全拼、全拼首首字母大写)

    很多时候我们需要处理一下汉字转换为拼音的需求,今天给大家分享一下标题包含的一下转换方法 1 .excel通过宏可以很好的处理汉字转换为拼音的    1.1下面的是转为全拼音的宏代码 Function ...

  2. Word控件Spire.Doc 【Table】教程(10): 如何在 C#、VB.NET 中将嵌入式 Excel 工作表转换为 Word 表格

    Spire.Doc for .NET是一款专门对 Word 文档进行操作的 .NET 类库.在于帮助开发人员无需安装 Microsoft Word情况下,轻松快捷高效地创建.编辑.转换和打印 Micr ...

  3. gis属性表怎么导成excel_使用Python脚本将Excel表批量赋值到ArcGIS属性表

    现需要将Excel表信息批量赋值(不是挂接)到Shp文件的属性表,两张表的字段.记录数一模一样,至于为什么会出现这样的问题,咱也不敢问,只有想个法子把它搞定! 原始的Excel信息表共57列,总共3万 ...

  4. Python实现读取Excel表内容批量生成二维码

    目录 一.概述 二.依赖库安装 三.Execl内容 四.代码片段 五.demo下载连接 一.概述 最近由于工作原因,需要用到大量二维码,如果用某料二维码生成器生成的话,要么一个一个生成,要么花钱开会员 ...

  5. Python如何读取Excel表内容

    用python读取excel表中的数据 假如说有如下一张存储了数据的excel表,其中x1-x6是特征,y_label是特征对应的类别标签.我们想要使用python对以下数据进行数据分析,那么第一步就 ...

  6. python pandas操作excel表

    原始excel表 要转换成的excel表 代码 import pandas as pdclass Daletou(object):def __init__(self):# 读取excel表的哪几列se ...

  7. Python xlrd将excel表的指定数据copy到另一个excel表格中

    要复制excel表的内容: 分别在第15.16.17.18.19列 第二张的excel表格: 代码部分: import xlrd from datetime import datetime from ...

  8. Python批量下载excel表中超链接图片

    目录 背景 数据格式 处理步骤 1.使用xlrd读取excel表格数据 2.详细代码 ①引入相关库 ②实例代码 背景 导出数据到excel,数据中有图片,需求是批量下载图片的指定文件夹 数据格式 数据 ...

  9. python怎样操作excel表_python操作excel表

    1.新增表并添加数据: 2.给工作表添加表名称,给表数据添加格式: import xlsxwriter datas=(['Rent',1000], ['Gas',100], ['fish','画画'] ...

最新文章

  1. Oracle 哈希连接原理
  2. 线段树--codevs 1690 开关灯
  3. 手撸移动端轮播图(内含源码)
  4. react native loading动画_React高级进阶指南
  5. 查看pem证书的ASN数据结构的方法
  6. 求职招聘系统中的观察者模式的应用和分析
  7. Oracle、MySQL、SQL server数据库去重
  8. shapefile文件格式说明
  9. SVN 配置ip访问
  10. 优秀数智生态伙伴|上海用诚软件廖晓军:以人才迭代推动云转型,实现专业化发展...
  11. 开源在线答题系统包含:在线考试,问卷调查,在线练题。架构为jdk7、spring4、spring-mvc4
  12. 语音信号处理-概念(三):FBank特征、MFCC特征(梅尔频率倒谱系数)【由于二者蕴含信息较少,已不适合这个大数据时代。但有些任务由于其本身的特殊性质,还是会使用到MFCC谱。如情感语音转换任务】
  13. 您选择的分区不支持无损调整容量操作
  14. 经验 | 在麻省理工人工智能实验室如何做研究?
  15. java中级程序员_java中级程序员路线图(黑马)
  16. 批量修改bilibili下载视频的文件名
  17. Linux系统 deamon进程
  18. 如何创建内容安全策略(CSP 标头)
  19. 什么是jQuery,jQuery选择器
  20. 计算机英语性考任务答案,2010秋英语(1)形考答案

热门文章

  1. java获取服务器ip地址_java中获取当前服务器的Ip地址的方法
  2. 有向图邻接矩阵幂的意义
  3. 贝壳网失败了,有些伤感
  4. OpenCV————鼠标绘制和滑动条
  5. 计算机科学湖北的大学排行,2015年湖北省大学最佳专业排行榜
  6. Netezza向GBase 8a迁移总结
  7. 2017 年度十大最受欢迎的浏览器,你在用哪一款?
  8. Go技术日报(2021-11-16/17)——gRPC的错误处理实践
  9. 十一、海思HISI3556V200摄像头功能裁剪
  10. 3、基于注解的IoC装配与依赖注入