只想说,数据挖掘工作,80%时间都花在处理数据上了,这句话真不假!

最近和小伙伴组了个队参加数据分析比赛,记录下我处理 csv 文件的一些步骤吧:

修改csv文件

可以用csv模块1,官方文档2

import pandas as pd
import csv
city_class={1:['北京','上海','重庆','天津'],2:['成都','大连','沈阳'],3:['长春']}
with open('city_test.csv','r+') as f:f.readline()data=csv.reader(f)rows=[r for r in data]print(rows)for i in rows:for key,values in  city_class.items():if i[0] in values:i[0]=keywriter = csv.writer(open('output.csv', 'w'))print(rows)writer.writerows(rows)                

修改excel

csv文件问题多多,不如直接用exel的xlsx文件也ok:

data = pd.read_excel('test.xlsx')
data['city'].map(dict)

这里使用map3对中文数据的城市进行匹配,替换成数字。

将excel文件中转换成dict

a=df.set_index('city')['num'].to_dict()

将excel中的两列转换成字典,用来匹配我上面的城市。4

统计excel文件行数和列数

rows=len(data.index)
rows=data['某列名'].count()
data.shape()    #获得形状,是一个tuple   行数*列数

EDIT: As noted @Dan Allen in the comments len(df.index) and df[0].count() are not interchangeable as count excludes NaNs,5

统计计数

计数统计我们使用:value_counts()

参考


  1. 官方-CSV File Reading and Writing↩

  2. so-python修改csv specific values↩

  3. index-pandas-map↩

  4. so-python pandas dataframe to dictionary↩

  5. so-how to get row count of pandas dataframe?↩

转载于:https://www.cnblogs.com/michael-xiang/p/10467480.html

Python 处理 CSV/EXCEL 表格文件相关推荐

  1. Python Pandas操作Excel表格文件:创建新表格,追加数据

    前言: python操作excel表格文件的增删读写,一般需要用到的第三方库有xlwt,xlrd.xlrd负责读取excel,xlwt负责写入excel文件.这种操作方法比较繁琐,效率还不错,通俗易懂 ...

  2. python pandas创建excel,Python Pandas操做Excel表格文件:建立新表格,追加数据

    前言: python操做excel表格文件的增删读写,通常须要用到的第三方库有xlwt,xlrd.xlrd负责读取excel,xlwt负责写入excel文件.这种操做方法比较繁琐,效率还不错,通俗易懂 ...

  3. 利用Python脚本来使用Google自动翻译Excel表格文件

    使用谷歌翻译Excel表格的Python自动脚本 最近闲来无事写了份保姆级别的翻译Excel文件的python脚本. 最后在参考各位大佬的教程后写出的脚本,需要的可以自取. github源码 食用方法 ...

  4. python读取Excel表格文件

    python读取Excel表格文件,例如获取这个文件的数据 python读取Excel表格文件,需要如下步骤: 1.安装Excel读取数据的库-----xlrd 直接pip install xlrd安 ...

  5. 基于Python读取Excel表格文件数据并转换为字典dict格式

      有时我们需要将一个Excel表格文件中的全部或一部分数据导入到Python并转换为字典格式,如何实现呢?   我们以如下所示的一个表格(.xlsx格式)作为简单的示例.其中,表格共有两列,第一列为 ...

  6. python处理excel表格数据-零基础使用Python读写处理Excel表格的方法

    引 由于需要解决大批量Excel处理的事情,与其手工操作还不如写个简单的代码来处理,大致选了一下感觉还是Python最容易操作. 安装库Python环境 首先当然是配环境,不过选Python的一个重要 ...

  7. com.alibaba.easyexcel导出指定的列_使用Python导入导出Excel表格

    这篇文章的目的是讲解使用python导入导出Excel表格,目前还不涉及数据处理,主要实现为数据的展示. 第一步,准备材料 python3.8的安装包 一个Excel表格 第二步,安装软件 pytho ...

  8. 【PHP】PHP使用PHPExcel生成Excel表格文件(附带随机生成英文名函数)

    [PHP]PHP使用PHPExcel生成Excel表格文件(附带随机生成英文名函数) 前言 由于业务需要,我们需要从业务中汇总数据,并生成Excel文件. 思路是这样的 PHP要导出Excel表格文件 ...

  9. Python练习-合并excel表格

    前言: 这个栗子本来打算是要合并自己下载的数据集,但是尝试了好久!!才发现是.xls文件损坏了-我忍-在练习过程遇到不少bug,若是小伙伴有疑问可以提一提,说不定我遇到过,恍恍惚惚- 代码: ''' ...

最新文章

  1. OKR的实施案例:OKR不需要很复杂
  2. 欧洲、加拿大、澳大利亚新增2.1万个点可购买比特币现金
  3. c语言x的2取模_c语言如何取模运算
  4. 电脑硬件故障的几种简单检查方法
  5. python 调用函数 开销_Python函数调用非常慢
  6. 一棵二叉树的中根线索二叉树_二叉树面试题刷题模板(终极版)
  7. 【Shell教程】一----什么是Shell
  8. CTF:攻防世界web PART01
  9. Seaborn可视化 -- 分类统计图seaborn.catplot
  10. 坚果pro2刷MIUI10
  11. 软件测试培训一般多少钱?
  12. 微信小程序开发者工具运行不了
  13. C#使用Thread.Sleep()导致程序无响应的解决办法
  14. 什么是url,herf和src的区别
  15. 做完电商直播后,怎么做直播复盘?
  16. 二叉树的基本概念和性质
  17. html实现下拉跳转
  18. (转)如何成为一名优秀的程序员?
  19. MTCNN配置及训练详细步骤
  20. Java实现手机发送短信验证码

热门文章

  1. iOS小技巧之圆角图片
  2. Linux LAMP搭建
  3. Objective-c 中 nil, Nil, NULL和NSNull的区别
  4. 采用install.sh安装脚本进行快速安装astercc
  5. 终于找到个好办法备份数据库了
  6. leetcode-453-Minimum Moves to Equal Array Elements
  7. x为正变数,求y=x^3/(x^4+4)的最大值
  8. SQL数据库连接语句
  9. glyphicons-halflings-regular.woff2 文件 404
  10. 怎样把ACCESS导入SQL数据库