python10分钟处理表格_使用python对excel表格处理的一些小功能
python对excel表格处理的一些小功能 功能概览pandas库的一些应用文件读入计算表格中每一行的英文单词数简单用textblob进行自然语言情感分析判断一行中是不是有两列值都与其他行重复(可推广至多列)对表格中的两列自定义函数运算判断表格中某列中是否有空对表格某列中时间格式的修正运用matplotlib画时间序列图,重叠图
功能概览
做数模模拟赛时学到的一些对表格处理的知识,为了方便自己以后查找,遂写成一篇文章,也希望能帮助大家:)
pandas库的一些应用
文件读入
代码如下,每一句后面都有注释!
包括知识点:
1.excel文件的写入和输出;
2.检验表格中是否有nan,有即删除一行;
3.把表格某列中所有某字母替换成另一字母,所有某数字替换成另一数字;
4.检验表格某列中每一格是y还是n,是y就在新列中对应输出1,反之则为0;
5.对表格中多列进行运算
(首先要配置pandas库,如果需要读取和写入文件,要配置xlsxwriter库)
import pandas as pd
import xlsxwriter
word=pd.read_excel('c:/math/problem_c_data/my_pacifier.xlsx') #excel表格文件读入,括号里面写文件地址
word=word.replace(['n','y'],['n','y']) #把excel表里的所有n替换成n,y替换成y
word=word.dropna(axis=0) #如果表格里有一行中有nan,即删除这一行
word['m'] = word['a'].str.contains('y').astype(int) #如果列索引为a的这一列中有y则对应新列中取值为1
word['n']=word['vine'].str.contains('y').astype(int)
word['n']=word['n'].replace(1,2) #把列索引为n的这一列中所有为1的值转换为2
s = word.apply(lambda word: word['a'] *(word['m']+word['n']) , axis=1) #s列是由表格中其他列的计算得到
word['si']=(s - s.min())/(s.max() - s.min()) #对s列中的值进行归一化处理
print(word['si']) //打印索引为si的列
#print(s)
#print(word['n'])
word.to_excel('c:/math/problem_c_data/svvp.xlsx',engine='xlsxwriter') //输出excel文件到电脑中
print('finished')
计算表格中每一行的英文单词数
包含知识点:
1.dataframe和字典、列表的转换;
2.如何遍历字典;
3.计算dataframe中每一列的英文句子中的单词数
import pandas as pd
import xlsxwriter
word=pd.read_excel('c:/math/problem_c_data/reviewh.xlsx') #里面只有一列数据
c=[] #列表,用来统计每一行的英文句子的英文单词个数
word=word.set_index(word.index).t.to_dict('list') #把这一列数据按dataframe的索引转换成字典
for key,value in word.items(): #遍历字典
s=str(value) #先把表格里当前行的内容转换成字符串
a=s.split(' ') #把英文句子按空格分割
num_s=len(a) #计算出单词个数
c.append(num_s) #添加到c中
c=pd.dataframe(c) #由列表转换为dataframe
c.to_excel('c:/math/problem_c_data/counth.xlsx',engine='xlsxwriter') //输出成新的文件
print('finished')
简单用textblob进行自然语言情感分析
用nlp简单分析表格中每一格的英文句子的情感极性和主观性
import pandas as pd
from textblob import textblob
import xlsxwriter
word=pd.read_excel('c:/math/problem_c_data/reviewh.xlsx')
c=[]
word=word.set_index(word.index).t.to_dict('list')
for key,value in word.items():
s=str(value)
blob = textblob(s) #把s转化成textblob对象
blob = blob.sentences #利用textblob句子标记化句子
first = blob[0].sentiment #对标记化后的句子进行情感分析(我这里只有一个句子,如果有很多句就添加second=blob[1].sentiment)
c.append(first.polarity) #这里只添加了情感极性,如果还需要主观性,就直接用first
c=pd.dataframe(c)
c.to_excel('c:/math/problem_c_data/nlph.xlsx',engine='xlsxwriter')
print('finished')
判断一行中是不是有两列值都与其他行重复(可推广至多列)
判断表中是不是有在同一行中a列和b列值都相同的情况。如第一行中a=1,b=2,第4行中a=1,b=2,则这两行相同;如果第8行中a=1,b=3,则它和第一行不重复
import pandas as pd
import xlsxwriter
word=pd.read_excel('c:/math/problem_c_data/my_hair_dryer.xlsx')
x=word['a']
y=word['b']
z=pd.concat([x,y],axis=1)#对axis=1即把两列按行对齐,即左右拼接成一张表
z['repeat']=z.duplicated() #判断表中有没有重复的,如果有则输出为true
ll = z['repeat'].values.tolist() #把这一列转变成列表
if 'true' in ll: #遍历列表,如果里面有true,就说明有重复,就输出yes
print('yes')
print('finished')
对表格中的两列自定义函数运算
(此处定义的是除法运算)
import pandas as pd
import xlsxwriter
word=pd.read_excel('c:/math/problem_c_data/my_hair_dryer.xlsx')
def chu(x,y):
if y==0: #分母为0,则不运算,结果直接为0
result=0
else:
result=x/y
return result
s = word.apply(lambda word:chu(word['helpful_votes'],word['total_votes']), axis=1)
s.to_excel('c:/math/problem_c_data/voteh.xlsx',engine='xlsxwriter')
print('finished')
判断表格中某列中是否有空
import numpy as np
import pandas as pd
import xlsxwriter
word=pd.read_excel('c:/math/problem_c_data/my_hair_dryer.xlsx')
train=word['review_date']
print(train.isnull().any()) #有空即输出true
对表格某列中时间格式的修正
原格式是月/日/年,如1/11/2014,改为标准datetime格式2014-01-11(此处还要舍去后面的00:00:00),方便之后画图,也方便排序等
import pandas as pd
import datetime #引入库
#导入数据集
data =pd.read_excel('c:/math/problem_c_data/exx.xlsx')
data = data.loc[:, ['review_date']] # 获取数据集中列名为review_date
#s= pd.to_datetime(data['review_date'], format='%m/%d/%y')
# 标准化日期,获取时间的“年、月、日”
def change_date(s):
s = datetime.datetime.strptime(s, "%m/%d/%y") #这里是原格式的形式,俺是月/日/年,可根据实际情况修改
# 把日期标准化,如把1/11/2014变成2014-01-011 00:00:00
s = str(s) # 上一步把date转化为了时间格式,此处把date转回str格式
return s[:10] #只获取年月日的方法,即“位置10”之前的字符串
#字符串的切片
data['review_date'] = data['review_date'].map(change_date)
# 用change_date函数处理列表中date这一列,如把“1/11/2014”转化为“2014-01-11”
#data = data.sort_values(by='review_date') # 按date这一列进行排序,根据需要采用
data.to_excel('c:/math/problem_c_data/exxx.xlsx',engine='xlsxwriter')
print('finished')
运用matplotlib画时间序列图,重叠图
画时间序列图
(如果要画重叠图,记得x要一样,y可以不一样,然后用plt.plot(x,y0,x,y1,x,y2)即可画出重叠图)
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
import matplotlib
import datetime
from statsmodels.graphics.factorplots import interaction_plot
import xlsxwriter
data=pd.read_excel('c:/math/problem_c_data/exx.xlsx')
# # create data
s=data['e'] #y轴
e0=s[2907:5043]
t=data['review_date']
t0=t[2907:5043]
y0 =e0.values.tolist()
x0 = pd.to_datetime(t0) #x轴
# # plot
plt.plot(x0,y0)
plt.gcf().autofmt_xdate()
plt.grid(ls = '--') #设置背后的网格线
plt.show() #最后一定要show()
到此这篇关于使用python对excel表格处理的一些小功能的文章就介绍到这了,更多相关python对excel表格处理内容请搜索萬仟网以前的文章或继续浏览下面的相关文章希望大家以后多多支持萬仟网!
希望与广大网友互动??
点此进行留言吧!
python10分钟处理表格_使用python对excel表格处理的一些小功能相关推荐
- 用python处理excel表格_使用Python处理excel表格(openpyxl)及表格中的中文处理
现在有个小任务,需要处理excel中的数据.其实就是简单的筛选,excel玩的不熟练,而且需要处理的表有70多个,于是想着写个脚本处理一下吧. python中的openpyxl包可以轻松实现读写exc ...
- 如何用python生成表格_用 Python 生成 HTML 表格
在 邮件报表 之类的开发任务中,需要生成 HTML 表格. 使用 Python 生成 HTML 表格基本没啥难度, for 循环遍历一遍数据并输出标签即可. 如果需要实现合并单元格,或者按需调整表格样 ...
- python处理excel案例_使用Python处理Excel表格的简单方法
使用Python处理Excel表格的简单方法 Excel 中的每一个单元,都会有这些属性:颜色(colors).number formatting.字体(fonts).边界(borders).alig ...
- python与excel表格-如何用python处理excel表格
openpyxl是一个第三方库,可以处理xlsx格式的Excel文件.pip install openpyxl安装. 读取Excel文件 需要导入相关函数 from openpyxl import l ...
- c语言读取excel表格_利用pandas处理excel表格
这不是一篇详细介绍pandas的文章,只是我在利用python处理excel表格时找到的一些临时方案,为了避免忘记,记录在这里,也可能对你有帮助. pandas在对excel处理上使用的是xlrd和x ...
- python处理excel表格-如何用python处理excel表格
openpyxl是一个第三方库,可以处理xlsx格式的Excel文件.pip install openpyxl安装. 读取Excel文件 需要导入相关函数 from openpyxl import l ...
- 办公软件excel表格_钢筋算量Excel表格,现场算钢筋,效率可与大型软件相比
提起钢筋算量,工作很久造价和施工恐怕都要挠头,对于刚入行的造价和施工都可以说是灾难.不过不用担心,我今天就是来给大家送解决方法--钢筋算量Excel表格. 钢筋算量Excel表格基本包含了钢筋算量的全 ...
- pythonexcel汇总_用python汇总excel表格数据-怎样用python遍历表格中的内容
如何用python将数据写入excel表格 # 需 xlrd-0.9.2 xlutils-1.7.1 这两个模块 from xlwt import Workbook, Formula import ...
- python写表格_使用Python对Excel进行读写操作
学习Python的过程中,我们会遇到Excel的读写问题.这时,我们可以使用xlwt模块将数据写入Excel表格中,使用xlrd模块从Excel中读取数据.下面我们介绍如何实现使用Python对Exc ...
最新文章
- 零基础入门学习Python(17)-函数的参数
- 刚接触机器学习这一个月我都做了什么?
- 【python3的学习之路四】使用list和tuple
- linux-2.6.29内核配置、编译与安装
- 巡回沙龙_美浮特全国巡回沙龙第一期结束撒花!
- BZOJ 1827: [Usaco2010 Mar]gather 奶牛大集会 树形DP + 带权重心
- 世界冠军之路:菜鸟车辆路径规划求解引擎研发历程
- python安装第三方库-常见错误解决
- 讨论记录:求大于一个时间段的最大平均积分,O(n)时间实现
- python朴素贝叶斯分类的手写数字识别_关于利用机器学习进行手写数字的的识别...
- Dubbo 2.7.7 发布,FastJson 升级了!
- Docker docker-compose 配置lnmp开发环境
- 有向图和无向图用邻接矩阵储存
- 家庭局域网接入Internet
- os_pend_multi.c
- sucess==happiness
- mysql数据库DBA题型问题解答
- pci 中断冲突_如何解决IRQ冲突
- 奥地利研究发现老夫择少妻是进化需要
- pandas下-综合练习