pandas(五) -- 文本处理
文本处理.–使用字符串处理函数
先将pandas的series对象转成strings对象,再使用字符串相关函数。
s = pd.Series(['A','b','C','bbhello','123',np.nan,'hj'])
0 A
1 b
2 C
3 bbhello
4 123
5 NaN
6 hj
dtype: object
print(type(s),type(s.str))
<class 'pandas.core.series.Series'> <class 'pandas.core.strings.StringMethods'>
将series对象转成strings对象后,就可以使用字符串相关的方法了。
- 计算某个字符出现的次数
.count()
s.str.count('b')
0 0.0
1 1.0
2 0.0
3 2.0
4 0.0
5 NaN
6 0.0
dtype: float64
其余方法见:字符串相关方法
- 列名变为大写
df.columns = df.columns.str.upper()
.split()
中的expand
参数
s = pd.Series(['a,b,c','1,2,3',['a,,,c'],np.nan])
print(s)
print(s.str.split(',', expand=True))
print(s.str.split(',', expand=True, n = 1))
s
0 [a, b, c]
1 [1, 2, 3]
2 NaN
3 NaN
dtype: object
s.str.split(',', expand=True)
0 1 2
0 a b c
1 1 2 3
2 NaN NaN NaN
3 NaN NaN NaN
s.str.split(',', expand=True, n = 1),切分一次,且扩展
0 1
0 a b,c
1 1 2,3
2 NaN NaN
3 NaN NaN
切片
s.str[0] # 获取s的每条数据的第一个元素,遇NaN跳过
0 A
1 b
2 C
3 b
4 1
5 NaN
6 h
dtype: object
pandas(五) -- 文本处理相关推荐
- 如何用Pandas处理文本数据?
↑↑↑关注后"星标"Datawhale 每日干货 & 每月组队学习,不错过Datawhale干货 作者:耿远昊,Datawhale成员,华东师范大学 文本数据是指不能参与算 ...
- 【Python基础】如何用Pandas处理文本数据?
作者:耿远昊,Datawhale成员,华东师范大学 文本数据是指不能参与算术运算的任何字符,也称为字符型数据.如英文字母.汉字.不作为数值使用的数字(以单引号开头)和其他可输入的字符.文本数据具有数据 ...
- pandas 空字符串与na区别_python从安装到数据分析应用高手 Pandas处理文本数据(一)...
数据分析师的一天 作为一名数据分析师,目前而言是以业务为中心,取数,清洗整理数据,取数与清洗数据会消耗大量的工作时间,毕竟代码需要跟着业务节奏变化. 其中文本数据相比数值数据更具复杂性,本文就pand ...
- pandas 转换为文本类型_python – pandas将文本特征转换为数值
我可以通过使用df.astype()方法转换为'category'来转换pandas数据框中的所有文本功能,如下所示.但是我觉得类别难以使用(例如用于绘制数据),并且更愿意创建一个新的整数列 #con ...
- Pandas提取文本信息(身份证号码)
学校保卫处工作人员登记的内容不规范,想要提取其中的身份证号码,下面从文件读取及内容提取,到最后的数据保存,跟大家一起交流讨论. 表格内容: 登记内容 时间 小明的身份证是990326197312200 ...
- pandas 转换为文本类型_Pandas对文本数据处理
在处理数据的时候对数值型的数据处理还是比较方便的但是有时候数值型数据出现问题后就会比较头痛了因为文本数据的排列组合可是有很多很多的今天我们就学习一下如何对文本数据进行处理这样我们接下来在工作中遇到了这 ...
- pandas 转换为文本类型_4-Pandas数据预处理之数据转换(文本数据规整)
Pandas对于字符串和文本处理通常是由一些内置的字符串方法指定,一般语法格式为:series.str.method.其中,str.method被称为矢量化的字符串方法,包括str.upper().s ...
- python 之 Pandas (五)导入导出
代码: import pandas as pd# 读取 data = pd.read_csv('Students1.csv') print(data)# 保存 data.to_pickle('stud ...
- pandas 转换为文本类型_分享5个高效的pandas函数!
点击上方蓝色字关注我们~ 作者:Soner Yıldırım 来源:Python大数据分析 1. explode explode用于将一行数据展开成多行.比如说dataframe中某一行其中一个元素包 ...
最新文章
- 每个软件开发人员都应该精通的10个基本工具
- 北京科技大学天津学院第三届智能车校内赛总决赛完美落幕
- git commit 提交的时候报错husky > pre-commit hook failed (add --no-verify to bypass)(解决办法)
- Oracle基础中的基础视频讲座录像(西安)供免费下载
- matlab中“存储空间不足,无法处理此命令”
- 25 MM配置-采购-无物料主数据的项目输入帮助
- 又来Hello World了,Hello Python
- hive 将null值替换为0_【Hive】数据倾斜
- Centos7 中查找文件、目录、内容
- 计算机原理寄存器基础知识,微机原理——基础知识及计算机基本组成
- Android基本动画
- Android Studio导入项目运行出现大量警告,且报错GC,解决办法
- 初学者怎么自学python编程_编程零基础初学者应当如何开始学习 Python?
- 基于RSA解题时yafu的使用
- python random设置种子_关于python:如何查询random.random()使用的种子?
- 网上好用的大数据支持的舆情分析系统工具整合
- 【JavaWeb】(血泪踩雷史...)Token登录前后端交互及跨域问题
- matlab图像身高测量,基于Kinect景深图像的快速身高和体重测量方法
- 麦田守望者--走出软件作坊:三五个人十来条枪 如何成为开发正规军(四十三)...
- 如何浏览自己的新浪微博图床
热门文章
- VC++中,如何定义callback函数和它的触发事件?
- cdh 添加jar包_使用maven下载cdh版本的大数据jar包
- c语言循环8,C语言8 循环语句 | CN-SEC 中文网
- linux-grub修复5步搞定
- 【算法】动图展示八大常用排序算法,一次看个够!
- 讨论下直博和读完硕士再读博,在能力上的差距
- 【机器学习】微软出品!FLAML:一款可以自动化机器学习过程的神器!
- ​【Python基础】告别枯燥,60 秒学会一个 Python 小例子(文末下载)
- 推荐一些能提高生产力的 Python 库
- 声学、音乐计算常用工具总结(soundfile、librosa、pydub、madmom、spleeter)