为什么我们需要使用Pandas新字符串Dtype代替文本数据对象

We have to represent every bit of data in numerical values to be processed and analyzed by machine learning and deep learning models. However, strings do not usually come in a nice and clean format and require a lot preprocessing.

我们必须以数值表示数据的每一位，以便通过机器学习和深度学习模型进行处理和分析。但是，字符串通常不会采用简洁的格式，并且需要大量预处理。

Pandas provides numerous functions and methods to process textual data. In this post, we will focus on data types for strings rather than string operations. Using appropriate data types is the first step to make most out of Pandas. There are currently two data types for textual data, object and StringDtype.

熊猫提供了多种功能和方法来处理文本数据。在本文中，我们将重点介绍字符串的数据类型，而不是字符串操作。使用适当的数据类型是充分利用Pandas的第一步。当前，文本数据有两种数据类型： object和StringDtype。

Before pandas 1.0, only “object” datatype was used to store strings which cause some drawbacks because non-string data can also be stored using “object” datatype. Pandas 1.0 introduces a new datatype specific to string data which is StringDtype. As of now, we can still use object or StringDtype to store strings but in the future, we may be required to only use StringDtype.

在pandas 1.0之前，仅使用“对象”数据类型来存储字符串，这会导致一些缺点，因为非字符串数据也可以使用“对象”数据类型来存储。 Pandas 1.0引入了特定于字符串数据的新数据类型StringDtype 。到目前为止，我们仍然可以使用object或StringDtype来存储字符串，但是将来，可能会要求我们仅使用StringDtype。

One important thing to note here is that object datatype is still the default datatype for strings. To use StringDtype, we need to explicitly state it.

这里要注意的一件事是对象数据类型仍然是字符串的默认数据类型。要使用StringDtype，我们需要明确声明它。

We can pass “string” or pd.StringDtype() argument to dtype parameter to select string datatype.

我们可以将“ string ”或pd.StringDtype()参数传递给dtype参数以选择字符串数据类型。

We can also convert from “object” to “string” data type using astype function:

我们还可以使用astype函数将“ object”数据类型转换为“ string”数据类型：

Although the default type is “object”, it is recommended to use “string” for a few reasons.

尽管默认类型为“对象”，但出于一些原因，建议使用“字符串”。

Object data type has a broader scope and allows to store pretty much anything. Thus, even if we have non-strings in a place that is supposed to be a string, we don’t get any error.对象数据类型的范围更广，可以存储几乎所有内容。因此，即使我们在应该是字符串的地方放置了非字符串，也不会出现任何错误。

It is always better to have a dedicated data type. For instance, if we try to the example above with “string” data type, we get a TypeError.最好使用专用的数据类型。例如，如果我们尝试上面的示例使用“字符串”数据类型，则会得到TypeError。

Having a dedicated data type allows for data type specific operations. For instance, we cannot use select_dtypes to choose only text columns if “object” data type is used. Select_dtypes(include=”object”) will return any column with object data type. On the other hand, if we use “string” data type for textual data, select_dtypes(include=”string”) will give just what we need.

具有专用数据类型允许进行特定于数据类型的操作。例如，如果使用“对象”数据类型，则不能使用select_dtypes仅选择文本列。 Select_dtypes(include =“ object”)将返回任何具有对象数据类型的列。另一方面，如果我们对文本数据使用“字符串”数据类型，则select_dtypes(include =“ string”)会满足我们的需求。

“String” data type is not superior to “object” in terms of performance as of now. However, it is expected, with future enhancements, the performance of “string” data type will be increased and the memory consumption will be decreased. Thus, we should already be using “string” instead of “object” for textual data.

到目前为止，就性能而言，“字符串”数据类型并不优于“对象”。但是，可以预料，随着将来的增强，“字符串”数据类型的性能将得到提高，内存消耗将减少。因此，我们应该已经在文本数据中使用“字符串”而不是“对象”。

Thank you for reading. Please let me know if you have any feedback.

感谢您的阅读。如果您有任何反馈意见，请告诉我。

翻译自: https://towardsdatascience.com/why-we-need-to-use-pandas-new-string-dtype-instead-of-object-for-textual-data-6fd419842e24

查看全文

http://www.taodudu.cc/news/show-997579.html

nlp构建_使用NLP构建自杀性推文分类器
时间序列分析 lstm_LSTM —时间序列分析
泰晤士报下载_《泰晤士报》和《星期日泰晤士报》新闻编辑室中具有指标的冒险活动-第1部分：问题
异常检测机器学习_使用机器学习检测异常
特征工程tf-idf_特征工程-保留和删除的内容
自我价值感缺失的表现_不同类型的缺失价值观和应对方法
学习sql注入:猜测数据库_面向数据科学家SQL：学习简单方法
python自动化数据报告_如何：使用Python将实时数据自动化到您的网站
学习深度学习需要哪些知识_您想了解的有关深度学习的所有知识
置信区间估计预测区间估计_估计，预测和预测
地图 c-suite_C-Suite的模型
sap中泰国有预扣税设置吗_泰国餐厅密度细分：带有K-means聚类的python
傅里叶变换直观_A / B测试的直观模拟
鸽子迷信_人工智能如何帮助我战胜鸽子
scikit keras_Scikit学习，TensorFlow，PyTorch，Keras…但是天秤座呢？
数据结构两个月学完_这是我作为数据科学家两年来所学到的
迈向数据科学的第一步：在Python中支持向量回归
使用Python和MetaTrader在5分钟内开始构建您的交易策略
ipywidgets_未来价值和Ipywidgets
用folium模块画地理图_使用Folium表示您的地理空间数据
python创建类统计属性_轻松创建统计数据的Python包
knn分类 knn_关于KNN的快速小课程
机器学习集群_机器学习中的多合一集群技术在无监督学习中应该了解
政府公开数据可视化_公开演讲如何帮助您设计更好的数据可视化
消费者行为分析_消费者行为分析-是否点击广告？
魅族mx5游戏模式小熊猫_您不知道的5大熊猫技巧
数据科学中的数据可视化
多重线性回归多元线性回归_了解多元线性回归
如何使用Python处理丢失的数据
为什么印度盛产码农_印度农产品价格的时间序列分析

为什么我们需要使用Pandas新字符串Dtype代替文本数据对象相关推荐

Matlab中分析字符串数组的文本数据
目录分析字符串数组的文本数据将文本文件导入字符串数组清理字符串数组根据频率对单词进行排序绘制单词频率图用表收集基本统计信息分析字符串数组的文本数据下面示例演示如何以字符串数组形式存储文 ...
Matlab：分析字符串数组的文本数据
Matlab:分析字符串数组的文本数据将文本文件导入字符串数组清理字符串数组根据频率对单词进行排序绘制单词频率图用表收集基本统计信息以下示例演示如何以字符串数组形式存储文件中的文本.按单词 ...
字符串搜索结果是数组 matlab,分析字符串数组的文本数据
将文本文件导入字符串数组使用 fileread 函数读取莎士比亚的十四行诗中的文本.fileread 会以 1×100266 字符向量的形式返回文本. sonnets = fileread('son ...
字符串处理 - DataFrame文本数据的量化 - Python代码
在数据建模的过程中,对于文本数据,比如婚姻情况.性别.居住地等.这给只接受数值型的模型造成了很大的干扰,因此在数据采集到数据建模的过程中,我们需要一个过程,叫量化. 比如这样一个源数据: 收入身高 ...
【Python基础】Pandas向量化字符串操作
一.向量化操作概述 Python内置一系列强大的字符串处理方法,但这些方法只能处理单个字符串,处理一个序列的字符串时,需要用到循环. 那么,有没有办法,不用循环就能同时处理多个字符串呢,pandas的 ...
pandas 空字符串与na区别_python从安装到数据分析应用高手 Pandas处理文本数据（一）...
数据分析师的一天作为一名数据分析师,目前而言是以业务为中心,取数,清洗整理数据,取数与清洗数据会消耗大量的工作时间,毕竟代码需要跟着业务节奏变化. 其中文本数据相比数值数据更具复杂性,本文就pand ...
Part 9:Pandas 的字符串处理操作
Pandas字符串处理前面我们已经使用了字符串的处理函数: df["bWendu"].str.replace("℃","").as ...
pandas使用date_range函数生成日期序列数据、pandas将两个日期序列数据作差生成新的日期差数据列（8 days）、并提取天数数值(8)
pandas使用date_range函数生成日期序列数据.pandas将两个日期序列数据作差生成新的日期差数据列(8 days).并提取天数数值(8) 目录
pandas生成新的累积连乘数据列（cumprod）、pandas生成新的累积连乘cumprod数据列（数据列中包含NaN的情况）、pandas计算整个dataframe的所有数据列的累积连乘
pandas生成新的累积连乘数据列(cumprod).pandas生成新的累积连乘cumprod数据列(数据列中包含NaN的情况).pandas计算整个dataframe的所有数据列的累积连乘cump ...

为什么我们需要使用Pandas新字符串Dtype代替文本数据对象

相关文章：

为什么我们需要使用Pandas新字符串Dtype代替文本数据对象相关推荐

最新文章

热门文章