We have to represent every bit of data in numerical values to be processed and analyzed by machine learning and deep learning models. However, strings do not usually come in a nice and clean format and require a lot preprocessing.

我们必须以数值表示数据的每一位,以便通过机器学习和深度学习模型进行处理和分析。 但是,字符串通常不会采用简洁的格式,并且需要大量预处理。

Pandas provides numerous functions and methods to process textual data. In this post, we will focus on data types for strings rather than string operations. Using appropriate data types is the first step to make most out of Pandas. There are currently two data types for textual data, object and StringDtype.

熊猫提供了多种功能和方法来处理文本数据。 在本文中,我们将重点介绍字符串的数据类型,而不是字符串操作。 使用适当的数据类型是充分利用Pandas的第一步。 当前,文本数据有两种数据类型: objectStringDtype。

Before pandas 1.0, only “object” datatype was used to store strings which cause some drawbacks because non-string data can also be stored using “object” datatype. Pandas 1.0 introduces a new datatype specific to string data which is StringDtype. As of now, we can still use object or StringDtype to store strings but in the future, we may be required to only use StringDtype.

在pandas 1.0之前,仅使用“对象”数据类型来存储字符串,这会导致一些缺点,因为非字符串数据也可以使用“对象”数据类型来存储。 Pandas 1.0引入了特定于字符串数据的新数据类型StringDtype 。 到目前为止,我们仍然可以使用object或StringDtype来存储字符串,但是将来,可能会要求我们仅使用StringDtype。

One important thing to note here is that object datatype is still the default datatype for strings. To use StringDtype, we need to explicitly state it.

这里要注意的一件事是对象数据类型仍然是字符串的默认数据类型。 要使用StringDtype,我们需要明确声明它。

We can pass “string” or pd.StringDtype() argument to dtype parameter to select string datatype.

我们可以将“ string ”或pd.StringDtype()参数传递给dtype参数以选择字符串数据类型。

We can also convert from “object” to “string” data type using astype function:

我们还可以使用astype函数将“ object”数据类型转换为“ string”数据类型:

Although the default type is “object”, it is recommended to use “string” for a few reasons.

尽管默认类型为“对象”,但出于一些原因,建议使用“字符串”。

  • Object data type has a broader scope and allows to store pretty much anything. Thus, even if we have non-strings in a place that is supposed to be a string, we don’t get any error.对象数据类型的范围更广,可以存储几乎所有内容。 因此,即使我们在应该是字符串的地方放置了非字符串,也不会出现任何错误。
  • It is always better to have a dedicated data type. For instance, if we try to the example above with “string” data type, we get a TypeError.最好使用专用的数据类型。 例如,如果我们尝试上面的示例使用“字符串”数据类型,则会得到TypeError。
  • Having a dedicated data type allows for data type specific operations. For instance, we cannot use select_dtypes to choose only text columns if “object” data type is used. Select_dtypes(include=”object”) will return any column with object data type. On the other hand, if we use “string” data type for textual data, select_dtypes(include=”string”) will give just what we need.

    具有专用数据类型允许进行特定于数据类型的操作。 例如,如果使用“对象”数据类型,则不能使用select_dtypes仅选择文本列。 Select_dtypes(include =“ object”)将返回任何具有对象数据类型的列。 另一方面,如果我们对文本数据使用“字符串”数据类型,则select_dtypes(include =“ string”)会满足我们的需求。

“String” data type is not superior to “object” in terms of performance as of now. However, it is expected, with future enhancements, the performance of “string” data type will be increased and the memory consumption will be decreased. Thus, we should already be using “string” instead of “object” for textual data.

到目前为止,就性能而言,“字符串”数据类型并不优于“对象”。 但是,可以预料,随着将来的增强,“字符串”数据类型的性能将得到提高,内存消耗将减少。 因此,我们应该已经在文本数据中使用“字符串”而不是“对象”。

Thank you for reading. Please let me know if you have any feedback.

感谢您的阅读。 如果您有任何反馈意见,请告诉我。

翻译自: https://towardsdatascience.com/why-we-need-to-use-pandas-new-string-dtype-instead-of-object-for-textual-data-6fd419842e24


http://www.taodudu.cc/news/show-997579.html

相关文章:

  • nlp构建_使用NLP构建自杀性推文分类器
  • 时间序列分析 lstm_LSTM —时间序列分析
  • 泰晤士报下载_《泰晤士报》和《星期日泰晤士报》新闻编辑室中具有指标的冒险活动-第1部分:问题
  • 异常检测机器学习_使用机器学习检测异常
  • 特征工程tf-idf_特征工程-保留和删除的内容
  • 自我价值感缺失的表现_不同类型的缺失价值观和应对方法
  • 学习sql注入:猜测数据库_面向数据科学家SQL:学习简单方法
  • python自动化数据报告_如何:使用Python将实时数据自动化到您的网站
  • 学习深度学习需要哪些知识_您想了解的有关深度学习的所有知识
  • 置信区间估计 预测区间估计_估计,预测和预测
  • 地图 c-suite_C-Suite的模型
  • sap中泰国有预扣税设置吗_泰国餐厅密度细分:带有K-means聚类的python
  • 傅里叶变换 直观_A / B测试的直观模拟
  • 鸽子 迷信_人工智能如何帮助我战胜鸽子
  • scikit keras_Scikit学习,TensorFlow,PyTorch,Keras…但是天秤座呢?
  • 数据结构两个月学完_这是我作为数据科学家两年来所学到的
  • 迈向数据科学的第一步:在Python中支持向量回归
  • 使用Python和MetaTrader在5分钟内开始构建您的交易策略
  • ipywidgets_未来价值和Ipywidgets
  • 用folium模块画地理图_使用Folium表示您的地理空间数据
  • python创建类统计属性_轻松创建统计数据的Python包
  • knn分类 knn_关于KNN的快速小课程
  • 机器学习集群_机器学习中的多合一集群技术在无监督学习中应该了解
  • 政府公开数据可视化_公开演讲如何帮助您设计更好的数据可视化
  • 消费者行为分析_消费者行为分析-是否点击广告?
  • 魅族mx5游戏模式小熊猫_您不知道的5大熊猫技巧
  • 数据科学中的数据可视化
  • 多重线性回归 多元线性回归_了解多元线性回归
  • 如何使用Python处理丢失的数据
  • 为什么印度盛产码农_印度农产品价格的时间序列分析

为什么我们需要使用Pandas新字符串Dtype代替文本数据对象相关推荐

  1. Matlab中分析字符串数组的文本数据

    目录 分析字符串数组的文本数据 将文本文件导入字符串数组 清理字符串数组 根据频率对单词进行排序 绘制单词频率图 用表收集基本统计信息 分析字符串数组的文本数据 下面示例演示如何以字符串数组形式存储文 ...

  2. Matlab:分析字符串数组的文本数据

    Matlab:分析字符串数组的文本数据 将文本文件导入字符串数组 清理字符串数组 根据频率对单词进行排序 绘制单词频率图 用表收集基本统计信息 以下示例演示如何以字符串数组形式存储文件中的文本.按单词 ...

  3. 字符串搜索结果是数组 matlab,分析字符串数组的文本数据

    将文本文件导入字符串数组 使用 fileread 函数读取莎士比亚的十四行诗中的文本.fileread 会以 1×100266 字符向量的形式返回文本. sonnets = fileread('son ...

  4. 字符串处理 - DataFrame文本数据的量化 - Python代码

    在数据建模的过程中,对于文本数据,比如婚姻情况.性别.居住地等.这给只接受数值型的模型造成了很大的干扰,因此在数据采集到数据建模的过程中,我们需要一个过程,叫量化. 比如这样一个源数据: 收入 身高 ...

  5. 【Python基础】Pandas向量化字符串操作

    一.向量化操作概述 Python内置一系列强大的字符串处理方法,但这些方法只能处理单个字符串,处理一个序列的字符串时,需要用到循环. 那么,有没有办法,不用循环就能同时处理多个字符串呢,pandas的 ...

  6. pandas 空字符串与na区别_python从安装到数据分析应用高手 Pandas处理文本数据(一)...

    数据分析师的一天 作为一名数据分析师,目前而言是以业务为中心,取数,清洗整理数据,取数与清洗数据会消耗大量的工作时间,毕竟代码需要跟着业务节奏变化. 其中文本数据相比数值数据更具复杂性,本文就pand ...

  7. Part 9:Pandas 的字符串处理操作

    Pandas字符串处理 前面我们已经使用了字符串的处理函数:     df["bWendu"].str.replace("℃","").as ...

  8. pandas使用date_range函数生成日期序列数据、pandas将两个日期序列数据作差生成新的日期差数据列(8 days)、并提取天数数值(8)

    pandas使用date_range函数生成日期序列数据.pandas将两个日期序列数据作差生成新的日期差数据列(8 days).并提取天数数值(8) 目录

  9. pandas生成新的累积连乘数据列(cumprod)、pandas生成新的累积连乘cumprod数据列(数据列中包含NaN的情况)、pandas计算整个dataframe的所有数据列的累积连乘

    pandas生成新的累积连乘数据列(cumprod).pandas生成新的累积连乘cumprod数据列(数据列中包含NaN的情况).pandas计算整个dataframe的所有数据列的累积连乘cump ...

最新文章

  1. AM-资产冻结与停用
  2. MySQL where后面的标量子查询使用
  3. 一建机电实务教材电子版_必背!一建《机电实务》高频考点,每日一背
  4. mysql分页查询关键_MySQL优化教程之超大分页查询
  5. display none的元素重新展示如何撑开页面_寻根问底之——元素隐藏你知多少?
  6. ​iPhone 12全线跌破发行价;三星扩大众包定位网络;Fedora 33发布|极客头条
  7. java reader类 实例_java字符流-java writer-java reader-嗨客网
  8. escplise使用教程_Eclipse使用教程(图文详解)
  9. 萤石云平台接入_新手上路 老司机教你配置萤石云
  10. 万能格式转换器1.2绿色免费汉化版
  11. 视频教程-微信公众号编辑器开发-微信公众号开发11-微信开发php-微信开发
  12. Leetcode DAY6: 有效的字母异位词 and 两个数组的交集 and 快乐数 and 两数之和
  13. emoji表情在数据库中如何查询
  14. 专升本第十二讲 (影音娱乐)
  15. 【趣文】秦始皇与区块链竟然有关系
  16. C++ Pointer指针
  17. Java并发编程与技术内幕:ConcurrentHashMap源码解析
  18. 谷歌亚马逊或遭英国监管;昔日“大数据第一股”面临退市;特斯拉辅助驾驶系统索赔案胜诉丨每日大事件...
  19. (寒假集训) Piggyback(最短路)
  20. java8 各种时间转换方法

热门文章

  1. spring boot中 使用http请求
  2. 欧拉路HDU3018
  3. (poj)1064 Cable master 二分+精度
  4. phoneGap2.9+eclipse开发环境和helloword案例
  5. MFC程序执行过程剖析
  6. Python高级网络编程系列之基础篇
  7. 微信公众号自动回复加超链接最新可用实现方案
  8. Django 入门项目案例开发(中)
  9. Centos 安装 禅道
  10. VSS2005 上传pdf 空白