数据异常值的过滤

在数据分析中,经常需要检测数据结构中的异常值。我们还是举个例子,先来创建一个包含三列的DataFrame对象,每一列都包含1000个随机数。

可以用describe( )函数查看每一列的描述性统计量。

例如,你可以会将比标准差大3倍的元素视作异常值。用std( )函数就可以求得DataFrame对象每一列的标准差。

j接下来,根据每一列的标准差,对DataFrame对象的所有元素进行过滤。借助any( )函数,就可以对每一列应用筛选条件。

数据排序

用numpy.random.permutation( )函数,调整Series对象或DataFrame对象各行的顺序(随机排序)很简单。

举个例子,创建一个元素为整数且按照升序排列的DataFrame对象。

用permutation( )函数创建一个包含0~4(顺序随机)这五个整数的数组。我们将按照这个数组元素的顺序为DataFrame对象的行排序。

对DataFrame对象的所有行应用take( )函数,把新的次序传给它。

如上所见,DataFrame对象各行的位置已发生改变。新索引的顺序跟new_order数组的元素顺序保持一致。

你甚至还可以只对DataFrame对象的一部分进行排序操作。它将生成一个数组,只包含特定索引范围的数据。例如我们这里的2~4。

随机取样

上面刚讲了如何通过指定排列次序,从DataFrame对象中抽取一部分数据。若DataFrame规模很大,有时可能需要从中随机取样,最快的方法莫过于使用np.random.randint( )函数。

从随机取样这个例子可知,你可以多次获取相同的样本。

字符串处理

Python语言由于处理字符串和文本很方便,因而很受欢迎。大多数字符串操作用Python的内置函数就能轻松实现。字符串匹配及其他更为复杂的字符串处理,就有必要用正则表达式了。

内置的字符串处理方法

你常常需要将复合字符串划分为几个部分,分别赋给不同的变量。split( )函数以参考点为分隔符,比如逗号,将文本分为几部分。

如上所见,切分后得到的第一个元素以空白字符结尾。这个问题很常见。为了解决这个问题,使用split( )函数切分后,还要再用strip( )函数删除空白的字符,包括换行符。

这样我们就得到了一个字符串数组。如果元素数量较少且固定不变,可使用下面这种非常有意思的赋值方式:

上面讲的是文本的切分方法,但我们通常还需要其逆操作,也就是把多个字符串拼接在一起形成一段长文本。

最直观和简单的方法就是使用运算符‘+’把这几个文本片段拼接在一起。

如果只有寥寥几个字符串,那么这种拼接方式就显得很简单。但是如果要拼接很多字符串,更为实用的方式就是使用join( )函数。

python对字符串数组进行排序、依据字符数_Python进行数据的排序以及字符串的操作...相关推荐

  1. 将字符串下标为奇数的字符按ASCII码大小递增排序,并将排序后下标为奇数的字符取出

    <程序设计基础实训指导教程-c语言> ISBN 978-7-03-032846-5 p92 5.1.2 上级实训内容 [实训内容7]设有一个字符串为baawrskjghzlicda,将字符 ...

  2. 有一字符串,包含n个字符。写一函数,将此字符串中从第m个字符开始的全部字符复制成 为另一个字符串

    /*有一字符串,包含n个字符.写一函数,将此字符串中从第m个字符开始的全部字符复制成 为另一个字符串*/#include <stdio.h> #include <string.h&g ...

  3. ACMNO.40 C语言-子串 有一字符串,包含n个字符。写一函数,将此字符串中从第m个字符开始的全部字符复制成为另一个字符串

    题目描述 有一字符串,包含n个字符. 写一函数,将此字符串中从第m个字符开始的全部字符复制成为另一个字符串. 输入 数字n 一行字符串 数字m 输出 从m开始的子串 样例输入 6 abcdef 3 样 ...

  4. c 字符串数组_C语言探索之旅 | 第二部分第四课:字符串

    内容简介 前言 字符类型 显示字符 字符串其实就是字符的数组 字符串的创建和初始化 从 scanf 函数取得一个字符串 操纵字符串的一些常用函数 总结 第二部分第五课预告 1. 前言 上一课 C语言探 ...

  5. [转载] python字符串转化为16进制数_python实用知识,数值类型和进制整数的转换

    参考链接: 在Python中将整数int转换为字符串string 喜欢编程,热爱分享,希望能结交更多志同道合的朋友,一起在学习Python的道路上走得更远! 1.数值类型的转换 int()可以将字符串 ...

  6. 0717 抽象类/接口/异常/==-equals()/搜索字符串/包装类型(统计字符数)/hashCode()/StringBuffer/pingSQL/2018年美式日历

    抽象类与接口   什么是抽象类?   有一些类没有必要实例化,实例化没有意义,它可以封装通用   的业务代码   Animal -- 没有必要实例化   Dog   Cat   Fish ... 抽象 ...

  7. C语言 统计含有中文的字符串中的字数、 字符数和行数

    输人一段含西文字符和中文字符的正文 ,统计字数. 字符数和行数.字是指一个中文字符或一个西文字符串(由空白符分隔);字符是指一个西文字符或一个中文字 符;空白符是指空格或回车或水平制表Tab #inc ...

  8. matlab 日期排序_在Matlab中对数据进行排序(Sorting Data in Matlab)

    在Matlab中对数据进行排序(Sorting Data in Matlab) 我试图在Matlab中对以下数据进行排序,但没有得到我需要的预期输出. 这是数据: '1B-3A-5A' '1A-3A- ...

  9. Java给定一个字符串数组,判断每个字符出现次数

    题目要求:给定一个字符串,判断每个字符出现多少次? 解决思路:利用Map的特性:即Map集合中如果两个key(键)值是一样相同的,那么,后放(put)入的值会将前面存在的value(值)替换掉,也就是 ...

最新文章

  1. Linux 的多线程编程的高效开发经验
  2. 【Linux】【服务器】 CentOS7下安装MySQL详细过程步骤
  3. C语言学习笔记--函数与指针
  4. centos 环境变量配置
  5. linux redis 5.6扩展,Windows下为PHP5.6安装Redis扩展和memcached扩展
  6. c++用什么软件编程_学习编程用什么做笔记比较好?
  7. bzoj2756 [SCOI2012]奇怪的游戏 结论+网络流
  8. javaweb实训第一天上午——HTML和CSS
  9. 【E-DEEC】基于matlab增强的分布式能源有效集群(E-DEEC)【含Matlab源码 1566期】
  10. Java——异常和断言
  11. Semaphore源码解读
  12. ADS板级PCIE_SI仿真
  13. 科技文献检索课题 计算机,科技文献检索完整作业
  14. 企业使用防伪税控开票子系统出现问题常见问题
  15. 家里蹲大学数学杂志官方网站
  16. 从逻辑学中的偷换概念谈起
  17. 元宇宙:不透明面纱下的“康德主义”
  18. python实现千牛客服自动回复语_千牛会用到的回复语有哪些?千牛自动回复短语大全...
  19. 用案例说话,教你如何写出有吸引力的开发信以及主题
  20. 实时统计分析系统-Apache Druid

热门文章

  1. C#Convert.ToInt32(char)方法-将char值转换为int
  2. python 幂运算 整数_在Python中检查一个数字是否是另一个数字的幂
  3. python手把手教程_【Python 1-7】Python手把手教程之——详解列表List
  4. linux纯内核直接用吗,Linux:为啥内核有的变量没有初始化就敢直接使用?
  5. stl list 删除元素_删除所有出现的元素,并从列表中删除一些特定的元素。 C ++ STL...
  6. java对数组进行排序_用Java对数组进行排序所需的最少交换
  7. 春节抽空读了8本书,只有这本书我1字不落的读完了!(上)
  8. JavaScript返回上一页代码区别
  9. Android 禁止屏幕旋转 旋转屏幕时保持Activity内容
  10. zoj 1074 To the MAX