Python:在没有默认分隔符(包含数百万条记录)的情况下读取文件并将其放入“数据框架(panda)”中,最有效的方法是什么? 文件是:"file_sd.txt"

A123456MESTUDIANTE 000-12

A123457MPROFESOR 003103

I128734MPROGRAMADOR00-111

A129863FARQUITECTO 00-456

# Fields and position:

# - Activity Indicator : indAct -> 01 Character

# - Person Code : codPer -> 06 Characters

# - Gender (M / F) : sex -> 01 Character

# - Occupation : occupation -> 11 Characters

# - Amount(User format): amount -> 06 Characters (Convert to Number)

我不确定。这是最好的选择吗?

import pandas as pd

import numpy as np

def stoI(cad):

pos = cad.find("-")

if pos < 0: return int(cad)

return int(cad[pos+1:])*-1

#Read Txt

data = pd.read_csv(r'D:\file_sd.txt',header = None)

data_sep = pd.DataFrame(

{

'indAct' :data[0].str.slice(0,1),

'codPer' :data[0].str.slice(1,7),

'sexo' :data[0].str.slice(7,8),

'ocupac' :data[0].str.slice(8,19),

'monto' :np.vectorize(stoI)(data[0].str.slice(19,25))

})

print(data_sep)

indAct codPer sexo ocupac monto

0 A 123456 M ESTUDIANTE -12

1 A 123457 M PROFESOR 3103

2 I 128734 M PROGRAMADOR -111

3 A 129863 F ARQUITECTO -456

这个7百万行的解决方案。结果是:

%timeit df_slice()

11.1 s ± 166 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

问题来源StackOverflow 地址:/questions/59383835/python-efficiency-when-reading-a-file-without-a-default-delimiter-with-millions

python路径分隔符_Python:当读取一个没有默认分隔符的文件(包含数百万条记录)并将其放入dataframe (pa-问答-阿里云开发者社区-阿里云...相关推荐

  1. python列表做参数传值_python不定参数传值怎么做-问答-阿里云开发者社区-阿里云...

    使用arg_name定义的位置参数,表示任意多个位置参数:Python标准库中习惯使用args来命名不定长位置参数,当然我们可以自定义 这个名称:不定长位置参数的类型为元组: Python 允许在形参 ...

  2. python分行打印list_python怎么打印list-问答-阿里云开发者社区-阿里云

    序列是Python中最基本的数据结构.序列中的每个元素都分配一个数字 - 它的位置,或索引,第一个索引是0,第二个索引是1,依此类推. Python有6个序列的内置类型,但最常见的是列表和元组. 序列 ...

  3. python场景建立_Python创建一个街道地址表-问答-阿里云开发者社区-阿里云

    首先,你应该转换givenNumber成int()因为input()总是返回字符串.此外,您可以将整体strAddress转换为自身并反转自身版本,以便更轻松地访问它.splitAddress这里不需 ...

  4. python安装gz文件_python tar.gz怎么安装-问答-阿里云开发者社区-阿里云

    Windows环境: 安装whl包:pip install wheel -> pip install **.whl 下载whl文件 MySQL_python-1.2.5-cp27-none-wi ...

  5. python怎么打开h5文件_python怎么查看h5文件-问答-阿里云开发者社区-阿里云

    h5接受的数据是矩阵跟mat方法一致,但是具有更强的压缩性能 使用hdf5依赖于Python的工具包:h5py import h5py #导入工具包 import numpy as np HDF5的写 ...

  6. python%怎么算_python怎么算log-问答-阿里云开发者社区-阿里云

    ! /usr/bin/env python -- coding: utf-8 -- """ logging配置 """ import os ...

  7. python中str用法_python中的str()不能直接用吗 -问答-阿里云开发者社区-阿里云

    str函数是Python的内置函数,它将参数转换成字符串类型,即人适合阅读的形式. 其语法格式为 1 str(object) 返回值: 返回object的字符串形式 使用示例 无参调用 当str()函 ...

  8. 如何阅读python文档_python 文档怎么看-问答-阿里云开发者社区-阿里云

    调用help函数,可以看到一个函数或者方法的字符串文档. In [1]: import requests In [2]: help(requests.get) Help on function get ...

  9. python中右对齐_python中如何右对齐-问答-阿里云开发者社区-阿里云

    例如,有一个字典如下: dic = { "name": "botoo", "url": "http://www.123.com&q ...

最新文章

  1. Switcher ---Vista Areo 工具
  2. 线性序列机与串行接口ADC驱动设计与验证
  3. 在线自动下载最新版本jquery
  4. xpath以某个字符开始_XPATH简单使用
  5. C++中的面向对象(二)
  6. VS2005迁移项目工程所带来问题
  7. 《操作系统》学习辅导
  8. tablepc是什么平板电脑_iPad不是平板!想买Tablet PC的看过来
  9. 微信小程序开发全流程记录(从前台到后台,到发布)
  10. [ERROR] InnoDB: Write to file (merge)failed at offset 4249878528, 1048576 bytes should have been wri
  11. Linux的sh脚本编写基础知识
  12. Python爬取摩拜单车位置信息
  13. html默认样式重置,我们真的需要CSS重置来清除默认样式吗?
  14. 朋友圈一杠中间一个点_朋友圈看到这条线,大概率是被删了
  15. 新家未来验房电子报告版本第三代更新,验房师专业电子报告
  16. DROID-SLAM: Deep Visual SLAM for Monocular, Stereo, and RGB-D Cameras论文阅读笔记
  17. 删除list列表中的某一个元素的多种方法
  18. TCP/IP协议(二、初识tcp)
  19. Linux ping www.baidu.com 不通解决办法
  20. Java依赖注入(DI)实例详解

热门文章

  1. springBoot静态资源优先级)
  2. 烟台大学计算机学院老师,王鹏-烟台大学计算机与控制工程学院
  3. Spring Cloud——基于Dubbo的分布式Session解决方案
  4. 【笔记】docker核心概念和使用 docker命令
  5. 在服务器上打包部署springboot+vue的项目(一)启动tomcat后打开浏览器点击登录无反应 页面空白问题
  6. spring自定义作用域 依赖注入之手动注入
  7. 面试再也不怕问到HashMap(一)
  8. Mysql 主从数据库同步详解
  9. JavaWeb黑马旅游网-学习笔记03【登陆和退出功能】
  10. SpringBoot 2.x 整合Lombok