python路径分隔符_Python:当读取一个没有默认分隔符的文件(包含数百万条记录)并将其放入dataframe (pa-问答-阿里云开发者社区-阿里云...
Python:在没有默认分隔符(包含数百万条记录)的情况下读取文件并将其放入“数据框架(panda)”中,最有效的方法是什么? 文件是:"file_sd.txt"
A123456MESTUDIANTE 000-12
A123457MPROFESOR 003103
I128734MPROGRAMADOR00-111
A129863FARQUITECTO 00-456
# Fields and position:
# - Activity Indicator : indAct -> 01 Character
# - Person Code : codPer -> 06 Characters
# - Gender (M / F) : sex -> 01 Character
# - Occupation : occupation -> 11 Characters
# - Amount(User format): amount -> 06 Characters (Convert to Number)
我不确定。这是最好的选择吗?
import pandas as pd
import numpy as np
def stoI(cad):
pos = cad.find("-")
if pos < 0: return int(cad)
return int(cad[pos+1:])*-1
#Read Txt
data = pd.read_csv(r'D:\file_sd.txt',header = None)
data_sep = pd.DataFrame(
{
'indAct' :data[0].str.slice(0,1),
'codPer' :data[0].str.slice(1,7),
'sexo' :data[0].str.slice(7,8),
'ocupac' :data[0].str.slice(8,19),
'monto' :np.vectorize(stoI)(data[0].str.slice(19,25))
})
print(data_sep)
indAct codPer sexo ocupac monto
0 A 123456 M ESTUDIANTE -12
1 A 123457 M PROFESOR 3103
2 I 128734 M PROGRAMADOR -111
3 A 129863 F ARQUITECTO -456
这个7百万行的解决方案。结果是:
%timeit df_slice()
11.1 s ± 166 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)
问题来源StackOverflow 地址:/questions/59383835/python-efficiency-when-reading-a-file-without-a-default-delimiter-with-millions
python路径分隔符_Python:当读取一个没有默认分隔符的文件(包含数百万条记录)并将其放入dataframe (pa-问答-阿里云开发者社区-阿里云...相关推荐
- python列表做参数传值_python不定参数传值怎么做-问答-阿里云开发者社区-阿里云...
使用arg_name定义的位置参数,表示任意多个位置参数:Python标准库中习惯使用args来命名不定长位置参数,当然我们可以自定义 这个名称:不定长位置参数的类型为元组: Python 允许在形参 ...
- python分行打印list_python怎么打印list-问答-阿里云开发者社区-阿里云
序列是Python中最基本的数据结构.序列中的每个元素都分配一个数字 - 它的位置,或索引,第一个索引是0,第二个索引是1,依此类推. Python有6个序列的内置类型,但最常见的是列表和元组. 序列 ...
- python场景建立_Python创建一个街道地址表-问答-阿里云开发者社区-阿里云
首先,你应该转换givenNumber成int()因为input()总是返回字符串.此外,您可以将整体strAddress转换为自身并反转自身版本,以便更轻松地访问它.splitAddress这里不需 ...
- python安装gz文件_python tar.gz怎么安装-问答-阿里云开发者社区-阿里云
Windows环境: 安装whl包:pip install wheel -> pip install **.whl 下载whl文件 MySQL_python-1.2.5-cp27-none-wi ...
- python怎么打开h5文件_python怎么查看h5文件-问答-阿里云开发者社区-阿里云
h5接受的数据是矩阵跟mat方法一致,但是具有更强的压缩性能 使用hdf5依赖于Python的工具包:h5py import h5py #导入工具包 import numpy as np HDF5的写 ...
- python%怎么算_python怎么算log-问答-阿里云开发者社区-阿里云
! /usr/bin/env python -- coding: utf-8 -- """ logging配置 """ import os ...
- python中str用法_python中的str()不能直接用吗
-问答-阿里云开发者社区-阿里云
str函数是Python的内置函数,它将参数转换成字符串类型,即人适合阅读的形式. 其语法格式为 1 str(object) 返回值: 返回object的字符串形式 使用示例 无参调用 当str()函 ...
- 如何阅读python文档_python 文档怎么看-问答-阿里云开发者社区-阿里云
调用help函数,可以看到一个函数或者方法的字符串文档. In [1]: import requests In [2]: help(requests.get) Help on function get ...
- python中右对齐_python中如何右对齐-问答-阿里云开发者社区-阿里云
例如,有一个字典如下: dic = { "name": "botoo", "url": "http://www.123.com&q ...
最新文章
- Switcher ---Vista Areo 工具
- 线性序列机与串行接口ADC驱动设计与验证
- 在线自动下载最新版本jquery
- xpath以某个字符开始_XPATH简单使用
- C++中的面向对象(二)
- VS2005迁移项目工程所带来问题
- 《操作系统》学习辅导
- tablepc是什么平板电脑_iPad不是平板!想买Tablet PC的看过来
- 微信小程序开发全流程记录(从前台到后台,到发布)
- [ERROR] InnoDB: Write to file (merge)failed at offset 4249878528, 1048576 bytes should have been wri
- Linux的sh脚本编写基础知识
- Python爬取摩拜单车位置信息
- html默认样式重置,我们真的需要CSS重置来清除默认样式吗?
- 朋友圈一杠中间一个点_朋友圈看到这条线,大概率是被删了
- 新家未来验房电子报告版本第三代更新,验房师专业电子报告
- DROID-SLAM: Deep Visual SLAM for Monocular, Stereo, and RGB-D Cameras论文阅读笔记
- 删除list列表中的某一个元素的多种方法
- TCP/IP协议(二、初识tcp)
- Linux ping www.baidu.com 不通解决办法
- Java依赖注入(DI)实例详解
热门文章
- springBoot静态资源优先级)
- 烟台大学计算机学院老师,王鹏-烟台大学计算机与控制工程学院
- Spring Cloud——基于Dubbo的分布式Session解决方案
- 【笔记】docker核心概念和使用 docker命令
- 在服务器上打包部署springboot+vue的项目(一)启动tomcat后打开浏览器点击登录无反应 页面空白问题
- spring自定义作用域 依赖注入之手动注入
- 面试再也不怕问到HashMap(一)
- Mysql 主从数据库同步详解
- JavaWeb黑马旅游网-学习笔记03【登陆和退出功能】
- SpringBoot 2.x 整合Lombok