linux按行分割文件,按行切割大文件(linux split 命令简版)
按行切割大文件(linux split 命令简版)
#-*- coding:utf-8 -*-
__author__ = ‘KnowLifeDeath‘
‘‘‘
Linux上Split命令可以方便对大文件进行分割,该PY脚本是在Windows上按指定行数切割文件
Python Version: 2.7
‘‘‘
import time
import sys
print time.strftime(‘%Y-%m-%d %H:%M:%S‘, time.localtime(time.time()))
‘‘‘需要初始化参数‘‘‘
BigFile = "E:\Data\Big.txt"
OneUnitEnd = 1000000 #分割块行数
ZeroFillWidth = 3 #zfill参数是小文件的序号编码长度
seed = 0 #当前块的计数
UnitNo = 0 #当前块序号
fSmallFile = open(‘{0}\Samll{1}.txt‘.format(sys.path[0], ‘0‘.zfill(ZeroFillWidth)),‘w‘)
fBigFile = open(BigFile)
for line in fBigFile:
rawLineData = line.strip(‘\n‘).strip()
if len(rawLineData) != 0:
seed +=1
fSmallFile.write(‘{0}\n‘.format(rawLineData))
if seed == OneUnitEnd:
fSmallFile.close()
seed = 0
UnitNo += 1
fSmallFile = open(‘{0}\\Samll{1}.txt‘.format(sys.path[0], str(UnitNo).zfill(ZeroFillWidth)), ‘w‘)
#最后一个small文件可能是空文件(整分时)
#a/w模式速度区别不大,亿级数据都是1分半到2分之间搞定
#close多次不会有问题
fSmallFile.close()
print time.strftime(‘%Y-%m-%d %H:%M:%S‘, time.localtime(time.time()))
原文:http://www.cnblogs.com/know-life-death/p/6362072.html
linux按行分割文件,按行切割大文件(linux split 命令简版)相关推荐
- Git入门之命令行删除文件及上传大文件至Github(二)
自2013年开始,作者的代码基本是分享到CSDN下载区,最早设置均是免费的,但随着下载量增加,分数自动增长.为了更好地分享开源代码及相关工具,赶上时代潮流,作者后续会将代码分享至Github和CSDN ...
- java io大文件_JavaIO流对大文件进行分割与合并
对于大文件传输不方便时候可以试一下分割之后再操作: package com.lym; import java.io.BufferedInputStream; import java.io.Buffer ...
- Python组织文件 实践:查找大文件、 用Mb、kb显示文件尺寸 、计算程序运行时间...
这个小程序很简单原本没有记录下来的必要,但在编写过程中又让我学到了一些新的知识,并且遇到了一些不能解决的问题,然后,然后就很有必要记录一下. 这个程序的关键是获取文件大小,本来用 os.path.ge ...
- Python组织文件 实践:查找大文件、 用Mb、kb显示文件尺寸 、计算程序运行时间
这个小程序很简单原本没有记录下来的必要,但在编写过程中又让我学到了一些新的知识,并且遇到了一些不能解决的问题,然后,然后就很有必要记录一下. 这个程序的关键是获取文件大小,本来用 os.path.ge ...
- 多文件上传,大文件上传3、5个G,那都不是事
一套大文件上传的教程给大家. https://www.yyjcw.com/html/ke/34.html 重点讲解了多文件上传,大文件上传,分块上传,断点续传,文件秒传,上传失败自动修复再上传等功能, ...
- java rmi 文件传输_JAVA-RMI实现大文件传输
在使用java-rmi的过程中,必然会遇到一个文件上传的问题,由于在rmi中无法传输文件流(比如rmi中的方法参数不能是FileInputStream之类的),那么我们只好选择一种折中的办法,就是先用 ...
- java 读取大文件内容_java读取大文件
java一般读取文件时,将文件文内容全部加在到内存,然后读取,但是这种读取方式很明显不适合读取大文件,在进行大文件处理时,考虑到内存有限,采用分次读取的方式. java分次读取文件内容有三种方式, 1 ...
- 大文件表空间+创建大文件表空间+查询数据库表空间类型信息+查询数据库表空间类型信息...
1用于解决存储文件大小不够的问题 2与普通表空间不同的地方在于大文件表空间只对应唯一一个数据文件或临时文件,普通表空间可最多1022个数据文件或临时文件 3大文件表空间对应文件可达4G个数据块大小,普 ...
- python大文件排序_Python如何实现大文件排序?Python大文件排序的实现方法
Python如何实现大文件排序?Python大文件排序的实现方法 本文实例讲述了Python实现大文件排序的方法.分享给大家供大家参考.具体实现方法如下: import gzip import os ...
- windows如何切割大文件
感谢: https://www.cnblogs.com/aarond/p/log_split_win.html 软件下载地址: https://sourceforge.net/projects/get ...
最新文章
- Dispatch_queue
- linux查找日志技巧
- 胎教也是准爸爸的责任
- SDWAN分支解决方案:sdwan能用于多分支的企业吗?
- select选择后生成html,Javascript - 从select中添加选择列表
- php去掉多字节字符,PHP 面试题 - 如果没有 mb 系列函数,如何切割多字节字符串...
- SIFT讲解(SIFT的特征点选取以及描述是重点)
- CSS 类选择器详解——CSS 多类选择器
- Eureka Server集群同步
- 从零开始学python | 什么是Python JSON?
- redis的key_value截图深入学习
- 安装签名不一致什么意思_探灵之夜嫁安装失败签名不一致怎么办-夜嫁安装失败签名不一致解决方法-松松手游网...
- docker启动出现 hardware assisted virtual
- 关掉外接键盘的背光灯
- 阿尔卑斯山时间规划法精髓(提高工作效率)
- 有关密钥的最全总结都在这了
- ElasticsearchTemplate的详细使用,完成多条件查询、匹配度查询等
- 深度学习环境配置10——Ubuntu下的torch==1.7.1环境配置
- TimescaleDB部署
- swift swiftJson 解析json