python去重txt文本_Python文本去重
用法:命令行python unique.py -f file.txt
输出:去除重复字符后的output.txt# -*- coding:utf-8 -*-
#auther_cclarence_2016_4_6
#open file and read out the characters
from optparse import OptionParser
import sys
reload(sys)
sys.setdefaultencoding("utf-8")
def readfile(filename):
try:
f = open(filename)
except Exception, e:
print "No such file"
exit(0)
text = f.readlines()
f.close()
for i in range(0,len(text)-1):
text[i] = text[i][:-1]
return text
#deduplication
def unique(arr):
arr1 = list(set(arr))
arr1.sort(key = arr.index)
return arr1
def main():
parser = OptionParser()
parser.add_option("-f", "--file", dest="filename",help="write report to FILE", metavar="FILE")
(options, args) = parser.parse_args()
filename = options.filename
text = readfile(filename)
text_dealed = unique(text)
for i in range(0,len(text_dealed)-1):
text_dealed[i] = text_dealed[i] +'\n'
f = open("output.txt","w")
f.writelines(text_dealed)
f.close()
deduplication_num = len(text) - len(text_dealed)
print "success"
print "The num of data from the source file :" + str(len(text))
print "The num of data from the preprocessed file: :" + str(len(text_dealed))
print "The num of data removed :" + str(deduplication_num)
if __name__ == '__main__':
main()
python去重txt文本_Python文本去重相关推荐
- python去重txt文本_Python 文件去重(转载)
原博文 2020-02-14 13:20 − Python实现的txt文件去重功能示例 更新时间:2018年07月07日 09:00:36 作者:人饭子 我要评论 这篇文章主要介绍了Python实现的 ...
- python写txt数据_python 如何将数据写入本地txt文本文件的实现方法
一.读写txt文件 1.打开txt文件file_handle=open('1.txt',mode='w') 上述函数参数有(1.文件名,mode模式) mode模式有以下几种:#w 只能操作写入 r ...
- python 写txt 换行_python中写入txt文件需要换行,以及\r 和\n
在Python中,用open()函数打开一个txt文件,写入一行数据之后需要一个换行 如果直接用 f.write('\n') 只会在后面打印一个字符串'\n',而不是换行' 需要用 f.write(' ...
- python朗读文本_python文本操作—读、写
文本文件存储的数据有很多,我们需要把这些文本里的内容读出来,然后在浏览器上面显示. 1.读取整个文本文件 格式: with open(路径) as 变量: 变量.read() 关键字with作用:在不 ...
- python中文相似度_python文本相似度计算
步骤分词.去停用词 词袋模型向量化文本 TF-IDF模型向量化文本 LSI模型向量化文本 计算相似度 理论知识 两篇中文文本,如何计算相似度?相似度是数学上的概念,自然语言肯定无法完成,所有要把文本转 ...
- python新闻评论分析_Python文本数据分析与处理(新闻摘要)
分词使用jieba分词, 注意lcut只接受字符串 过滤停用词 TF-IDF得到摘要信息或者使用LDA主题模型TF-IDF有两种jieba.analyse.extract_tags(content, ...
- python数据分类聚类案例_python 文本聚类分析案例——从若干文本中聚类出一些主题词团...
说明 实验要求:对若干条文本进行聚类分析,最终得到几个主题词团. 实验思路:将数据进行预处理之后,先进行结巴分词.去除停用词,然后把文档生成tfidf矩阵,再通过K-means聚类,最后得到几个类的主 ...
- python词频统计西游记_Python文本统计功能之西游记用字统计操作示例
本文实例讲述了Python文本统计功能之西游记用字统计操作.分享给大家供大家参考,具体如下: 一.数据 xyj.txt,<西游记>的文本,2.2MB 致敬吴承恩大师,4020行(段) 二. ...
- python 多分类情感_python 文本情感分类
对于一个简单的文本情感分类来说,其实就是一个二分类,这篇博客主要讲述的是使用scikit-learn来做文本情感分类.分类主要分为两步:1)训练,主要根据训练集来学习分类模型的规则.2)分类,先用已知 ...
- python格式化读取文件_python文本读写与格式化
作为一个IC攻城狮,除了Verilog,还需要使用python等脚本语言做一些简单的文本处理,提高工作效率,这里记录一下自己常用的文本读写,方便查询. 只做简单说明,因为我只用python做一些简单的 ...
最新文章
- ndk 不用java_使用NDK创建及配置C++程序(原生纯C++项目,不包含JAVA代码)
- valgrind-yyds——memcheck检查程序中的内存问题,如泄漏、越界、非法指针等。
- COCO 2018 Keypoint冠军算法解读
- python如何调用文件进行换位加密_Python换位密码
- MySQL的GTID复制与传统复制的相互切换
- 模板代码复用的三种方式: 宏, 继承, 包含
- 从键盘输入一个字符,判断其是不是大写字母,如果是则请输出这个大写字母,如果不是请输出“这不是一个大写字母”的英文信息(要求:能连续输出直到输出“#”结束)。
- Java ClassLoader getSystemClassLoader()方法与示例
- 复制和删除文件夹所有内容
- 新版本steam退回旧版本教程
- Python表白代码:“ 星光月夜烟花皆归你,我也归你”(满天烟花盛开、附番外玫瑰)
- J-Link RTT Viewer 的各种不爽以及解决方案
- 百度移动搜索落地页体验广告白皮书3.0上线
- VTN系列多通道采集仪硬件接口
- T检验是做什么的? --ttest--ttest2--matlab
- 《红楼梦》的作者真的是曹雪芹吗?
- 谷歌地图时代结束,怎么看高清卫星影像地图?
- 什么样男人必出轨 震惊!出轨男子名字中居然都有这字
- 计算机一直安装更新失败,win10系统一直安装更新失败的三种解决方法
- arduino点阵声音频谱_Arduino实现32分频音频频谱显示器
热门文章
- TestStand-创建VI
- JSP的表单回显实现
- 百度 bos php,GitHub - SwimmingTiger/BOSFS: PHP流包装器:百度开放云对象存储文件系统(BCE BOS File System)...
- Spotfire 对 列 数据进行自定义排序
- 数据分析与数据处理实例(某银行数据)
- 西门子200plc与英威腾GD变频器modbus通讯
- 快乐又刺激的点名小程序:滚动点名+BGM
- iwconfig命令
- matlab 符号运算 简化,Matlab 符号运算的因式分解、展开与合并、简化
- 我是如何在开源系统中(Vue)中引入阿里巴巴Icon图标的?