用法:命令行python unique.py -f file.txt

输出:去除重复字符后的output.txt# -*- coding:utf-8 -*-

#auther_cclarence_2016_4_6

#open file and read out the characters

from optparse import OptionParser

import sys

reload(sys)

sys.setdefaultencoding("utf-8")

def readfile(filename):

try:

f = open(filename)

except Exception, e:

print "No such file"

exit(0)

text = f.readlines()

f.close()

for i in range(0,len(text)-1):

text[i] = text[i][:-1]

return text

#deduplication

def unique(arr):

arr1 = list(set(arr))

arr1.sort(key = arr.index)

return arr1

def main():

parser = OptionParser()

parser.add_option("-f", "--file", dest="filename",help="write report to FILE", metavar="FILE")

(options, args) = parser.parse_args()

filename = options.filename

text = readfile(filename)

text_dealed = unique(text)

for i in range(0,len(text_dealed)-1):

text_dealed[i] = text_dealed[i] +'\n'

f = open("output.txt","w")

f.writelines(text_dealed)

f.close()

deduplication_num = len(text) - len(text_dealed)

print "success"

print "The num of data from the source file :" + str(len(text))

print "The num of data from the preprocessed file: :" + str(len(text_dealed))

print "The num of data removed :" + str(deduplication_num)

if __name__ == '__main__':

main()

python去重txt文本_Python文本去重相关推荐

  1. python去重txt文本_Python 文件去重(转载)

    原博文 2020-02-14 13:20 − Python实现的txt文件去重功能示例 更新时间:2018年07月07日 09:00:36 作者:人饭子 我要评论 这篇文章主要介绍了Python实现的 ...

  2. python写txt数据_python 如何将数据写入本地txt文本文件的实现方法

    一.读写txt文件 1.打开txt文件file_handle=open('1.txt',mode='w') 上述函数参数有(1.文件名,mode模式) mode模式有以下几种:#w 只能操作写入 r ...

  3. python 写txt 换行_python中写入txt文件需要换行,以及\r 和\n

    在Python中,用open()函数打开一个txt文件,写入一行数据之后需要一个换行 如果直接用 f.write('\n') 只会在后面打印一个字符串'\n',而不是换行' 需要用 f.write(' ...

  4. python朗读文本_python文本操作—读、写

    文本文件存储的数据有很多,我们需要把这些文本里的内容读出来,然后在浏览器上面显示. 1.读取整个文本文件 格式: with open(路径) as 变量: 变量.read() 关键字with作用:在不 ...

  5. python中文相似度_python文本相似度计算

    步骤分词.去停用词 词袋模型向量化文本 TF-IDF模型向量化文本 LSI模型向量化文本 计算相似度 理论知识 两篇中文文本,如何计算相似度?相似度是数学上的概念,自然语言肯定无法完成,所有要把文本转 ...

  6. python新闻评论分析_Python文本数据分析与处理(新闻摘要)

    分词使用jieba分词, 注意lcut只接受字符串 过滤停用词 TF-IDF得到摘要信息或者使用LDA主题模型TF-IDF有两种jieba.analyse.extract_tags(content, ...

  7. python数据分类聚类案例_python 文本聚类分析案例——从若干文本中聚类出一些主题词团...

    说明 实验要求:对若干条文本进行聚类分析,最终得到几个主题词团. 实验思路:将数据进行预处理之后,先进行结巴分词.去除停用词,然后把文档生成tfidf矩阵,再通过K-means聚类,最后得到几个类的主 ...

  8. python词频统计西游记_Python文本统计功能之西游记用字统计操作示例

    本文实例讲述了Python文本统计功能之西游记用字统计操作.分享给大家供大家参考,具体如下: 一.数据 xyj.txt,<西游记>的文本,2.2MB 致敬吴承恩大师,4020行(段) 二. ...

  9. python 多分类情感_python 文本情感分类

    对于一个简单的文本情感分类来说,其实就是一个二分类,这篇博客主要讲述的是使用scikit-learn来做文本情感分类.分类主要分为两步:1)训练,主要根据训练集来学习分类模型的规则.2)分类,先用已知 ...

  10. python格式化读取文件_python文本读写与格式化

    作为一个IC攻城狮,除了Verilog,还需要使用python等脚本语言做一些简单的文本处理,提高工作效率,这里记录一下自己常用的文本读写,方便查询. 只做简单说明,因为我只用python做一些简单的 ...

最新文章

  1. ndk 不用java_使用NDK创建及配置C++程序(原生纯C++项目,不包含JAVA代码)
  2. valgrind-yyds——memcheck检查程序中的内存问题,如泄漏、越界、非法指针等。
  3. COCO 2018 Keypoint冠军算法解读
  4. python如何调用文件进行换位加密_Python换位密码
  5. MySQL的GTID复制与传统复制的相互切换
  6. 模板代码复用的三种方式: 宏, 继承, 包含
  7. 从键盘输入一个字符,判断其是不是大写字母,如果是则请输出这个大写字母,如果不是请输出“这不是一个大写字母”的英文信息(要求:能连续输出直到输出“#”结束)。
  8. Java ClassLoader getSystemClassLoader()方法与示例
  9. 复制和删除文件夹所有内容
  10. 新版本steam退回旧版本教程
  11. Python表白代码:“ 星光月夜烟花皆归你,我也归你”(满天烟花盛开、附番外玫瑰)
  12. J-Link RTT Viewer 的各种不爽以及解决方案
  13. 百度移动搜索落地页体验广告白皮书3.0上线
  14. VTN系列多通道采集仪硬件接口
  15. T检验是做什么的? --ttest--ttest2--matlab
  16. 《红楼梦》的作者真的是曹雪芹吗?
  17. 谷歌地图时代结束,怎么看高清卫星影像地图?
  18. 什么样男人必出轨 震惊!出轨男子名字中居然都有这字
  19. 计算机一直安装更新失败,win10系统一直安装更新失败的三种解决方法
  20. arduino点阵声音频谱_Arduino实现32分频音频频谱显示器

热门文章

  1. TestStand-创建VI
  2. JSP的表单回显实现
  3. 百度 bos php,GitHub - SwimmingTiger/BOSFS: PHP流包装器:百度开放云对象存储文件系统(BCE BOS File System)...
  4. Spotfire 对 列 数据进行自定义排序
  5. 数据分析与数据处理实例(某银行数据)
  6. 西门子200plc与英威腾GD变频器modbus通讯
  7. 快乐又刺激的点名小程序:滚动点名+BGM
  8. iwconfig命令
  9. matlab 符号运算 简化,Matlab 符号运算的因式分解、展开与合并、简化
  10. 我是如何在开源系统中(Vue)中引入阿里巴巴Icon图标的?