很多时候,我们需要仅针对文件中存在的唯一单词分析文本。因此,我们需要从文本中删除重复的单词。这是通过使用nltk中可用的单词标记化和设置功能来实现的。

没有保留订单

在下面的例子中,我们首先将句子标记为单词。然后我们应用set()函数创建一个无序的唯一元素集合。结果具有不排序的唯一单词。

import nltk

word_data = "The Sky is blue also the ocean is blue also Rainbow has a blue colour."

# First Word tokenization

nltk_tokens = nltk.word_tokenize(word_data)

# Applying Set

no_order = list(set(nltk_tokens))

print no_order

当我们运行上面的程序时,我们得到以下输出 -

['blue', 'Rainbow', 'is', 'Sky', 'colour', 'ocean', 'also', 'a', '.', 'The', 'has', 'the']

保留订单

要在删除重复项之后获取单词但仍然保留句子中单词的顺序,我们会读取单词并通过附加单词将其添加到列表中。

import nltk

word_data = "The Sky is blue also the ocean is blue also Rainbow has a blue colour."

# First Word tokenization

nltk_tokens = nltk.word_tokenize(word_data)

ordered_tokens = set()

result = []

for word in nltk_tokens:

if word not in ordered_tokens:

ordered_tokens.add(word)

result.append(word)

print result

当我们运行上面的程序时,我们得到以下输出 -

['The', 'Sky', 'is', 'blue', 'also', 'the', 'ocean', 'Rainbow', 'has', 'a', 'colour', '.']

python删除重复单词_Python - 过滤重复的单词相关推荐

  1. python随机抽取人名_python实现艾宾浩斯背单词功能,实现自动提取单词、邮件发送,再也不用担心背单词啦...

    已经完成了利用python爬虫实现定时QQ邮箱推送英文文章,辅助学习英语的项目,索性就一口气利用python多做一些自动化辅助英语学习的项目,对自己的编程能力和英文水评也有一定的帮助,于是在两天的努 ...

  2. python删除特定文件_python删除特定文件的方法

    python删除特定文件的方法 本文实例讲述了python删除特定文件的方法.分享给大家供大家参考.具体如下: #!/usr/bin/python # -*- coding: utf-8 -*- im ...

  3. python删除过期文件_Python删除指定目录下的过期文件的代码

    在代码过程中,将代码过程中比较常用的一些代码段做个备份,如下的代码是关于Python删除指定目录下的过期文件的代码,应该能对小伙伴也有帮助. import os import sys import t ...

  4. python删除过期文件_python删除过期文件的方法

    本文实例讲述了python删除过期文件的方法.分享给大家供大家参考.具体实现方法如下: # remove all jpeg image files of an expired modification ...

  5. python 删除文件 通配符_python 实现删除文件或文件夹实例详解

    python 实现删除文件或文件夹 最近自己学习Python 的知识,自己学习抓取网页的内容知识等,在学习的时候Python 删除文件夹或者文件知识的时候,觉得本篇内容不错,推荐给大家. 实例代码,仔 ...

  6. python删除特定文件_python删除特定文件的方法 -电脑资料

    作者:技术芝麻点 字体:[增加 减小] 类型:转载 这篇文章主要介绍了python删除特定文件的方法,涉及Python文件查找及删除的相关技巧,需要的朋友可以参考下 本文实例讲述了python删除特定 ...

  7. python判断是否有重复单词_Python判断两个单词的相似度

    本文要点在于算法的设计:如果两个单词中不相同的字母足够少,并且随机选择几个字母在两个单词中具有相同的前后顺序,则认为两个单词是等价的. 目前存在的问题:可能会有误判. from random impo ...

  8. python删除排序数组中的重复项

    给你一个有序数组 nums ,请你 原地 删除重复出现的元素,使每个元素 只出现一次 ,返回删除后数组的新长度.不要使用额外的数组空间,你必须在 原地 修改输入数组 并在使用 O(1) 额外空间的条件 ...

  9. python去重复记录_python如何处理重复值数据?

    一起学习,一起成长! 前言 在实际数据采集.数据处理和数据分析中,经常会遇到的一个问题就是:重复数据.重复数据在进行数据分析或数据挖掘的过程中,对其输出结果有重要的影响.比如,在逻辑回归分析中,重复数 ...

  10. python列表添加重复值_python 列表 重复添加数据库

    <Python 3程序开发指南(第2版•修订版)>--1.4 总结 本节书摘来自异步社区<Python 3程序开发指南(第2版•修订版)>一书中的第1章,第1.4节,作者[英] ...

最新文章

  1. Fault,Error与Failure的联系与区别
  2. margin折叠问题
  3. es根据磁盘使用情况来决定是否分配shard
  4. DIV层跟随鼠标位置显示提示
  5. AtCoder Regular Contest 067 F - Yakiniku Restaurants
  6. 手机照片导入电脑步骤_怎样把手机里的照片传到电脑里
  7. python升级matplotlib包_Python-matplotlib包
  8. (原创)JS点击事件——Uncaught TypeError: Cannot set property 'onclick' of null
  9. 3种时间格式化的方法,SpringBoot篇!
  10. 给定一个年份,判断是不是闰年
  11. 自制反汇编逆向分析工具 迭代第六版本 (一)
  12. 《游戏之旅-我的编程感悟》读书笔记
  13. POJ 1002 UVA 755 487--3279 电话排序 简单但不容易的水题
  14. 记录 Kindle Fire HDX 7 安装 Google Play 服务过程
  15. omf多路径 oracle_OMF下Restore Oracle Datafile的优先级问题
  16. c语言sqlite3写数据类型,在sqlite数据库中,int类型不等于integer数据类型
  17. 【算法与数据结构】—— 博弈论(高阶篇之SG博弈)
  18. Relational Reinforcement Learning: An Overview
  19. FastReport——打印和打印设置
  20. 炼石荣登“中国信创500强”榜单

热门文章

  1. 动词ing形式的5种用法_动词ing形式的5种用法
  2. Intel 网卡使用
  3. java locale string_java.lang.String.toUpperCase(Locale locale)方法实例
  4. 中国富豪第一桶金挖掘的九大方式
  5. 奇迹网页版php,PHP版网站对接奇迹Mu——实现自动注册等功能
  6. android 检测输入法,Android判断软键盘 输入法 是否显示
  7. Android模拟PC键盘输入法,黑科技:用电脑键盘代替手机输入法
  8. 数据库中“一对一”、“一对多”、“多对多”的判断方法
  9. 微信 css3动画失效,css3 动画效果在微信中无效
  10. ios app 上传时 ERROR ITMS-90096