python删除重复单词_Python - 过滤重复的单词
很多时候,我们需要仅针对文件中存在的唯一单词分析文本。因此,我们需要从文本中删除重复的单词。这是通过使用nltk中可用的单词标记化和设置功能来实现的。
没有保留订单
在下面的例子中,我们首先将句子标记为单词。然后我们应用set()函数创建一个无序的唯一元素集合。结果具有不排序的唯一单词。
import nltk
word_data = "The Sky is blue also the ocean is blue also Rainbow has a blue colour."
# First Word tokenization
nltk_tokens = nltk.word_tokenize(word_data)
# Applying Set
no_order = list(set(nltk_tokens))
print no_order
当我们运行上面的程序时,我们得到以下输出 -
['blue', 'Rainbow', 'is', 'Sky', 'colour', 'ocean', 'also', 'a', '.', 'The', 'has', 'the']
保留订单
要在删除重复项之后获取单词但仍然保留句子中单词的顺序,我们会读取单词并通过附加单词将其添加到列表中。
import nltk
word_data = "The Sky is blue also the ocean is blue also Rainbow has a blue colour."
# First Word tokenization
nltk_tokens = nltk.word_tokenize(word_data)
ordered_tokens = set()
result = []
for word in nltk_tokens:
if word not in ordered_tokens:
ordered_tokens.add(word)
result.append(word)
print result
当我们运行上面的程序时,我们得到以下输出 -
['The', 'Sky', 'is', 'blue', 'also', 'the', 'ocean', 'Rainbow', 'has', 'a', 'colour', '.']
python删除重复单词_Python - 过滤重复的单词相关推荐
- python随机抽取人名_python实现艾宾浩斯背单词功能,实现自动提取单词、邮件发送,再也不用担心背单词啦...
已经完成了利用python爬虫实现定时QQ邮箱推送英文文章,辅助学习英语的项目,索性就一口气利用python多做一些自动化辅助英语学习的项目,对自己的编程能力和英文水评也有一定的帮助,于是在两天的努 ...
- python删除特定文件_python删除特定文件的方法
python删除特定文件的方法 本文实例讲述了python删除特定文件的方法.分享给大家供大家参考.具体如下: #!/usr/bin/python # -*- coding: utf-8 -*- im ...
- python删除过期文件_Python删除指定目录下的过期文件的代码
在代码过程中,将代码过程中比较常用的一些代码段做个备份,如下的代码是关于Python删除指定目录下的过期文件的代码,应该能对小伙伴也有帮助. import os import sys import t ...
- python删除过期文件_python删除过期文件的方法
本文实例讲述了python删除过期文件的方法.分享给大家供大家参考.具体实现方法如下: # remove all jpeg image files of an expired modification ...
- python 删除文件 通配符_python 实现删除文件或文件夹实例详解
python 实现删除文件或文件夹 最近自己学习Python 的知识,自己学习抓取网页的内容知识等,在学习的时候Python 删除文件夹或者文件知识的时候,觉得本篇内容不错,推荐给大家. 实例代码,仔 ...
- python删除特定文件_python删除特定文件的方法 -电脑资料
作者:技术芝麻点 字体:[增加 减小] 类型:转载 这篇文章主要介绍了python删除特定文件的方法,涉及Python文件查找及删除的相关技巧,需要的朋友可以参考下 本文实例讲述了python删除特定 ...
- python判断是否有重复单词_Python判断两个单词的相似度
本文要点在于算法的设计:如果两个单词中不相同的字母足够少,并且随机选择几个字母在两个单词中具有相同的前后顺序,则认为两个单词是等价的. 目前存在的问题:可能会有误判. from random impo ...
- python删除排序数组中的重复项
给你一个有序数组 nums ,请你 原地 删除重复出现的元素,使每个元素 只出现一次 ,返回删除后数组的新长度.不要使用额外的数组空间,你必须在 原地 修改输入数组 并在使用 O(1) 额外空间的条件 ...
- python去重复记录_python如何处理重复值数据?
一起学习,一起成长! 前言 在实际数据采集.数据处理和数据分析中,经常会遇到的一个问题就是:重复数据.重复数据在进行数据分析或数据挖掘的过程中,对其输出结果有重要的影响.比如,在逻辑回归分析中,重复数 ...
- python列表添加重复值_python 列表 重复添加数据库
<Python 3程序开发指南(第2版•修订版)>--1.4 总结 本节书摘来自异步社区<Python 3程序开发指南(第2版•修订版)>一书中的第1章,第1.4节,作者[英] ...
最新文章
- Fault,Error与Failure的联系与区别
- margin折叠问题
- es根据磁盘使用情况来决定是否分配shard
- DIV层跟随鼠标位置显示提示
- AtCoder Regular Contest 067 F - Yakiniku Restaurants
- 手机照片导入电脑步骤_怎样把手机里的照片传到电脑里
- python升级matplotlib包_Python-matplotlib包
- (原创)JS点击事件——Uncaught TypeError: Cannot set property 'onclick' of null
- 3种时间格式化的方法,SpringBoot篇!
- 给定一个年份,判断是不是闰年
- 自制反汇编逆向分析工具 迭代第六版本 (一)
- 《游戏之旅-我的编程感悟》读书笔记
- POJ 1002 UVA 755 487--3279 电话排序 简单但不容易的水题
- 记录 Kindle Fire HDX 7 安装 Google Play 服务过程
- omf多路径 oracle_OMF下Restore Oracle Datafile的优先级问题
- c语言sqlite3写数据类型,在sqlite数据库中,int类型不等于integer数据类型
- 【算法与数据结构】—— 博弈论(高阶篇之SG博弈)
- Relational Reinforcement Learning: An Overview
- FastReport——打印和打印设置
- 炼石荣登“中国信创500强”榜单
热门文章
- 动词ing形式的5种用法_动词ing形式的5种用法
- Intel 网卡使用
- java locale string_java.lang.String.toUpperCase(Locale locale)方法实例
- 中国富豪第一桶金挖掘的九大方式
- 奇迹网页版php,PHP版网站对接奇迹Mu——实现自动注册等功能
- android 检测输入法,Android判断软键盘 输入法 是否显示
- Android模拟PC键盘输入法,黑科技:用电脑键盘代替手机输入法
- 数据库中“一对一”、“一对多”、“多对多”的判断方法
- 微信 css3动画失效,css3 动画效果在微信中无效
- ios app 上传时 ERROR ITMS-90096