我有一个字符串列表,它们是来自不同电子邮件会话的主题。我想看看是否有经常使用的单词或单词组合。在

例如:subjects = [

'Proposal to cooperate - Company Name',

'Company Name Introduction',

'Into Other Firm / Company Name',

'Request for Proposal'

]

该函数必须检测到“公司名称”作为组合被多次使用,“建议”被多次使用。这些词不会提前知道,所以我想它必须开始尝试所有可能的组合。在

当然,实际的列表要比这个例子长很多,所以手动尝试所有的组合似乎不是最好的方法。最好的办法是什么?在

更新

我已经使用了timpietzcker的答案来开始开发一个函数,但是我仍然无法正确地应用计数器。它不断返回列表的长度作为所有短语的计数。在

“短语”功能,包括标点符号过滤器和检查此短语是否已被检查,每个短语的最大长度为3个单词:

^{pr2}$

然后循环浏览主题列表:phrase_list = []

ranking = {}

for s in subjects:

result, phrase_list = phrases(s, phrase_list)

all_phrases = collections.Counter(phrase.lower() for s in subjects for phrase in result)

“all\u phrases”返回一个包含元组的列表,其中每个计数值为167,这是我使用的主题列表的长度。不知道我在这里错过了什么。。。在

python判断是否有重复单词_Python:在字符串列表中查找未知的重复单词相关推荐

  1. python字符串\列表中查找出某个值且对应的下标

    1.字符串中查找值和对应的下标 a = "123yui78y8y67tuy" print re.findall("y",a) #查找出在a包含的字符串中所有的y ...

  2. access重复数据累计_在 Access 中查找并删除重复记录

    如果您的 Access 数据库包含从多个源导入的数据,或者您继承了已经使用多年而且没有得到正确设置的数据库,那么该数据库中可能包含需要清除的重复记录. 要确定 Access 表中是否存在重复记录,可以 ...

  3. python列表去重并删除重复那个_Python实现去除列表中重复元素的方法总结【7种方法】...

    如何用python实现剔除列表中相同的元素 >>> a = [1, 2, 3, 1, 2, 3] >>> list(set(a)) [1, 2, 3] 先转成 se ...

  4. python去重复元素_Python实现去除列表中重复元素的方法总结【7种方法】

    这里首先给出来我很早之前写的一篇博客,Python实现去除列表中重复元素的方法小结[4种方法],感兴趣的话可以去看看,今天是在实践过程中又积累了一些方法,这里一并总结放在这里. 由于内容很简单,就不再 ...

  5. python查找列表重复项_python – 在列表中查找项目和重复项

    我正在使用 Python并考虑以下问题:给出一个列表,例如[1,0,-2,0,0,4,5,0,3]多次包含0的整数,我希望有这些0和每一个的索引是它出现在列表中的次数,直到出现不同的元素或列表结束. ...

  6. python查找单词的位置_如何在字符串/列表中查找单词的位置?

    我在写一个函数,用户输入一个单词,然后输入一个字符串,这个函数识别所有出现的单词以及该单词在字符串中的位置(尽管它实际上在中途被转换成了一个列表).在 我目前的代码只识别第一次出现的单词,没有进一步的 ...

  7. python怎么找出列表中的重复数据_python – 如何在列表中找到重复项并使用它......

    要删除重复项,请使用set(a).要打印重复项,例如: a = [1,2,3,2,1,5,6,5,5,5] import collections print [item for item, count ...

  8. python判断几个数最大最小_python 找出list中最大或者最小几个数的索引方法

    {"moduleinfo":{"card_count":[{"count_phone":1,"count":1}],&q ...

  9. python字典查询多个值_python – 在Pandas Dataframe中查找多个字典键并返回多个匹配值...

    如果我的格式化关闭,第一次发布如此道歉. 这是我的问题: 我创建了一个包含多行文本的Pandas数据框: d = {'keywords' :['cheap shoes', 'luxury shoes' ...

  10. python找出列表里大于输出_python找出列表中大于某个阈值的数据段示例

    该算法实现对列表中大于某个阈值(比如level=5)的连续数据段的提取,具体效果如下: 找出list里面大于5的连续数据段: list = [1,2,3,4,2,3,4,5,6,7,4,6,7,8,5 ...

最新文章

  1. Python 入门篇-python3和python2的差异总结
  2. 0428 团队项目2.0
  3. leetcode 838. Push Dominoes | 838. 推多米诺(分析每个状态)
  4. python去重复功能_消除Python列表重复的几种方法,python,去,一些
  5. python爬虫之多线程、多进程+代码示例
  6. 如何在Java中获取系统属性?
  7. 分享一篇文章,博主的经历值得借鉴
  8. 【渝粤教育】国家开放大学2018年秋季 0363-21T市场调查与预测 参考试题
  9. 函数除颤/节流提高性能 + 原生实现滚动时到视口时展现
  10. php 按指定长度分割字符串,php实现将字符串按照指定距离进行分割的方法
  11. 高斯滤波matlab函数,matlab自带函数实现高斯滤波(gauss filter)快速算法
  12. caxa发生文件读写异常_文件和异常
  13. 抽样:理论与应用(第二版) 金勇进 课程笔记 1~4章
  14. R TALK | 旷视研究院范浩强周舒畅: AI计算机摄影的原理、应用与硬件设计
  15. 如何在ps添加箭头_Photoshop怎么画箭头 三种方法教你用PS做箭头
  16. 解密产品经理兼职做猎头,3个月赚十万
  17. 通过微信传文件在服务器保留几天,微信发送文件多久会失效
  18. linux读取excel并导入mysql_mysql命令行的导入导出sql,txt,excel(都在linux或windows命令行操作)(转自筑梦悠然)...
  19. vue+海康威视视频插件坑点记录
  20. (均方、均方根、平均绝对值、标准)误差

热门文章

  1. 近乎 5.3 发布,SNS 社区系统
  2. 非关系型数据库Redis Linux 下安装
  3. F5入口IP依据不同的端口实现转发到不同的POOL
  4. 高亮显示不区分大小写的关键字——ASP
  5. 乐檬:我们和fiil主题词相同是撞车!汪峰信吗?
  6. 让自制脚本随系统开机运行
  7. Inside Google’s language detection tool
  8. 解决“HTTP Error 401 – Unauthorized”
  9. ps mysql进程_ps(Process Status)进程状态:列出当前正在运行的进程
  10. biee mysql,Linux环境中使用BIEE 连接SQLServer业务数据源的简单示例