也许这是个愚蠢的问题,但是我在用Python从语料库中提取十个最常见的单词时遇到了问题。这就是我目前所掌握的。(顺便说一句,我使用NLTK阅读一个语料库,每个10.txt文件有两个子类别)import re

import string

from nltk.corpus import stopwords

stoplist = stopwords.words('dutch')

from collections import defaultdict

from operator import itemgetter

def toptenwords(mycorpus):

words = mycorpus.words()

no_capitals = set([word.lower() for word in words])

filtered = [word for word in no_capitals if word not in stoplist]

no_punct = [s.translate(None, string.punctuation) for s in filtered]

wordcounter = {}

for word in no_punct:

if word in wordcounter:

wordcounter[word] += 1

else:

wordcounter[word] = 1

sorting = sorted(wordcounter.iteritems(), key = itemgetter, reverse = True)

return sorting

如果我用我的语料库打印这个函数,它会给我一个后面有“1”的所有单词的列表。它给了我一本字典,但我所有的价值观都是一本。我知道例如“宝贝”这个词在我的语料库里是五到六倍。。。但还是有“宝贝:1”。。。所以它不能按我想要的方式工作…

有人能帮我吗?

python 语料_用python从语料库中提取最常用的词相关推荐

  1. python中需要用到的英文词汇-使用python从语料库中提取最常用的单词

    也许这是一个愚蠢的问题,但是我在使用Python从语料库中提取十个最常见的单词时遇到了问题.这就是到目前为止. (顺便说一句,我与NLTK一起阅读一个带有两个子类别的语料库,每个子类别有10个.txt ...

  2. python 语料_用python将语料转化为可计算的形式

    1.[用python将语料转化为可计算的形式代码]语料向量化 #-*- coding:utf-8 -*- #语料向量化表示方法 #以下代码参考 Natural Language Processing ...

  3. Python基础_第3章_Python中的循环结构

    Python基础_第3章_Python中的循环结构 文章目录 Python基础_第3章_Python中的循环结构 Python中的循环结构 一.回顾分支练习题 1.判断是否为一个合法三角形 2.求世界 ...

  4. Python基础_第5章_Python中的数据序列

    Python基础_第5章_Python中的数据序列 文章目录 Python基础_第5章_Python中的数据序列 Python中的数据序列 一.字典--Python中的==查询==神器 1.为什么需要 ...

  5. python:实现从img及其坐标中提取文本(附完整源码)

    python:实现从img及其坐标中提取文本 import cv2 import pytesseract img = cv2.imread("img.png") # We need ...

  6. 第一章 第一节:Python基础_认识Python

    Python基础入门(全套保姆级教程) 第一章 第一节:Python基础_认识Python 1. 什么是编程 通俗易懂,编程就是用代码编写程序,编写程序有很多种办法,像c语言,javaPython语言 ...

  7. 中文word2vec的python实现_利用Python实现wiki中文语料的word2vec模型构建

    本实例主要介绍的是选取wiki中文语料,并使用python完成Word2vec模型构建的实践过程,不包含原理部分,旨在一步一步的了解自然语言处理的基本方法和步骤.文章主要包含了开发环境准备.数据的获取 ...

  8. python声明_在Python中什么是全局声明?

    python中的每个"变量"都限于某个范围. python"文件"的范围是模块范围.考虑以下: #file test.py myvariable = 5 # m ...

  9. python 语料_语料访问

    本篇文章帮大家学习语料访问,包含了语料访问使用方法.操作技巧.实例演示和注意事项,有一定的学习价值,大家可以用来参考. Corpora是一个展示多个文本文档集合的组. 单个集合称为语料库. 其中一个着 ...

最新文章

  1. 浙江大学数学专业考研试题参考解答
  2. OpenCV中的SURF(Speeded-Up Robust Features 加速鲁棒特征)
  3. 8种优秀预训练模型大盘点,NLP应用so easy!
  4. 函数中数据存储的问题
  5. 前端优秀博客网站收集
  6. Ubuntu中安装配置和卸载FTP(转)
  7. 银行系普惠和小贷系普惠,哪个贷款更靠谱?
  8. IDEA项目找不到浏览器报错的情况
  9. 按用户设置计算机权限,巧妙设置用户权限 管理学生机房计算机
  10. 黑色自适应简约个人主页引导页HTML源码
  11. 汇编语言8086CPU之寄存器总结
  12. ES6 中的 Set、Map 和 WeakMap
  13. IE无法正常显示中文名图片
  14. 计算机术语宏是什么意思,宏(计算机术语)
  15. AutoCAD块属性提取
  16. CAD学习记录01-快捷键
  17. P2757 [国家集训队]等差子序列
  18. 【应急响应】黑客入侵应急分析手工排查
  19. 绝望的主妇第一二三季/Desperate Housewives迅雷下载
  20. 黑马程序员武汉中心——程序员面试套路集

热门文章

  1. 计算机格式为gpt怎么更改,硬盘格式转换,手把手教你如何将硬盘mbr格式转换为gpt格式...
  2. 来自MyBatis不一样收获结果的探索之旅
  3. Intel(R) WiFi Link 5100 AGN 破解无线网络 BT4正式版U盘启动
  4. JDE910笔记2--OMW项目建立及简单使用[转]
  5. 贝壳云P1刷机记录(5.10内核Armbian)
  6. coap 返回版本信息_coap组包格式的简单解析
  7. 看漫画学焊接!5分钟教你电烙铁的焊接方法
  8. 如何应对未过试用期的技术人员离职
  9. Notepad++ 安装 HexEditor 插件
  10. Windows 10 安装虚拟专用网client端