python 语料_用python从语料库中提取最常用的词
也许这是个愚蠢的问题,但是我在用Python从语料库中提取十个最常见的单词时遇到了问题。这就是我目前所掌握的。(顺便说一句,我使用NLTK阅读一个语料库,每个10.txt文件有两个子类别)import re
import string
from nltk.corpus import stopwords
stoplist = stopwords.words('dutch')
from collections import defaultdict
from operator import itemgetter
def toptenwords(mycorpus):
words = mycorpus.words()
no_capitals = set([word.lower() for word in words])
filtered = [word for word in no_capitals if word not in stoplist]
no_punct = [s.translate(None, string.punctuation) for s in filtered]
wordcounter = {}
for word in no_punct:
if word in wordcounter:
wordcounter[word] += 1
else:
wordcounter[word] = 1
sorting = sorted(wordcounter.iteritems(), key = itemgetter, reverse = True)
return sorting
如果我用我的语料库打印这个函数,它会给我一个后面有“1”的所有单词的列表。它给了我一本字典,但我所有的价值观都是一本。我知道例如“宝贝”这个词在我的语料库里是五到六倍。。。但还是有“宝贝:1”。。。所以它不能按我想要的方式工作…
有人能帮我吗?
python 语料_用python从语料库中提取最常用的词相关推荐
- python中需要用到的英文词汇-使用python从语料库中提取最常用的单词
也许这是一个愚蠢的问题,但是我在使用Python从语料库中提取十个最常见的单词时遇到了问题.这就是到目前为止. (顺便说一句,我与NLTK一起阅读一个带有两个子类别的语料库,每个子类别有10个.txt ...
- python 语料_用python将语料转化为可计算的形式
1.[用python将语料转化为可计算的形式代码]语料向量化 #-*- coding:utf-8 -*- #语料向量化表示方法 #以下代码参考 Natural Language Processing ...
- Python基础_第3章_Python中的循环结构
Python基础_第3章_Python中的循环结构 文章目录 Python基础_第3章_Python中的循环结构 Python中的循环结构 一.回顾分支练习题 1.判断是否为一个合法三角形 2.求世界 ...
- Python基础_第5章_Python中的数据序列
Python基础_第5章_Python中的数据序列 文章目录 Python基础_第5章_Python中的数据序列 Python中的数据序列 一.字典--Python中的==查询==神器 1.为什么需要 ...
- python:实现从img及其坐标中提取文本(附完整源码)
python:实现从img及其坐标中提取文本 import cv2 import pytesseract img = cv2.imread("img.png") # We need ...
- 第一章 第一节:Python基础_认识Python
Python基础入门(全套保姆级教程) 第一章 第一节:Python基础_认识Python 1. 什么是编程 通俗易懂,编程就是用代码编写程序,编写程序有很多种办法,像c语言,javaPython语言 ...
- 中文word2vec的python实现_利用Python实现wiki中文语料的word2vec模型构建
本实例主要介绍的是选取wiki中文语料,并使用python完成Word2vec模型构建的实践过程,不包含原理部分,旨在一步一步的了解自然语言处理的基本方法和步骤.文章主要包含了开发环境准备.数据的获取 ...
- python声明_在Python中什么是全局声明?
python中的每个"变量"都限于某个范围. python"文件"的范围是模块范围.考虑以下: #file test.py myvariable = 5 # m ...
- python 语料_语料访问
本篇文章帮大家学习语料访问,包含了语料访问使用方法.操作技巧.实例演示和注意事项,有一定的学习价值,大家可以用来参考. Corpora是一个展示多个文本文档集合的组. 单个集合称为语料库. 其中一个着 ...
最新文章
- 浙江大学数学专业考研试题参考解答
- OpenCV中的SURF(Speeded-Up Robust Features 加速鲁棒特征)
- 8种优秀预训练模型大盘点,NLP应用so easy!
- 函数中数据存储的问题
- 前端优秀博客网站收集
- Ubuntu中安装配置和卸载FTP(转)
- 银行系普惠和小贷系普惠,哪个贷款更靠谱?
- IDEA项目找不到浏览器报错的情况
- 按用户设置计算机权限,巧妙设置用户权限 管理学生机房计算机
- 黑色自适应简约个人主页引导页HTML源码
- 汇编语言8086CPU之寄存器总结
- ES6 中的 Set、Map 和 WeakMap
- IE无法正常显示中文名图片
- 计算机术语宏是什么意思,宏(计算机术语)
- AutoCAD块属性提取
- CAD学习记录01-快捷键
- P2757 [国家集训队]等差子序列
- 【应急响应】黑客入侵应急分析手工排查
- 绝望的主妇第一二三季/Desperate Housewives迅雷下载
- 黑马程序员武汉中心——程序员面试套路集
热门文章
- 计算机格式为gpt怎么更改,硬盘格式转换,手把手教你如何将硬盘mbr格式转换为gpt格式...
- 来自MyBatis不一样收获结果的探索之旅
- Intel(R) WiFi Link 5100 AGN 破解无线网络 BT4正式版U盘启动
- JDE910笔记2--OMW项目建立及简单使用[转]
- 贝壳云P1刷机记录(5.10内核Armbian)
- coap 返回版本信息_coap组包格式的简单解析
- 看漫画学焊接!5分钟教你电烙铁的焊接方法
- 如何应对未过试用期的技术人员离职
- Notepad++ 安装 HexEditor 插件
- Windows 10 安装虚拟专用网client端