《Natural Language Processing with Python》读书笔记 002期
第二章一开始核心就是再讲nltk里面内置的各种语料库,但是个人觉得这个并不是这张的重点,重点在于后面如何自己构造自己的语料库,毕竟如果一般训练的话,都肯定是拿自己手头的data来搞。
这个地方其实也没有什么要多加注意的,就是要仔细注意编码问题,都变成utf-8的格式最好统一,这样与PlaintextCorpusReader的默认编码就相同了。
def __init__(self, root, fileids,word_tokenizer=WordPunctTokenizer(),sent_tokenizer=nltk.data.LazyLoader('tokenizers/punkt/english.pickle'),para_block_reader=read_blankline_block,encoding='utf8'):
其实交互式编程在测试代码,或者实现这种短代码的时候非常有用,只要玩转IDLE就好了,具体怎么玩转,网上有各种各样的功能代码,find by yourself.
原因?因为IDLE貌似不需要像普通编辑器那样从头运行,所以节省了很多加载的时间。
0 1 2 3 4 5 6 7 8 9 Chickasaw 0 411 510 551 619 710 799 876 946 995 English 0 185 525 883 997 1166 1283 1440 1558 1638 German_Deutsch 0 171 263 614 717 894 1013 1110 1213 1275
Greenlandic_Inuktikut 0 139 150 151 154 175 182 241 259 283 Hungarian_Magyar 0 302 431 503 655 767 881 972 1081 1171 Ibibio_Efik 0 228 440 915 1418 1705 1867 1974 2049 2074
Monday Tuesday Wednesday Thursday Friday Saturday Sunday news 54 43 22 20 41 33 51
romance 2 3 3 1 3 4 5
Zipf's Law
中文译为齐夫定律,参照百度百科词条中理论的解释:
这个“定律”是哈佛大学的语言学家GeorgeKingsley Zipf1949年发表的。比如,在 Brown 语料库中,“the”是最常见的单词,它在这个语料库中出现了大约7%(100万单词中出现69971次)。正如齐夫定律中所描述的一样,出现次数为第二位的单词“of”占了整个语料库中的3.5%(36411次),之后的是“and”(28852次)。仅仅135个字汇就占了Brown语料库的一半。
齐夫定律是一个实验定律,而非理论定律。齐夫分布可以在很多现象中被观察到。齐夫分布的在现实中的起因是一个争论的焦点。齐夫定律很容易用点阵图观察,坐标为log(排名)和log(频率)。比如,“the”用上述表述可以描述为x = log(1), y = log(69971)的点。如果所有的点接近一条直线,那么它就遵循齐夫定律。最简单的齐夫定律的例子是“1/f function”。给出一组齐夫分布的频率,按照从最常见到非常见排列,第二常见的频率是最常见频率的出现次数的½,第三常见的频率是最常见的频率的1/3,第n常见的频率是最常见频率出现次数的1/n。然而,这并不精确,因为所有的项必须出现一个整数次数,一个单词不可能出现2.5次。然而,在一个广域范围内并且做出适当的近似,许多自然现象都符合齐夫定律。
反比例性质?有点意思,相当于一个潜在的fact被重新发现。
《Natural Language Processing with Python》读书笔记 002期相关推荐
- 嵌入式Linux基础教程-读书笔记
waiting to be fixed. coming soon. +读书笔记: +linux kernel <Linux内核完全剖析基于0.12内核>.pdf 嵌入式Linux基础教程第 ...
- 《NLTK基础教程》读书笔记 002期
今天上来的第一个坑出现在使用nltk的tokensize,终端报出了如下错误 LookupError: ************************************************ ...
- NLTK基础教程学习笔记(二)
Python基础: 字典(dictionary)也是最常用到的一种数据结构.在其他语言中被称为关联数组/存储.字典是一种键值索引型的数据结构,其索引键可以是一种不可变的类型,例如字符串和数字常被用来充 ...
- Objective-C基础教程读书笔记
第二章 对C的扩展 1.#import,让编译器引入一次头文件(且仅引入一次). 2.@符号,Objective-C对C的扩展. 第三章 面向对象编程基础知识 1.中缀符(infix notation ...
- python自学教程读书导图-python机器学习基础教程读书笔记八(全书总结)
全书总结 现在你知道了如何使用重要的机器学习算法进行监督学习和无监督学习,这让你可以解 决很多种机器学习问题.在带你探索机器学习提供的所有可能性之前,我们希望给你一 些最后的建议.一些额外的资源,并提 ...
- NLTK基础教程学习笔记(一)
先来介绍一下相关的python基础: list:list是python中最基础的数据结构相对于其他语言中的数组: 例子: >>>list=[1,2,3,4] >>> ...
- Objective-C基础教程读书笔记(3)
第3章 面向对象编程的基础知识 面向对象编程(Object-Oriented Programming)的缩写OOP,这是一种编程技术,最初是为了编写模拟程序而开发的.OOP很快就俘获了其他种类软件(尤 ...
- Python基础教程读书笔记(第1章—第2章:基础知识、列表和元组)
第一章 基础知识 1:Linux中安装 $apt-get install python ($为bash提示符) 2:数字和表达式:1/2 结果为0.from _future_ import divis ...
- Objective-C基础教程读书笔记(8)
第8章 Foundation Kit介绍 Objective-C是一门非常精巧实用的语言,目前我们还没有研究完它提供的全部功能.不过现在,我们先探索另一个方向,快速了解一下Cocoa中的Foundat ...
最新文章
- Python CRC32 文件校验
- wxWidgets:wxWindowCreateEvent类用法
- boost::hana::at_c用法的测试程序
- ASP.NET Core SignalR:集线器Hub
- 博客园文章方块背景格式
- Linux使用cmake编译项目,如何使用cmake在linux中构建Qt项目(How to build Qt project in linux with cmake)...
- android 广告设置秒数,Android动态显示具体到秒的相聚时间
- 苹果“炸场”发布会:搭载刘海屏的MacBook Pro来了,还有AirPods 3...
- 代写python作业费用标准_代做159.272作业、代写Programming Paradigms作业、代做Python实验作业、代写Java/c++编程作业代写Database|代做R...
- AndroidStudio出现 Unknown verification type [95] in stack map frame 问题的解决办法
- 模拟京东按s键选中输入框
- Python 基础---列表
- java 获取mac地址_java入门知识点和环境准备
- 引用 你唯一能把握的是变成最好的自己
- Inno Setup打包的exe程序加上【unins.exe】卸载程序
- IE主页被https://hao.360.cn/?a1004劫持,如何解决
- 时间换算--C语言结构练习
- 混合现实:手柄定位不准或者经常性丢失
- 2015iMAC安装macOS/Win11双系统 外置硬盘安装macOS/Win11双系统(非PE非DP虚拟机非WTG)
- 汇编语言:8421 BCD码加减法的修正问题
热门文章
- Muse-UI Icon
- vs2017 打开cs文件提示无法识别的GUID格式
- VUE中使用xlsx导出excel表格
- sabaki加katago配置,加载sgf后同步,提示gtp引擎与当前棋盘状态同步失败
- 在执行批处理时出现错误。错误消息为: 目录名称无效。
- PHP mail()本地邮箱服务器搭建全过程
- android GPS驱动
- android os v2.2系统下载,凤凰系统phoenix osv2.6.1Android7.1版_凤凰系统phoenix os下载-PC9软件园...
- mysql查询字段是否递增连续_自增长字段值的连续递增实现
- Kubernetes入门教程 --- 使用二进制安装