近来,在看一本用python进行自然语言处理的书,里面的例子比较多,博主在此将其整理如下,一是方便自己查看,二是帮助广大学友共同学习,对于里面的问题大家都可以随时讨论。PS:书名为python自然语言处理,作者Steven Bird,   Ewan Klein,   and Edward Loper

第一章 应用在自然语言上的python语法

1. 自然语言处理:Natural Language Processing(NLP)

   自然语言工具包; Natural Language Toolkit(NLTK)

   下载python的网址: 点击打开链接

   下载NLTK的网址:点击打开链接

   介绍python的网址:点击打开链接

2. (鉴于本书编印较早,很多例子都有变化,所以不可一概而论。)

搜索文本,连同上下文一起显示:text1.concordance("monstrous")

哪些词出现在相似的上下文中:text1.similar("monstrous")

研究两个相似词的共同上下文:text1.common_contexts(["monstrous","very"])

看出单词的分布,绘制离散图:text1.dispersion_plot(["monstrous","very","America","democracy"])

随机产生文本:text1.generate()

标识符:词和标点符号,两个一样的词语就是两个标识符。

定义了两个函数:

def lexical_diversity(text)<span style="font-family:FangSong_GB2312;">:</span>return len(text) / len(set(text))
def percentage(count, total):teturn 100 * count / total

链表相加:sent1 + sent4

链表追加:sent1.append('some')

索引:text1[13]

      text.index("awake")

切片:text[37:40],出现37,38,39三个数字对应的词

将列表连接起来组成单个字符串:''.join(['a','b'])----'a b'

把字符串分割成一个列表:'a b'.split()----['a','b']

fdist1是每个词对应的频率,下面是绘制前50个词的累计频图:

fdist1 = FreqDist(text1)
fdist1.plot(50, cumulat<span style="font-family:FangSong_GB2312;">ive</span>=True)

只出现一次的词:

fdist1<span style="font-family:FangSong_GB2312;">.hapaxes()</span>

sorted排序先出大写开头的,然后按照字母表顺序。

字典索引:

fdist1<font face="FangSong_GB2312">.items()
<span style="font-size:18px;"><strong><span style="font-family:FangSong_GB2312;"><span style="font-size:18px;"><strong></strong></span></span></strong></span></font><pre name="code" class="python">fdist1<font face="FangSong_GB2312">.keys()
<span style="font-size:18px;"><strong><span style="font-family:FangSong_GB2312;"><span style="font-size:18px;"><strong></strong></span></span></strong></span></font><pre name="code" class="python">fdist1<span style="font-family:FangSong_GB2312;">.values()
集合
set([<span style="color:#FF0000;">w.lower()</span> <span style="background-color: rgb(51, 51, 255);"><span style="color:#33FF33;">for</span></span> w in text <span style="background-color: rgb(102, 0, 204);"><span style="color:#6666CC;"><span style="color:#33FFFF;">i</span><span style="color:#66FFFF;">f</span></span></span> w.ifalpha()])
</span>




用python进行自然语言处理相关推荐

  1. 用Python做自然语言处理必知的八个工具【转载】

    Python以其清晰简洁的语法.易用和可扩展性以及丰富庞大的库深受广大开发者喜爱.其内置的非常强大的机器学习代码库和数学库,使Python理所当然成为自然语言处理的开发利器. 那么使用Python进行 ...

  2. 用Python进行自然语言处理 读书笔记 第一章

    用Python进行自然语言处理(第一章) 搜索文本 text1.concordance("monstrous")#搜索文章中的词语text3.concordance("l ...

  3. 如何用Python处理自然语言?(Spacy与Word Embedding)

    本文教你用简单易学的工业级Python自然语言处理软件包Spacy,对自然语言文本做词性分析.命名实体识别.依赖关系刻画,以及词嵌入向量的计算和可视化. (由于微信公众号外部链接的限制,文中的部分链接 ...

  4. Python NLTK 自然语言处理入门与例程

    Python NLTK 自然语言处理入门与例程 在这篇文章中,我们将基于 Python 讨论自然语言处理(NLP).本教程将会使用 Python NLTK 库.NLTK 是一个当下流行的,用于自然语言 ...

  5. Python在自然语言处理领域的应用 Natural Language Processing With Python: Analyzing Text

    作者:禅与计算机程序设计艺术 1.简介 概述 在自然语言处理领域,Python被视作最优秀.应用范围最广泛.社区氛围最活跃.学习曲线最平缓的一门编程语言.它提供丰富的库函数和框架支持,有着庞大的生态系 ...

  6. 教你用Python进行自然语言处理(附代码)

    原文题目:NLP in Python 翻译: 陈之炎 校对: 和中华 本文共2700字,建议阅读6分钟. 自然语言处理是数据科学中的一大难题.在这篇文章中,我们会介绍一个工业级的python库. 自然 ...

  7. 《用Python进行自然语言处理》第7章 从文本提取信息

    1. 我们如何能构建一个系统,从非结构化文本中提取结构化数据? 2. 有哪些稳健的方法识别一个文本中描述的实体和关系? 3. 哪些语料库适合这项工作,我们如何使用它们来训练和评估我们的模型? 7.1 ...

  8. 《用Python进行自然语言处理》第 1 章 语言处理与 Python

    1. 将简单的程序与大量的文本结合起来,我们能实现什么? 2. 我们如何能自动提取概括文本风格和内容的关键词和短语? 3. Python 编程语言为上述工作提供了哪些工具和技术? 4. 自然语言处理中 ...

  9. [python+nltk] 自然语言处理简单介绍和NLTK坏境配置及入门知识(一)

    本文主要是总结最近学习的论文.书籍相关知识,主要是Natural Language Pracessing(自然语言处理,简称NLP)和Python挖掘维基百科Infobox等内容的知识.此篇文章主要参 ...

最新文章

  1. 程序员的自我修养--链接、装载与库笔记:目标文件里有什么
  2. 无法加载mspdb140.dll
  3. python 冒泡排序算法(超级详细)
  4. 哈利波特检索_语料库ing说: 难怪哈利波特与混血王子那么好看
  5. 安装ISO系统(原版系统)系统终极方法
  6. GitHub 上最受欢迎的 5 大 Java 项目
  7. reids和memcache的区别和一些常见的问题
  8. RequireJS使用小结1——for Effective JavaScript Module Loading
  9. (17)机器学习_集成学习
  10. VBoxGuestAdditions.iso无法在virtualbox中正确安装
  11. 布谷鸟过滤器java使用_Redis布隆过滤器与布谷鸟过滤器
  12. 计算机软件期刊是不是中文核心,2020计算机测量与控制是什么期刊_计算机测量与控制是核心期刊吗_计算机测量与控制官网...
  13. 胡润研究院发布《2018胡润区块链富豪榜》
  14. 肽核酸(PNA)偶联穿膜肽(CCPs)(KFF)3K形成CCPs-PNA|肽核酸的使用方法
  15. linux最多多少主分区,Linux为什么最多能分4个四个主分区
  16. PS系列之 -- 通道抠图进阶 : 用通道抠取头发
  17. 【自动控制原理】根轨迹Root Locus-笔记
  18. 安装Polygon库
  19. 免费CDN加速服务 jsDelivr 支持npm,GitHub,WordPress
  20. scylladb docker 运行试用

热门文章

  1. 计算机测评,笔记本电脑评测
  2. linux命令行编译pascal,【教程】 如何在linux/mac下安装pascal
  3. tinymce编辑器上传图片插件配置
  4. 计算机d导论,计算机导论 第3章(D).ppt
  5. 高德地图全链路压测平台TestPG的架构与实践
  6. cocos tween
  7. 攻防世界:crypt(RC4)
  8. php 获取移动端设备号,getDeviceId()获取设备号IMEI、MEID、ESN
  9. <力扣(LeetCode)>141、环形链表(链表基础解法)java
  10. 选择1KG轻簿的笔记本