用python进行自然语言处理
近来,在看一本用python进行自然语言处理的书,里面的例子比较多,博主在此将其整理如下,一是方便自己查看,二是帮助广大学友共同学习,对于里面的问题大家都可以随时讨论。PS:书名为python自然语言处理,作者Steven Bird, Ewan Klein, and Edward Loper
第一章 应用在自然语言上的python语法
1. 自然语言处理:Natural Language Processing(NLP)
自然语言工具包; Natural Language Toolkit(NLTK)
下载python的网址: 点击打开链接
下载NLTK的网址:点击打开链接
介绍python的网址:点击打开链接
2. (鉴于本书编印较早,很多例子都有变化,所以不可一概而论。)
搜索文本,连同上下文一起显示:text1.concordance("monstrous")
哪些词出现在相似的上下文中:text1.similar("monstrous")
研究两个相似词的共同上下文:text1.common_contexts(["monstrous","very"])
看出单词的分布,绘制离散图:text1.dispersion_plot(["monstrous","very","America","democracy"])
随机产生文本:text1.generate()
标识符:词和标点符号,两个一样的词语就是两个标识符。
定义了两个函数:
def lexical_diversity(text)<span style="font-family:FangSong_GB2312;">:</span>return len(text) / len(set(text))
def percentage(count, total):teturn 100 * count / total
链表相加:sent1 + sent4
链表追加:sent1.append('some')
索引:text1[13]
text.index("awake")
切片:text[37:40],出现37,38,39三个数字对应的词
将列表连接起来组成单个字符串:''.join(['a','b'])----'a b'
把字符串分割成一个列表:'a b'.split()----['a','b']
fdist1是每个词对应的频率,下面是绘制前50个词的累计频图:
fdist1 = FreqDist(text1)
fdist1.plot(50, cumulat<span style="font-family:FangSong_GB2312;">ive</span>=True)
只出现一次的词:
fdist1<span style="font-family:FangSong_GB2312;">.hapaxes()</span>
sorted排序先出大写开头的,然后按照字母表顺序。
字典索引:
fdist1<font face="FangSong_GB2312">.items()
<span style="font-size:18px;"><strong><span style="font-family:FangSong_GB2312;"><span style="font-size:18px;"><strong></strong></span></span></strong></span></font><pre name="code" class="python">fdist1<font face="FangSong_GB2312">.keys()
<span style="font-size:18px;"><strong><span style="font-family:FangSong_GB2312;"><span style="font-size:18px;"><strong></strong></span></span></strong></span></font><pre name="code" class="python">fdist1<span style="font-family:FangSong_GB2312;">.values()
集合
set([<span style="color:#FF0000;">w.lower()</span> <span style="background-color: rgb(51, 51, 255);"><span style="color:#33FF33;">for</span></span> w in text <span style="background-color: rgb(102, 0, 204);"><span style="color:#6666CC;"><span style="color:#33FFFF;">i</span><span style="color:#66FFFF;">f</span></span></span> w.ifalpha()])
</span>
用python进行自然语言处理相关推荐
- 用Python做自然语言处理必知的八个工具【转载】
Python以其清晰简洁的语法.易用和可扩展性以及丰富庞大的库深受广大开发者喜爱.其内置的非常强大的机器学习代码库和数学库,使Python理所当然成为自然语言处理的开发利器. 那么使用Python进行 ...
- 用Python进行自然语言处理 读书笔记 第一章
用Python进行自然语言处理(第一章) 搜索文本 text1.concordance("monstrous")#搜索文章中的词语text3.concordance("l ...
- 如何用Python处理自然语言?(Spacy与Word Embedding)
本文教你用简单易学的工业级Python自然语言处理软件包Spacy,对自然语言文本做词性分析.命名实体识别.依赖关系刻画,以及词嵌入向量的计算和可视化. (由于微信公众号外部链接的限制,文中的部分链接 ...
- Python NLTK 自然语言处理入门与例程
Python NLTK 自然语言处理入门与例程 在这篇文章中,我们将基于 Python 讨论自然语言处理(NLP).本教程将会使用 Python NLTK 库.NLTK 是一个当下流行的,用于自然语言 ...
- Python在自然语言处理领域的应用 Natural Language Processing With Python: Analyzing Text
作者:禅与计算机程序设计艺术 1.简介 概述 在自然语言处理领域,Python被视作最优秀.应用范围最广泛.社区氛围最活跃.学习曲线最平缓的一门编程语言.它提供丰富的库函数和框架支持,有着庞大的生态系 ...
- 教你用Python进行自然语言处理(附代码)
原文题目:NLP in Python 翻译: 陈之炎 校对: 和中华 本文共2700字,建议阅读6分钟. 自然语言处理是数据科学中的一大难题.在这篇文章中,我们会介绍一个工业级的python库. 自然 ...
- 《用Python进行自然语言处理》第7章 从文本提取信息
1. 我们如何能构建一个系统,从非结构化文本中提取结构化数据? 2. 有哪些稳健的方法识别一个文本中描述的实体和关系? 3. 哪些语料库适合这项工作,我们如何使用它们来训练和评估我们的模型? 7.1 ...
- 《用Python进行自然语言处理》第 1 章 语言处理与 Python
1. 将简单的程序与大量的文本结合起来,我们能实现什么? 2. 我们如何能自动提取概括文本风格和内容的关键词和短语? 3. Python 编程语言为上述工作提供了哪些工具和技术? 4. 自然语言处理中 ...
- [python+nltk] 自然语言处理简单介绍和NLTK坏境配置及入门知识(一)
本文主要是总结最近学习的论文.书籍相关知识,主要是Natural Language Pracessing(自然语言处理,简称NLP)和Python挖掘维基百科Infobox等内容的知识.此篇文章主要参 ...
最新文章
- 程序员的自我修养--链接、装载与库笔记:目标文件里有什么
- 无法加载mspdb140.dll
- python 冒泡排序算法(超级详细)
- 哈利波特检索_语料库ing说: 难怪哈利波特与混血王子那么好看
- 安装ISO系统(原版系统)系统终极方法
- GitHub 上最受欢迎的 5 大 Java 项目
- reids和memcache的区别和一些常见的问题
- RequireJS使用小结1——for Effective JavaScript Module Loading
- (17)机器学习_集成学习
- VBoxGuestAdditions.iso无法在virtualbox中正确安装
- 布谷鸟过滤器java使用_Redis布隆过滤器与布谷鸟过滤器
- 计算机软件期刊是不是中文核心,2020计算机测量与控制是什么期刊_计算机测量与控制是核心期刊吗_计算机测量与控制官网...
- 胡润研究院发布《2018胡润区块链富豪榜》
- 肽核酸(PNA)偶联穿膜肽(CCPs)(KFF)3K形成CCPs-PNA|肽核酸的使用方法
- linux最多多少主分区,Linux为什么最多能分4个四个主分区
- PS系列之 -- 通道抠图进阶 : 用通道抠取头发
- 【自动控制原理】根轨迹Root Locus-笔记
- 安装Polygon库
- 免费CDN加速服务 jsDelivr 支持npm,GitHub,WordPress
- scylladb docker 运行试用
热门文章
- 计算机测评,笔记本电脑评测
- linux命令行编译pascal,【教程】 如何在linux/mac下安装pascal
- tinymce编辑器上传图片插件配置
- 计算机d导论,计算机导论 第3章(D).ppt
- 高德地图全链路压测平台TestPG的架构与实践
- cocos tween
- 攻防世界:crypt(RC4)
- php 获取移动端设备号,getDeviceId()获取设备号IMEI、MEID、ESN
- <力扣(LeetCode)>141、环形链表(链表基础解法)java
- 选择1KG轻簿的笔记本