from nltk.corpus import gutenberg
import nltk# file = gutenberg.words('melville-moby_dick.txt')
# text = nltk.Text(file)
# print(file)
# print(text)
# print(text.findall('<a> (<.*>) <man>'))
# 对Text对象使用findall的特殊方式
# this is not a list# test_string = '''Over the last 10 years, I have used and tweaked Vim.
# This configuration is the ultimate vimrc
# (or at least my version of it).'''
# print(nltk.word_tokenize(test_string))# 词干提取
# porter = nltk.PorterStemmer()
# lancaster = nltk.LancasterStemmer()
# test_list = gutenberg.words('melville-moby_dick.txt')[:10]
# list_by_porter = [porter.stem(word) for word in test_list]
# list_by_lancaster = [lancaster.stem(word) for word in test_list]
# print('the oringin:',test_list)
# print('porter stem:',list_by_porter)
# print('lancaster stem:',list_by_lancaster)# test_list = gutenberg.words('melville-moby_dick.txt')[:10]
# print('词性归并器:',[nltk.WordNetLemmatizer().lemmatize(word) for word in test_list])
# # much better but slower# 断句
# sents_tokenizer = nltk.data.load('tokenizers/punkt/english.pickle')
# file = gutenberg.raw('chesterton-thursday.txt')
# # print(file)
# # the file is the pure text without any useless symbol
# print(sents_tokenizer.tokenize(file))

自然语言处理nltk分词断句(2)相关推荐

  1. C#,动态规划问题中基于单词搜索树(Trie Tree)的单词断句分词( Word Breaker)算法与源代码

    分词是自然语言处理的基础,分词准确度直接决定了后面的词性标注.句法分析.词向量以及文本分析的质量.英文语句使用空格将单词进行分隔,除了某些特定词,如how many,New York等外,大部分情况下 ...

  2. 让机器学会断句:基于词典的Bigram分词算法

    目录 概述 从序列到图 Unigram 模型 Bigram 模型 实现 概述 分词是NLP任务Pipeline中的重要步骤,一般来说都需要将句子切分成词之后,才能进一步把词进行向量化,最终输出各种各样 ...

  3. 【python】文本处理:利用NLTK断句

    [python]文本处理:利用NLTK断句 [Code] import nltk.datadef stripTags(s):intag = [False]def chk(c):if intag[0]: ...

  4. python自然语言处理案例-Python自然语言处理 NLTK 库用法入门教程【经典】

    本文实例讲述了Python自然语言处理 NLTK 库用法.分享给大家供大家参考,具体如下: 在这篇文章中,我们将基于 Python 讨论自然语言处理(NLP).本教程将会使用 Python NLTK ...

  5. 【文献阅读】基于深层语言模型的古汉语知识表示及自动断句研究

    概述:BERT+CRF/CNN实现古文知识表示和断句 2 古汉语自动断句模型 条件随机场是一种经典的序列标注模型,在中文分词.词性标注.命名实体识别等自然语言处理任务中均有着广泛应用 Zheng X, ...

  6. Python自然语言处理 NLTK 库用法入门教程【经典】

    @本文来源于公众号:csdn2299,喜欢可以关注公众号 程序员学府 本文实例讲述了Python自然语言处理 NLTK 库用法.分享给大家供大家参考,具体如下: 在这篇文章中,我们将基于 Python ...

  7. chatgpt赋能python:Python断句:一种快速且便利的文本处理方法

    Python 断句:一种快速且便利的文本处理方法 Python作为一种通用编程语言,在文本处理方面也有很强的能力.其中,断句是在Python中应用广泛的一种文本处理方法.本篇文章将介绍如何使用Pyth ...

  8. 自然语言处理1 -- 分词

    文章目录 1 概述 2 中文分词难点 分词标准 切分歧义 未登录词 3 中文分词算法 基于词典的分词算法 基于统计的分词算法 4 分词质量和性能 5 总结 转载来源:https://blog.csdn ...

  9. cαr怎么发音_【英语拼读发音规则】连读、略读、重读、断句、语调……

    在说汉语的时候,我们讲究的是"字正腔圆.掷地有声",而英语恰恰相反,它需要将一句话中的某些重点词汇突出,弱化非重点词汇. 所以,对已经习惯了"字正腔圆"的我们来 ...

最新文章

  1. webmin下重启linux系统
  2. Hyper-V下虚拟机无法启动的故障排除
  3. 【通知】2020年有三AI-CV夏季划升级,更多项目,更高难度,更加落地
  4. 我的Android学习之路
  5. ssis for循环容器_使用SSIS ForEach Loop容器以日期顺序处理文件
  6. 基于Jenkins 快速搭建持续集成环境
  7. 【论文笔记】Convolutional Neural Networks for Sentence Classification
  8. 基于C#语言的可编程表达式计算器设计
  9. Nexmark: 如何设计一个流计算基准测试?
  10. 拓端tecdat|R语言缺失值的处理:线性回归模型插补
  11. Yii2 常用操作总结
  12. c++ int转char*
  13. 一、Filter的配置项dispatcher
  14. 从Unix看文言文为什么短
  15. java利用itext编辑pdf
  16. 初识Python必看基础知识~ 续(3)
  17. 互联网营销的技巧方法和套路!
  18. 英语写作——必备的200条句子【写作必备!!!】
  19. MAFIA 算法解析
  20. 《微信小程序七日谈》- 第七天:不要捡了芝麻丢了西瓜

热门文章

  1. panic: interface conversion: interface {} is nil, not chan *sarama.ProducerError
  2. 正则验证车牌号码(包括新能源车牌)
  3. 某选秀比赛的晋级规则是:如果7个评委中,有4个及以上评委投赞成票。试用数组编写程序判断某选手是否晋级
  4. 蒙特卡洛算法及简单应用
  5. 用MindMaster绘制思维导图
  6. 手游创业是新的风口吗
  7. 海带不能和什么一起吃 吃海带的好处
  8. 怀孕期间各个月注意事项
  9. 实现键盘enter回车键调用登陆函数
  10. 举例说明专用计算机和通用计算机的区别,计算机原理答案