做kaggle的quora比赛需要用Python处理英文

首先分词

importnltk

sentence = "At eight o'clock on Thursday morning Arthur didn't feel very good."

tokens = nltk.word_tokenize(sentence)

print tokens

['At', 'eight', "o'clock", 'on', 'Thursday', 'morning', 'Arthur', 'did', "n't", 'feel', 'very', 'good', '.']

报错

LookupError:**********************************************************************Resource u'tokenizers/punkt/english.pickle' notfound. Please

use the NLTK Downloader to obtain the resource:>>>nltk.download()

按照提示下载pickle模块后,不再报错

然后标注词性

word_tag=nltk.pos_tag(tokens)printword_tag

word_tag=nltk.pos_tag(tokens)printword_tag

[('At', 'IN'), ('eight', 'CD'), ("o'clock", 'NN'), ('on', 'IN'), ('Thursday', 'NNP'), ('morning', 'NN'), ('Arthur', 'NNP'), ('did', 'VBD'), ("n't", 'RB'), ('feel', 'VB'), ('very', 'RB'), ('good', 'JJ'), ('.', '.')]

tag的含义解释:http://blog.csdn.net/john159151/article/details/50255101

同义:

wordnet

参考:http://www.cnblogs.com/rcfeng/p/3918544.html

python 英语分词_python 英文分词相关推荐

  1. python统计词频_Python中文分词及词频统计

    中文分词 中文分词(Chinese Word Segmentation),将中文语句切割成单独的词组.英文使用空格来分开每个单词的,而中文单独一个汉字跟词有时候完全不是同个含义,因此,中文分词相比英文 ...

  2. 【NLP】为什么中文分词比英文分词更难?有哪些常用算法?(附代码)

    导读:人类文明的重要标志之一是语言文字的诞生.数千年来,几乎人类所有知识的传播都是以语言和文字作为媒介. 自然语言处理是使用计算机科学与人工智能技术分析和理解人类语言的一门学科.在人工智能的诸多范畴中 ...

  3. 为什么中文分词比英文分词更难?有哪些常用算法?(附代码)

    导读:人类文明的重要标志之一是语言文字的诞生.数千年来,几乎人类所有知识的传播都是以语言和文字作为媒介. 自然语言处理是使用计算机科学与人工智能技术分析和理解人类语言的一门学科.在人工智能的诸多范畴中 ...

  4. NLP考题:为什么中文分词比英文分词更难?有哪些常用算法?(附代码)

    导读:人类文明的重要标志之一是语言文字的诞生.数千年来,几乎人类所有知识的传播都是以语言和文字作为媒介. 自然语言处理是使用计算机科学与人工智能技术分析和理解人类语言的一门学科.在人工智能的诸多范畴中 ...

  5. python 英语分词_英文分词算法(Porter stemmer)

    python金融风控评分卡模型和数据分析微专业课(博主亲自录制视频):http://dwz.date/b9vv 最近需要对英文进行分词处理,希望能够实现还原英文单词原型,比如 boys 变为 boy ...

  6. python 中文分词_python中文分词,使用结巴分词对python进行分词(实例讲解)

    在采集 中文分词是中文文本处理的一个基础性工作,结巴分词利用进行中文分词. 其基本实现原理有三点: 1.基于Trie树结构实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图(DAG) ...

  7. 【基于python版本的连续英文分词实现java版本的英文分词器】

    连续英文分词器java版本 定义词典, 构建词典 切词实现 在搜索领域,用户的输入是千奇百怪的,有时候用户输入的是连续的英文,如果不能有效的进行切分,那么搜索召回的效果可能会比较差,所以我们需要针对连 ...

  8. python分词_Python 结巴分词实现关键词抽取分析

    1 简介 关键词抽取就是从文本里面把跟这篇文档意义最相关的一些词抽取出来.这个可以追溯到文献检索初期,当时还不支持全文搜索的时候,关键词就可以作为搜索这篇论文的词语.因此,目前依然可以在论文中看到关键 ...

  9. python 英语分词_Python英文文本分词(无空格)模块wordninja的使用实例

    在NLP中,数据清洗与分词往往是很多工作开始的第一步,大多数工作中只有中文语料数据需要进行分词,现有的分词工具也已经有了很多了,这里就不再多介绍了.英文语料由于其本身存在空格符所以无需跟中文语料同样处 ...

  10. python的拼音_python 中文分词和拼音首字母

    昨天的算法课老师以中文分词为例讲了DP,换了种简单的方式(求分词后频率和最大)实现了一下,效果不错,频率词典是从这里找的: http://download.csdn.net/source/347899 ...

最新文章

  1. Python计算数据相关系数(person、Kendall、spearman)
  2. mysql5.6安装及实现双向备份
  3. 如何安装Windows10+CentOS7双系统_自用成功版——注意看评论的注意事项
  4. makefile 学习(一)
  5. linux注释内容,Linux 中snmptrapd的内容有大虾能帮我注释下吗?谢谢了
  6. php免费根据ip查城市,根据ip获取城市的方法
  7. 自动驾驶攻破的难点在哪,何时能到Level 5?
  8. Burp Suite
  9. Struts2之ajax初析
  10. iOS:KVO/KVC 的概述与使用
  11. java安卓游戏源码下载_77个安卓游戏 android源码
  12. 最新软件设计师考试大纲
  13. MongoDBCompass使用教程
  14. Aras innovator: innovator大家族
  15. 不用root!卸载手机内置应用,让你的手机一身轻松
  16. 华为——策略路由(校园网配置)
  17. 查询手机号的归属地及运营商接口(验证可用)
  18. gpg生成秘钥时卡死
  19. Day11(重写,多态,final,抽象类)
  20. cadence 批量一次性修改title 页码标题等

热门文章

  1. 我国的省级行政区中,哪些邻省最多,哪些最少?
  2. H5页面原生gps 定位获取经纬度
  3. Sybase数据库按条件导出数据文件
  4. 《黑马QT视频教程》2020.7.31学习日记
  5. Livereload介绍
  6. 苹果cms主动推送php,苹果cmsv10百度主动URL推送教程
  7. 苹果cmsV10资源采集插件
  8. 普元eos运行环境下的逻辑流及页面流反编译工具
  9. 结构梁配筋最牛插件_牛肉食用指南(五):日式烧肉的由来,各部位怎么烤最好吃?...
  10. Excel:数据处理