一、分割句子与单词(例1)

nltk:自然语言工具包(分词、词干提取、同义词与反义词)

安装MLTK:conda install nltk

(1)导入包

import nltk
nltk.download('punkt') #安装NLTK数据
print('一、分割句子、单词:')

(2)给出样本文本

mytextl = 'Hello Adam, how are you? I hope everything is going well. Today isa good day, see you dude.'
mytext2 = 'Hello Mr Adam, how are you? I hope everything is going well. Today is a good day,see you dude.'

(3)分割句子

以标点符号划分句子: sent_tokenize(无效

因为nltk安装下载的是免费版本,功能不全,无法分割句子,但是能够分割单词

from nltk.tokenize import sent_tokenize
print('分割后的句子:')
print(sent_tokenize(mytextl))

(4)用标点符号来拆分句子

from nltk.tokenize import PunktSentenceTokenizer
PST = PunktSentenceTokenizer()
print('用标点符号来拆分句子')
print(PST.tokenize(mytext2))

运行结果

用标点符号来拆分句子
['Hello Mr Adam, how are you?', 'I hope everything is going well.', 'Today is a good day,see you dude.']
[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\86186\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!

(5)sent_tokenize来拆分

from nltk.tokenize import sent_tokenize
print('sent_tokenize来拆分')
print(sent_tokenize(mytext2))

运行结果

sent_tokenize来拆分
['Hello Mr Adam, how are you?', 'I hope everything is going well.', 'Today is a good day,see you dude.']
[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\86186\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!

(6)单词划分

结果在列表中显示,['','','',]

word_tokenize

from nltk.tokenize import word_tokenize
print('分割后的单词:')
print(word_tokenize(mytext2))

运行结果

from nltk.tokenize import sent_tokenize
mytext3="Bonjour M. Adam, comment allez-vous? J' espère que tout va bien. Aujourd hui est un bon jour."
print('其他语言支持')
# 句子与单词
print(sent_tokenize(mytext3," french"))

分割后的单词:

everything', 'is', 'going', 'well', '.', 'Today', 'is', 'a', 'good', 'day', ',', 'see', 'you', 'dude', '.']
[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\86186\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!

(7)非英文Tokenize

from nltk.tokenize import sent_tokenize
mytext3="Bonjour M. Adam, comment allez-vous? J' espère que tout va bien. Aujourd hui est un bon jour."
print('其他语言支持')
# 句子与单词
print(sent_tokenize(mytext3," french"))

二、词干提取(例2)

中文无此部分

PorterStemmer

print('二、词干提取')
from nltk.stem import PorterStemmer
stemmer =PorterStemmer()
print('从 working、works和worked 中提取出词干原型')
print(stemmer.stem('working'))
print(stemmer.stem('works'))
print(stemmer.stem('worked'))

运行结果

二、词干提取
从 working、works和worked 中提取出词干原型
work
work
work

四、英文数据预处理——获取同义词、反义词(例3)

中文少,需要构建词典,在词典中查找

1、引入包

wordnet:词典

print('三、查词典、同义词和反义词处理!')
nltk.download('wordnet') #安装本案例所需要的NLTK数据
from nltk.corpus import wordnet

2、定义、例句

defintion():获取定义

examples():获取例句

syn = wordnet.synsets('pain')
print('pain的定义是:')
print(syn[0].definition())
print('pain 的例句:')
print(syn[0].examples())

3、获取Computer的同义词

synonyms = []
for syn in wordnet.synsets(' Computer'):for lemma in syn.lemmas():synonyms.append(lemma.name())
print(' Computer 的同义词有:')
print(synonyms)

4、反义词

antonyms= 1
for syn in wordnet.synsets(' small '):for l in syn.lemmas():if l.antonyms():antonyms.append(l.antonyms()[0].name())
print('small 的反

金融数据挖掘 第7章 第2节(3)英文文本分析处理相关推荐

  1. Python金融数据挖掘 第7章 第3节 (7) 案例:基于股评文本的情绪分析

    1.特征词 表示一篇文本,矩阵数据,聚类.分类.预测 2.情绪.情感分析 情感值.舆论文本.文本数据,来源管,新闻.情感倾向:存在误差,不准确 3.基于股评文本的情绪分析 #网络舆情,判断指数走向 3 ...

  2. Python金融数据挖掘 第7章 第2节 (5)高频词

    1.长度 文本长度:按照字数.标点符号.中英文 分词长度:词数,列表:list 预处理--统计词频.词,矩阵数据--深入分析,二维表,记录(文本).字段(词) 2.引入库 import jieba i ...

  3. Python金融数据挖掘 第7章 复习思考题 3

    3.有'手机垃圾短信'数据集,将其放在文件中:sms_spam.csv,该文件共有5537行,2列,分别是类型(type,ham为非垃圾短信,spam为垃圾短信)和内容(text,短信的具体内容). ...

  4. Python金融数据挖掘 第11章 复习思考题1 (聚类)给出一个数据集data_multivar.txt,里面有200个点坐标,在平面坐标系下可以画出它的散点图,用K均值聚类算法来训练模型,分4类。

    1.题目 给出一个数据集data_multivar.txt,里面有200个点坐标,在平面坐标系下可以画出它的散点图,如图11-12所示. data_multivar.txt 图11-12 数据集 da ...

  5. 第2章第26节:英文排版技巧:把英文字母排成一个圆圈 [PowerPoint精美幻灯片实战教程]

    本节演示如何让文字沿着圆形的内壁排列,首先绘制一个文本框.点击插入选项卡,显示插入功能面板. 在打开的插入功能面板中,点击此处的文本框工具. 在此处按下并向右下方拖动,以绘制一个文本框. 然后在光标位 ...

  6. 第2章第28节:英文排版技巧:在文字中填充图片 [PowerPoint精美幻灯片实战教程]

    本节演示如何给文字填充图片,从而可以根据不同的图片,制作不同风格的艺术文字. 点击格式选项卡,显示格式功能面板. 点击此处的艺术字样式设置图标,打开设置形状格式窗格. 点击左侧的图标,打开文本填充和文 ...

  7. 第2章第30节:英文排版技巧:固定值在文字排版中的灵活应用 [PowerPoint精美幻灯片实战教程]

    本节演示如何通过给行距设置固定值,创建既简单又美观的字体效果.首先在此处按下并向右下方拖动,选择上面两行文字. 在字号输入框里输入115,以增加文字的尺寸. 由于字号的增加,两行文字的行距也变大了,现 ...

  8. 第2章第27节:英文排版技巧:大间距与大行距的应用 [PowerPoint精美幻灯片实战教程]

    对于文字较少的幻灯片,可以通过增加文字的字距.行距的方式,填补空荡的空间,同时也会让画面更加简洁.大气. 在此处按下并向左侧拖动,以增加文本框的尺寸. 然后点击分散对齐图标,使文字在水平方向上填满整个 ...

  9. 第8章第23节:给案例分析幻灯片中的元素添加动画效果 [PowerPoint精美幻灯片实战教程]

    您已经完成幻灯片的形状的绘制,现在来插入一些文字内容.在打开的插入功能面板中,点击此处的文本框工具. 在此处按下并向右下方拖动,以绘制一个文本框. 然后在光标位置输入文字内容. 选择除了第一行之外的文 ...

最新文章

  1. javascript 实现页面显示当前时间 动态读秒
  2. RecyclerView嵌套TextView时显示文字不全的解决方法之一
  3. [恢]hdu 1279
  4. Redis 作为缓存服务器的配置
  5. 通用权限管理系统组件 (GPM - General Permissions Manager) 给信息管理系统加一个初始化的功能,调用存储过程...
  6. linux 下mysql等php的安装 lnmp
  7. 日首相:对韩日问题深感遗憾 将采取强硬应对措施
  8. php 计算本月第一天 本月最后一天 下个月第一天
  9. svn基本常见操作设置
  10. TeamCity : .NET Core 插件
  11. 计算机算法设计与分析 递归实现快速排序和随机化实现快速排序
  12. 【全家福】多项式的各种板子
  13. U盘不能mount带来的思考
  14. 机器学习sklearn中决策树模型参数释义
  15. Java——常用类(String)
  16. LinkedIn开源数据发现和管理工具 WhereHows
  17. 有意思的DCDC工作原理
  18. 【信息系统项目管理师】【理解+题目】【信息系统与信息化】
  19. sd卡数据恢复源码android,SD卡数据恢复非常简单,想学的看过来!
  20. 时间块青春版android版,时间块青春版

热门文章

  1. VC++ 2010 创建高级Ribbon界面详解(2)
  2. 概率密度变换公式 雅可比矩阵_机器人雅可比矩阵的理解和常用公式
  3. 线性可调电压控制输出12V/24V转0-100V/1000V升压电源模块
  4. Visual Studio 2005详细讲解!
  5. 一周工作总结范文工作能力
  6. centos下如何修改FTP帐号或密码
  7. 用Javascript实现中秋节倒计时
  8. 计算机组成原理笔记--简单五级流水线设计与性能
  9. Nestimators
  10. 关于酒店消防电气火灾监测报警系统的应用介绍 安科瑞 许敏