金融数据挖掘 第7章 第2节(3)英文文本分析处理
一、分割句子与单词(例1)
nltk:自然语言工具包(分词、词干提取、同义词与反义词)
安装MLTK:conda install nltk
(1)导入包
import nltk
nltk.download('punkt') #安装NLTK数据
print('一、分割句子、单词:')
(2)给出样本文本
mytextl = 'Hello Adam, how are you? I hope everything is going well. Today isa good day, see you dude.'
mytext2 = 'Hello Mr Adam, how are you? I hope everything is going well. Today is a good day,see you dude.'
(3)分割句子
以标点符号划分句子: sent_tokenize(无效)
因为nltk安装下载的是免费版本,功能不全,无法分割句子,但是能够分割单词
from nltk.tokenize import sent_tokenize
print('分割后的句子:')
print(sent_tokenize(mytextl))
(4)用标点符号来拆分句子
from nltk.tokenize import PunktSentenceTokenizer
PST = PunktSentenceTokenizer()
print('用标点符号来拆分句子')
print(PST.tokenize(mytext2))
运行结果
用标点符号来拆分句子
['Hello Mr Adam, how are you?', 'I hope everything is going well.', 'Today is a good day,see you dude.']
[nltk_data] Downloading package punkt to
[nltk_data] C:\Users\86186\AppData\Roaming\nltk_data...
[nltk_data] Package punkt is already up-to-date!
(5)sent_tokenize来拆分
from nltk.tokenize import sent_tokenize
print('sent_tokenize来拆分')
print(sent_tokenize(mytext2))
运行结果
sent_tokenize来拆分
['Hello Mr Adam, how are you?', 'I hope everything is going well.', 'Today is a good day,see you dude.']
[nltk_data] Downloading package punkt to
[nltk_data] C:\Users\86186\AppData\Roaming\nltk_data...
[nltk_data] Package punkt is already up-to-date!
(6)单词划分
结果在列表中显示,['','','',]
word_tokenize
from nltk.tokenize import word_tokenize
print('分割后的单词:')
print(word_tokenize(mytext2))
运行结果
from nltk.tokenize import sent_tokenize
mytext3="Bonjour M. Adam, comment allez-vous? J' espère que tout va bien. Aujourd hui est un bon jour."
print('其他语言支持')
# 句子与单词
print(sent_tokenize(mytext3," french"))
分割后的单词:
everything', 'is', 'going', 'well', '.', 'Today', 'is', 'a', 'good', 'day', ',', 'see', 'you', 'dude', '.']
[nltk_data] Downloading package punkt to
[nltk_data] C:\Users\86186\AppData\Roaming\nltk_data...
[nltk_data] Package punkt is already up-to-date!
(7)非英文Tokenize
from nltk.tokenize import sent_tokenize
mytext3="Bonjour M. Adam, comment allez-vous? J' espère que tout va bien. Aujourd hui est un bon jour."
print('其他语言支持')
# 句子与单词
print(sent_tokenize(mytext3," french"))
二、词干提取(例2)
中文无此部分
PorterStemmer
print('二、词干提取')
from nltk.stem import PorterStemmer
stemmer =PorterStemmer()
print('从 working、works和worked 中提取出词干原型')
print(stemmer.stem('working'))
print(stemmer.stem('works'))
print(stemmer.stem('worked'))
运行结果
二、词干提取
从 working、works和worked 中提取出词干原型
work
work
work
四、英文数据预处理——获取同义词、反义词(例3)
中文少,需要构建词典,在词典中查找
1、引入包
wordnet:词典
print('三、查词典、同义词和反义词处理!')
nltk.download('wordnet') #安装本案例所需要的NLTK数据
from nltk.corpus import wordnet
2、定义、例句
defintion():获取定义
examples():获取例句
syn = wordnet.synsets('pain')
print('pain的定义是:')
print(syn[0].definition())
print('pain 的例句:')
print(syn[0].examples())
3、获取Computer的同义词
synonyms = []
for syn in wordnet.synsets(' Computer'):for lemma in syn.lemmas():synonyms.append(lemma.name())
print(' Computer 的同义词有:')
print(synonyms)
4、反义词
antonyms= 1
for syn in wordnet.synsets(' small '):for l in syn.lemmas():if l.antonyms():antonyms.append(l.antonyms()[0].name())
print('small 的反
金融数据挖掘 第7章 第2节(3)英文文本分析处理相关推荐
- Python金融数据挖掘 第7章 第3节 (7) 案例:基于股评文本的情绪分析
1.特征词 表示一篇文本,矩阵数据,聚类.分类.预测 2.情绪.情感分析 情感值.舆论文本.文本数据,来源管,新闻.情感倾向:存在误差,不准确 3.基于股评文本的情绪分析 #网络舆情,判断指数走向 3 ...
- Python金融数据挖掘 第7章 第2节 (5)高频词
1.长度 文本长度:按照字数.标点符号.中英文 分词长度:词数,列表:list 预处理--统计词频.词,矩阵数据--深入分析,二维表,记录(文本).字段(词) 2.引入库 import jieba i ...
- Python金融数据挖掘 第7章 复习思考题 3
3.有'手机垃圾短信'数据集,将其放在文件中:sms_spam.csv,该文件共有5537行,2列,分别是类型(type,ham为非垃圾短信,spam为垃圾短信)和内容(text,短信的具体内容). ...
- Python金融数据挖掘 第11章 复习思考题1 (聚类)给出一个数据集data_multivar.txt,里面有200个点坐标,在平面坐标系下可以画出它的散点图,用K均值聚类算法来训练模型,分4类。
1.题目 给出一个数据集data_multivar.txt,里面有200个点坐标,在平面坐标系下可以画出它的散点图,如图11-12所示. data_multivar.txt 图11-12 数据集 da ...
- 第2章第26节:英文排版技巧:把英文字母排成一个圆圈 [PowerPoint精美幻灯片实战教程]
本节演示如何让文字沿着圆形的内壁排列,首先绘制一个文本框.点击插入选项卡,显示插入功能面板. 在打开的插入功能面板中,点击此处的文本框工具. 在此处按下并向右下方拖动,以绘制一个文本框. 然后在光标位 ...
- 第2章第28节:英文排版技巧:在文字中填充图片 [PowerPoint精美幻灯片实战教程]
本节演示如何给文字填充图片,从而可以根据不同的图片,制作不同风格的艺术文字. 点击格式选项卡,显示格式功能面板. 点击此处的艺术字样式设置图标,打开设置形状格式窗格. 点击左侧的图标,打开文本填充和文 ...
- 第2章第30节:英文排版技巧:固定值在文字排版中的灵活应用 [PowerPoint精美幻灯片实战教程]
本节演示如何通过给行距设置固定值,创建既简单又美观的字体效果.首先在此处按下并向右下方拖动,选择上面两行文字. 在字号输入框里输入115,以增加文字的尺寸. 由于字号的增加,两行文字的行距也变大了,现 ...
- 第2章第27节:英文排版技巧:大间距与大行距的应用 [PowerPoint精美幻灯片实战教程]
对于文字较少的幻灯片,可以通过增加文字的字距.行距的方式,填补空荡的空间,同时也会让画面更加简洁.大气. 在此处按下并向左侧拖动,以增加文本框的尺寸. 然后点击分散对齐图标,使文字在水平方向上填满整个 ...
- 第8章第23节:给案例分析幻灯片中的元素添加动画效果 [PowerPoint精美幻灯片实战教程]
您已经完成幻灯片的形状的绘制,现在来插入一些文字内容.在打开的插入功能面板中,点击此处的文本框工具. 在此处按下并向右下方拖动,以绘制一个文本框. 然后在光标位置输入文字内容. 选择除了第一行之外的文 ...
最新文章
- javascript 实现页面显示当前时间 动态读秒
- RecyclerView嵌套TextView时显示文字不全的解决方法之一
- [恢]hdu 1279
- Redis 作为缓存服务器的配置
- 通用权限管理系统组件 (GPM - General Permissions Manager) 给信息管理系统加一个初始化的功能,调用存储过程...
- linux 下mysql等php的安装 lnmp
- 日首相:对韩日问题深感遗憾 将采取强硬应对措施
- php 计算本月第一天 本月最后一天 下个月第一天
- svn基本常见操作设置
- TeamCity : .NET Core 插件
- 计算机算法设计与分析 递归实现快速排序和随机化实现快速排序
- 【全家福】多项式的各种板子
- U盘不能mount带来的思考
- 机器学习sklearn中决策树模型参数释义
- Java——常用类(String)
- LinkedIn开源数据发现和管理工具 WhereHows
- 有意思的DCDC工作原理
- 【信息系统项目管理师】【理解+题目】【信息系统与信息化】
- sd卡数据恢复源码android,SD卡数据恢复非常简单,想学的看过来!
- 时间块青春版android版,时间块青春版