keras中文文档：http://keras-cn.readthedocs.io/en/latest/preprocessing/text/

1.简介

在进行自然语言处理之前，需要对文本进行处理。
本文介绍keras提供的预处理包keras.preproceing下的text与序列处理模块sequence模块

2.text模块提供的方法

text_to_word_sequence(text,fileter) 可以简单理解此函数功能类str.split
one_hot(text,vocab_size) 基于hash函数(桶大小为vocab_size)，将一行文本转换向量表示（把单词数字化，vocab_size=5表示所有单词全都数字化在5以内）

3. text.Tokenizer类

这个类用来对文本中的词进行统计计数，生成文档词典，以支持基于词典位序生成文本的向量表示。
init(num_words) 构造函数，传入词典的最大值

3.1 成员函数

fit_on_text(texts) 使用一系列文档来生成token词典，texts为list类，每个元素为一个文档。
texts_to_sequences(texts) 将多个文档转换为word下标的向量形式,shape为[len(texts)，len(text)] – (文档数，每条文档的长度)；
texts_to_matrix(texts) 将多个文档转换为矩阵表示,shape为[len(texts),num_words]；

3.2 成员变量

document_count 处理的文档数量
word_index 一个dict，保存所有word对应的编号id，从1开始
word_counts 一个dict，保存每个word在所有文档中出现的次数
word_docs 一个dict，保存每个word出现的文档的数量
index_docs 一个dict，保存word的id出现的文档的数量

3.3代码示例

from keras.preprocessing.text import Tokenizersamples = ['The cat sat on the mat.', 'The dog ate my homework.']
tokenizer = Tokenizer(num_words=1000)  # 只考虑前1000个最常见的单词
tokenizer.fit_on_texts(samples)  # 建立字典，构建单词索引sequences = tokenizer.texts_to_sequences(samples)  # 将字符串转换为整数索引组成的列表one_hot_results = tokenizer.texts_to_matrix(samples, mode='binary')  # 将多个文档转换为矩阵表示形式word_index = tokenizer.word_index
print('Found %s unique tokens.' % len(word_index))

Keras---text.Tokenizer：文本与序列预处理相关推荐

text.Tokenizer类
keras提供的预处理包keras.preproceing下的text与序列处理模块sequence模块 1. text模块提供的方法 text_to_word_sequence(text,filet ...
Keras的Tokenizer分词器
Tokenizer类 keras.preprocessing.text.Tokenizer(num_words=None, filters='!"#$%&()*+,-./:;< ...
css字体 text,css文本样式text、字体样式font
文本样式text 1.文本颜色color 例如h1 {color:red;} 2.文本方向direction,不常用默认ltr从左到右,rtl表示从右到左 3.文本水平对齐方式text-align ...
Unity Text富文本（文本变得多姿多彩）
Unity Text富文本(文本变得多姿多彩) 实例: 步骤如下: 1.创建一个UI Text 2.Text组件中的Rich Text要勾选上 3.写内容 html控制代码实例: 步骤如下: 1.创 ...
python attention机制_[深度应用]·Keras实现Self-Attention文本分类（机器如何读懂人心）...
[深度应用]·Keras实现Self-Attention文本分类(机器如何读懂人心) 笔者在[深度概念]·Attention机制概念学习笔记博文中,讲解了Attention机制的概念与技术细节,本篇内 ...
高德地图实现marker标记,Text多点文本标记,标记信息窗体,手动选点功能
1.marker标记,Text多点文本标记,标记信息窗体效果: 代码: <!DOCTYPE html> <html> <head><meta charset ...
嵌入式GUI LVGL『Text Area文本区域控件』介绍
一. LVGL GUI文本区域控件的概念文本区域是一个带有标签和光标的页面.文本或字符可以添加到它.长行被换行,当文本足够长时,可以滚动文本区域. 二. LVGL GUI文本区域小部件和样式文本区 ...
uni-app text、文本、selectable、自定义长按选择菜单、修改系统菜单键(双端)
uni-app text.文本.selectable.自定义长按选择菜单.修改系统菜单键(双端):https://ext.dcloud.net.cn/plugin?id=10586 <templ ...
Talk | 微软亚洲研究院宋恺涛南大余博涛：面向文本/音乐序列任务的Transformer注意力机制设计
本期为TechBeat人工智能社区第456期线上Talk! 北京时间11月22日(周二)20:00,微软亚洲研究院研究员--宋恺涛与南京大学硕士研究生--余博涛的Talk将准时在TechBeat人工智 ...

Keras---text.Tokenizer：文本与序列预处理

1.简介

2.text模块提供的方法

3. text.Tokenizer类

3.1 成员函数

3.2 成员变量

3.3代码示例

Keras---text.Tokenizer：文本与序列预处理相关推荐

最新文章

热门文章