tflearn的VocabularyProcessor用法：建立中文词汇表和把文本转为词ID序列

# -*- coding: utf-8 -*-from hanziconv import HanziConv
from jieba import cut
from tflearn.data_utils import VocabularyProcessorDOCUMENTS = ['这是一条测试1','这是一条测试2','这是一条测试3','这是其他测试',
]def chinese_tokenizer(documents):"""把中文文本转为词序列"""for document in documents:# 繁体转简体text = HanziConv.toSimplified(document)# 英文转小写text = text.lower()# 分词yield list(cut(text))# 序列长度填充或截取到100，删除词频<=2的词
vocab = VocabularyProcessor(100, 2, tokenizer_fn=chinese_tokenizer)# 创建词汇表，创建后不能更改
vocab.fit(DOCUMENTS)# 保存和加载词汇表
vocab.save('vocab.pickle')
vocab = VocabularyProcessor.restore('vocab.pickle')# 文本转为词ID序列，未知或填充用的词ID为0
id_documents = list(vocab.transform(DOCUMENTS))
for id_document in id_documents:print(id_document)
# [2 3 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
#  0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
#  0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0]
# [2 3 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
#  0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
#  0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0]
# [2 3 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
#  0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
#  0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0]
# [2 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
#  0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
#  0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0]# 词ID序列转为文本
for document in vocab.reverse(id_documents):print(document)
# 这是 一条 测试 <UNK> <UNK> <UNK> ...
# 这是 一条 测试 <UNK> <UNK> <UNK> ...
# 这是 一条 测试 <UNK> <UNK> <UNK> ...
# 这是 <UNK> 测试 <UNK> <UNK> <UNK> ...

tflearn的VocabularyProcessor用法：建立中文词汇表和把文本转为词ID序列相关推荐

「史上最全的 TCG 规范解读」词汇表
可信计算组织(Ttrusted Computing Group,TCG)是一个非盈利的工业标准组织,它的宗旨是加强不同计算机平台上计算环境的安全性.TCG于2003年春成立,并采纳了由可信计算平台联盟 ...
NLP自然语言处理实战(一):利用分词器构建词汇表
在NLP中,分词(tokenization,也称分词)是一种特殊的文档切分(segmentation)过程.而文档切分能够将文本拆分成更小的文本块或片段,其中含有更集中的信息内容.文档切分可以是将文档 ...
利用tensorflow的VocabularyProcessor增量更新词汇表
1.背景在初版模型,基于训练数据集,利用VocabularyProcessor构建了词汇表,存储文件为old_vocab.pickle.在以后的增量更新中如何把已经保存的上版词汇加载上,同时加入增 ...
超全汇总！机器学习常用术语词汇表
点击上方"小白学视觉",选择加"星标"或"置顶" 重磅干货,第一时间送达刚接触机器学习框架 TensorFlow 的新手们,这篇由 Goo ...
2011大学英语四级核心高频词汇表免费下载
2011年大学英语四级核心高频词汇表 abandon vt.丢弃:放弃,抛弃 ability n.能力:能耐,本领 abnormal a.不正常的:变态的 aboard ad.在船(车)上:上船 ab ...
机器学习常用术语词汇表
EOF是一个计算机术语,为End Of File的缩写 ,在操作系统中表示资料源无更多的资料可读取. 刚接触机器学习框架 TensorFlow 的新手们,这篇由 Google 官方出品的常用术语词汇表 ...
python英语-我们用程序整理出了一份Python英语高频词汇表，拿走不谢！
原标题:我们用程序整理出了一份Python英语高频词汇表,拿走不谢! 有不少编程初学者会问这样一个问题:我英语不好,还能不能学编程?会不会有影响? 我的回答是:能,会. 能学,是因为虽然编程用的都是英 ...
超全机器学习术语词汇表
from: https://www.jianshu.com/u/c9bd3225567e A 准确率(accuracy) 分类模型预测准确的比例.在多类别分类中,准确率定义如下: 在二分类中,准确率定 ...
谷歌开发者机器学习词汇表：纵览机器学习基本词汇与概念
选自Google Developers 机器之心编译机器之心曾开放过人工智能术语集 ,该术语库项目目前收集了人工智能领域 700 多个专业术语,但仍需要与各位读者共同完善与修正.本文编译自谷歌开发者 ...

tflearn的VocabularyProcessor用法：建立中文词汇表和把文本转为词ID序列

tflearn的VocabularyProcessor用法：建立中文词汇表和把文本转为词ID序列相关推荐

最新文章

热门文章