# -*- coding: utf-8 -*-from hanziconv import HanziConv
from jieba import cut
from tflearn.data_utils import VocabularyProcessorDOCUMENTS = ['这是一条测试1','这是一条测试2','这是一条测试3','这是其他测试',
]def chinese_tokenizer(documents):"""把中文文本转为词序列"""for document in documents:# 繁体转简体text = HanziConv.toSimplified(document)# 英文转小写text = text.lower()# 分词yield list(cut(text))# 序列长度填充或截取到100,删除词频<=2的词
vocab = VocabularyProcessor(100, 2, tokenizer_fn=chinese_tokenizer)# 创建词汇表,创建后不能更改
vocab.fit(DOCUMENTS)# 保存和加载词汇表
vocab.save('vocab.pickle')
vocab = VocabularyProcessor.restore('vocab.pickle')# 文本转为词ID序列,未知或填充用的词ID为0
id_documents = list(vocab.transform(DOCUMENTS))
for id_document in id_documents:print(id_document)
# [2 3 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
#  0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
#  0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0]
# [2 3 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
#  0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
#  0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0]
# [2 3 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
#  0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
#  0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0]
# [2 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
#  0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
#  0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0]# 词ID序列转为文本
for document in vocab.reverse(id_documents):print(document)
# 这是 一条 测试 <UNK> <UNK> <UNK> ...
# 这是 一条 测试 <UNK> <UNK> <UNK> ...
# 这是 一条 测试 <UNK> <UNK> <UNK> ...
# 这是 <UNK> 测试 <UNK> <UNK> <UNK> ...

tflearn的VocabularyProcessor用法:建立中文词汇表和把文本转为词ID序列相关推荐

  1. 「史上最全的 TCG 规范解读」词汇表

    可信计算组织(Ttrusted Computing Group,TCG)是一个非盈利的工业标准组织,它的宗旨是加强不同计算机平台上计算环境的安全性.TCG于2003年春成立,并采纳了由可信计算平台联盟 ...

  2. NLP自然语言处理实战(一):利用分词器构建词汇表

    在NLP中,分词(tokenization,也称分词)是一种特殊的文档切分(segmentation)过程.而文档切分能够将文本拆分成更小的文本块或片段,其中含有更集中的信息内容.文档切分可以是将文档 ...

  3. 利用tensorflow的VocabularyProcessor增量更新词汇表

    1.背景 在初版模型,基于训练数据集,利用VocabularyProcessor构建了词汇表,存储文件为old_vocab.pickle.在以后的增量更新中 如何把已经保存的上版词汇加载上,同时加入增 ...

  4. 超全汇总!机器学习常用术语词汇表

    点击上方"小白学视觉",选择加"星标"或"置顶" 重磅干货,第一时间送达 刚接触机器学习框架 TensorFlow 的新手们,这篇由 Goo ...

  5. 2011大学英语四级核心高频词汇表免费下载

    2011年大学英语四级核心高频词汇表 abandon vt.丢弃:放弃,抛弃 ability n.能力:能耐,本领 abnormal a.不正常的:变态的 aboard ad.在船(车)上:上船 ab ...

  6. 机器学习常用术语词汇表

    EOF是一个计算机术语,为End Of File的缩写 ,在操作系统中表示资料源无更多的资料可读取. 刚接触机器学习框架 TensorFlow 的新手们,这篇由 Google 官方出品的常用术语词汇表 ...

  7. python英语-我们用程序整理出了一份Python英语高频词汇表,拿走不谢!

    原标题:我们用程序整理出了一份Python英语高频词汇表,拿走不谢! 有不少编程初学者会问这样一个问题:我英语不好,还能不能学编程?会不会有影响? 我的回答是:能,会. 能学,是因为虽然编程用的都是英 ...

  8. 超全机器学习术语词汇表

    from: https://www.jianshu.com/u/c9bd3225567e A 准确率(accuracy) 分类模型预测准确的比例.在多类别分类中,准确率定义如下: 在二分类中,准确率定 ...

  9. 谷歌开发者机器学习词汇表:纵览机器学习基本词汇与概念

    选自Google Developers 机器之心编译 机器之心曾开放过人工智能术语集 ,该术语库项目目前收集了人工智能领域 700 多个专业术语,但仍需要与各位读者共同完善与修正.本文编译自谷歌开发者 ...

最新文章

  1. 使用vscode连接服务器写代码指南
  2. 数学帅才克莱因及其启示
  3. EventBus3.0源码解析
  4. rman-incarnation
  5. php随机生成验证码代码
  6. Jquery创建JSON对象
  7. 企业安全建设之浅谈数据防泄露
  8. 摆胯教学分解_聚十年求索,筑理想课堂——厦门市梧侣学校十周年庆区级教学小学数学(数与形)...
  9. 6月首批国产游戏获批:共55款 腾讯B站上榜
  10. 如何把一个数据库的数据copy到另外一个数据库
  11. 读书笔记《Java开发技术-在架构中体验设计模式和架构之美》
  12. 硬件时序图软件——TimeGen_v3.3
  13. 易飞ERP工作流解决方案之【第三方OA系统集成】
  14. 强化学习的A3C算法应用(训练Atari游戏)
  15. ttest求pvalue_关于ttest里的P值
  16. os系统服务器防火墙怎么关闭,mac防火墙如何关闭
  17. 泰迪云课堂大数据培训平台业务介绍
  18. 2021恒生电子面经(校招实习)
  19. 第三代战斗机的特点有哪些
  20. c语言初学知识点,C语言学习关于数据类型的一些知识点(初学者)

热门文章

  1. 维山VS073高拍仪技术规格说明书
  2. thinkphp3.2乐观锁源码解读与优化
  3. js 操作数组 push splice
  4. 抖音直播间获取高清视频地址
  5. background-image图片不存在时显示默认照片
  6. 【DFS】【剪枝】数独(简单版)
  7. 微信小程序中wxml的标签说明
  8. 别只关注地段、户型 楼盘隐形品质不能忽视
  9. MySQL主从之GTID主从
  10. Linux内存访问(Liunx驱动3)