自然语言处理中文本的token和tokenization

1.1 概念和工具的介绍

tokenization就是通常所说的分词,分出的每一个词语我们把它称为token

常见的分词工具很多,比如:

  • jieba分词:https://github.com/fxsjy/jieba

  • 清华大学的分词工具THULAC:https://github.com/thunlp/THULAC-Python

1.2 中英文分词的方法

  • 把句子转化为词语

    • 比如:我爱深度学习 可以分为[我,爱, 深度学习]

  • 把句子转化为单个字

    • 比如:我爱深度学习的token是[我,爱,深,度,学,习]

自然语言处理中文本的token和tokenization相关推荐

  1. 17.1 自然语言处理中文本数据增强方法

    文章目录 1.方法综述 2.同义词替换 2.1 基于近义词表的替换 2.2 基于词向量的替换 2.3 MASK语言模型的替换 2.4 非核心词替换 3. 回译 4. 加入随机噪声 4.1 改变语法形式 ...

  2. 自然语言处理中的文本聚类

    声明:代码的运行环境为Python3.Python3与Python2在一些细节上会有所不同,希望广大读者注意.本博客以代码为主,代码中会有详细的注释.相关文章将会发布在我的个人博客专栏<Pyth ...

  3. NLP——day37 读论文:自然语言处理中的文本表示研究(综述类 2022 软件学报)

    自然语言处理中的文本表示研究 资源下载地址(原论文和笔记) INTRODUCTION chap1文本表示基础 1.1 什么是文本表示? 1.2 为什么进行文本表示 chap2 主流技术和方法 文本的离 ...

  4. 自然语言处理中的语言模型与预训练技术的总结

    目录 0. 背景 1. 统计语言模型(Statistical Language Model) 马尔科夫假设(Markov Assumption) N-Gram模型 拉普拉斯平滑(Laplace Smo ...

  5. 自然语言处理中的迁移学习(上)

    作者:哈工大SCIR 徐啸 来源:Transfer Learning in Natural Language Processing Tutorial (NAACL 2019) 作者:Sebastian ...

  6. 自然语言处理中的迁移学习(下)

    作者:哈工大SCIR 徐啸 本文小结:本文为教程的第二篇,包含教程的 3-6 部分. 提纲 介绍:本节将介绍本教程的主题:迁移学习当前在自然语言处理中的应用.在不同的迁移学习领域中,我们主要定位于顺序 ...

  7. 《Python自然语言处理-雅兰·萨纳卡(Jalaj Thanaki)》学习笔记:08 自然语言处理中的机器学习方法

    08 自然语言处理中的机器学习方法 8.1 机器学习的基本概念 8.1.1 ML类型 8.1.2 ML 监督学习 8.1.3 无监督学习 8.1.4 强化学习 8.2 自然语言处理应用的开发步骤 8. ...

  8. vs需要迁移_赛尔笔记 | 自然语言处理中的迁移学习(上)

    点击上方"MLNLP",选择"星标"公众号 重磅干货,第一时间送达 作者:哈工大SCIR 徐啸 转载自公众号:哈工大SCIR 来源:Transfer Learn ...

  9. 【发展史】自然语言处理中的预训练技术发展史—Word Embedding到Bert模型

    目录 自然语言处理中的预训练技术发展史-Word Embedding到Bert模型 1 图像领域的预训练 2 Word Embedding考古史 3 从Word Embedding到ELMO 4 从W ...

最新文章

  1. C语言求数字菱形,打印数字菱形,急啊,帮帮小女子啊。。。
  2. AE教程:学会这个,你做的Logo就可以单独出道了
  3. 我的年龄又快被5整除了......
  4. RRID和CAS是什么?
  5. java word 加密_如何通过Java实现加密、解密Word文档
  6. SQLAlchemy中filter_by()和filter()的用法不同
  7. (进阶篇)Redis6.2.0 集群 主从复制_原理剖析_02
  8. Jeecg社区wiki在开放,终于可以在线看文档啦!!!
  9. 测试工程师---笔试面试题
  10. 使用SoapUI测试Web Service
  11. 工作笔记——海康威视网络摄像头接入华为云VIS服务
  12. com.android.packageinstaller,Android PackageInstaller 安装和卸载
  13. 显微镜下的大明内容_《显微镜下的大明》读后感
  14. 语音社交APP系统开发,提供纯粹的语音社交
  15. 各个银行卡号正则表达式,银行卡信息获取方法
  16. openLayers 学习思维导图
  17. 使用opencv批量裁剪保存图片
  18. 定制xdoclet 标签
  19. 软件工程知识点复习第二章
  20. Java代码测试大端小端

热门文章

  1. 评分9.7!这本Python书彻底玩大了?程序员:真香!
  2. 漫画:5分钟了解什么是动态规划?
  3. 33关Python游戏,测试你的爬虫能力到底及格不?
  4. 吴文俊人工智能科学技术奖:陆汝钤院士、百度王海峰等获奖
  5. AI一分钟 | 李开复:AI创业公司估值今年会降20%~30%;谷歌让搜索结果加载速度提升两倍...
  6. 必读 | 在转行AI之前,先了解下2018年人工智能发展的八大趋势
  7. 起售价近5500,嘲讽了iPhone X的华为Mate 10却没用上人脸识别
  8. 大厂需要这样的Java工程师
  9. Java日志体系权威总结
  10. Vert.x!这是目前最快的 Java 框架