本 Chat 首先简单介绍了自然语言处理中中文分词的概念和应用场景。然后通过两个简单的小例子展示了算法的步骤。接着编写了 Python 代码,并在《红楼梦》上做了测试。最后,总结了我在写代码中遇到的问题,以避免读者犯同样的错误。

目录:

分词算法的概念

分词算法的应用

具体算法

Python 实现

实例:《红楼梦》分词

1. 分词算法的概念

中文分词就是将中文语句中的词汇按照使用时的含义切分出来的过程,也就是将一个汉字序列切分成一个个有单独含义的词语。我们知道,在英文的行文中,单词之间是以空格作为自然分界符的,而中文只是字、句和段能通过明显的分界符来简单划界,唯独词没有一个形式上的分界符,虽然英文也同样存在短语的划分问题,不过在词这一层上,中文比之英文要复杂得多、困难得多。

分词算法是自然语言处理(Nature Language Processing, NLP)中的基础。完整的中文自然语言处理过程一般包括以下五种中文处理核心技术:分词、词性标注、命名实体识别、依存句法分析、语义分析。

2. 分词算法的应用

下面从搜索引擎和机器翻译两方面介绍一下分词算法的应用。

2.1 搜索引擎

比如,在百度中搜索“科比詹姆斯”,在搜索之前,将“科比詹姆斯”这 5 个字拆分,变成了 “科比” 和 “詹姆斯”两个词,最终是以“科比” 和 “詹姆斯”两个词为关键词进行搜索,而不是直接搜索 5 个字。

2.2 机器翻译

比如,在有道词典中翻译“研究生命起源”。让机器直接翻译这6个字肯定是翻译不出来的,通过结果我们就可以看出,在翻译前,将“研究生命起源”6 个字拆分成了“研究”,“生命”和“起源”3 个词,再进行翻译之后组合在一起。

2.3 手写英文

书本上英文的单词之间总是存在空格,但是手写的英文之间的空格就没那么明显。这也是一个需要分词的场景。

简易中文分词算法(python)_自然语言处理(NLP)中的的中文分词算法及 Python 实现...相关推荐

  1. latex中算法命令_比较Java 8中的命令式和功能性算法

    latex中算法命令 Mario Fusco受欢迎的推文令人印象深刻,显示了类似算法的命令性和功能性方法之间的主要区别实际上是: 势在必行–功能分离pic.twitter.com/G2cC6iBkDJ ...

  2. 大数据分析深度学习在自然语言处理NLP中的应用

    通过深度学习的先进技术,自然语言处理取得了令人难以置信的进步.了解这些强大的模型,并发现这些方法与人类水平的理解有多近(或遥远). 人类有很多感觉,但我们的感官体验通常以视觉为主.考虑到这一点,现代机 ...

  3. tcp中的crc检验算法原理_在数据传输过程中的CRC 算法的简单说明

    CRC校验(循环冗余校验)是数据通讯中最常采用的校验方式.在嵌入式软件开发中,经常要用到CRC 算法对各种数据进行校验.因此,掌握基本的CRC算法应是嵌入式程序员的基本技能.可是,我认识的嵌入式程序员 ...

  4. vrp 节约算法 c++_滴滴技术:浅谈滴滴派单算法

    作者: 王犇 刘春阳 徐哲 来自:滴滴技术 导读:说到滴滴的派单算法,大家可能感觉到既神秘又好奇,从出租车扬召到司机在滴滴平台抢单最后到平台派单,大家今天的出行体验已经发生了翻天覆地的变化,面对着每天 ...

  5. rssi室内定位算法原理_室内定位方案常用的4种定位算法

    目前常见的室内定位技术有超宽带UWB室内定位技术,蓝牙室内定位技术,RFID(无线射频识别)定位,超声波定位,Wi-Fi定位等.室内定位依赖于定位算法,定位算法决定了室内定位的模式.室内定位种类虽然比 ...

  6. java 8 中文字体_在java程序中直接使用中文字体文件

    在java程序中直接使用中文字体文件.代码中的hb.ttf文件请用你自己的中文字体文件代替 java学习 java培训 软件工程师 如何学习java 学习java哪里好 东方清软java培训 清软国际 ...

  7. 简述dijkstra算法原理_理解最短路径——迪杰斯特拉(dijkstra)算法

    1.       迪杰斯特拉算法简介 迪杰斯特拉(dijkstra)算法是典型的用来解决最短路径的算法,也是很多教程中的范例,由荷兰计算机科学家狄克斯特拉于1959年提出,用来求得从起始点到其他所有点 ...

  8. dijkstra最短路径算法视频_单源最短路径(1):Dijkstra 算法

    一:背景 Dijkstra 算法(中文名:迪杰斯特拉算法)是由荷兰计算机科学家 Edsger Wybe Dijkstra 提出.该算法常用于路由算法或者作为其他图算法的一个子模块.举例来说,如果图中的 ...

  9. 用python匹配一段文字中的所有中文

    #正则匹配一段文字中的所有中文 import re string = 'aaddaweh大大的无ausdy五千股qeas华盛顿哈刚过去而过千万股ads' result = re.findall(u&q ...

最新文章

  1. 从Storm和Spark 学习流式实时分布式计算的设计
  2. PHP从入门到跑路(一), 安装PHP环境
  3. solr 修改端口号
  4. 计算机二级考试c语言冲刺,计算机二级C语言考试冲刺练习题
  5. SAP 用户账号管理系统
  6. 基于jsp+mysql+Spring+SpringMVC+mybatis的房源信息管理系统
  7. ubuntu命令行安装teamview
  8. 解决微信开发者工具的不信任问题
  9. 【亚马逊广告策略】探索自动投放和手动投放的选择并做到广告一致性你都懂吗?
  10. 古董笔记本GTX1050+CUDA9.2+Pytorch安装
  11. 远程过程调用失败而且未执行怎么办
  12. L1-6 斯德哥尔摩火车上的题
  13. 怎么把PDF文件拆分开来?教你两种拆分方法
  14. android使用磁场传感器和加速度传感器确定当前朝向(即:方位角),以及常见问题的解决办法
  15. 金海佳学C++primer 练习9.15/9.16
  16. 商家自建流量池:10种微信引流的方法,值得学习社群营销的商家收藏 !
  17. 史上最全面试题(CSS)
  18. python爬取B站视频历史弹幕,并去除同标签的重复弹幕,暴力拿下所有弹幕。
  19. word密码忘了怎么解开
  20. 远程桌面无法连接到远程计算机,因为从远程计算机接受的身份验证证书,仅允许运行使用网络级别身份验证的远程桌面计算机连接失败处理方法(远程桌面连接)...

热门文章

  1. Nginx 之 Rewrite 规则
  2. 煤油清洗用消泡剂对于煤油中的泡沫真有效果泡沫能除!
  3. 为什么ClickHouse分析数据库这么强?(原理剖析+应用实践)
  4. 敏捷软件开发中的精神食粮
  5. 【录音取证篇】录音设备鉴定名词解释
  6. Java实现无重复抽签,人数可以自定义
  7. 学计算机方面该怎样保养眼睛,操作电脑时该怎样保护眼睛
  8. Python 标准库之 bisect 二分查找
  9. pandas多列筛选
  10. 蓝桥杯scratch集训操作题:数的判断和计算