一种快速的未登陆词识别方法(原理和实现) 一种快速的未登陆词识别方法(原理和实现)    
    最近网络上关于中文分词的算法已经很多了,在实际应用中每个人根据对中文分词的不同理解写了不同的中文分词算法,可谓百花齐放.
    但现在似乎还没有针对未登陆词的识别算法,有鉴于此,我特地写了一个,抛砖引玉.

算法的假设:     1. 未登陆词是由单字组成的;
    2. 如果一个字同时属于2个未登陆词,那么只选择第一被识别的词;

测试文章:     最近电视剧大长今很火,我就选取了介绍大长今的文章,
    地址:http://www.360doc.com/showWeb/0/0/18183.aspx
    识别结果如下:
        PDH : initialize phrase dictionary
        QuerySpliter reInitialize dictionary.
        长今,职场,闵政浩,韩剧,郑云白,连生,主簿,冷庙高香,义字,医女,张德,剩者,济州,选拨,文秘

算法原理:     首先找出已经分词后的单字,然后查看单字的下一个是否还是单字,如果是,判断这种情况出现的次数,如果超过预订的阀值,那么就确认这是一个新词.
    下面是一个算法的计算过程展示:
    PDH : initialize phrase dictionary
    QuerySpliter reInitialize dictionary.
    >>>8,9;9,10
    长今
    >>>237,238;238,239
    职场
    >>>595,596;596,597;597,598
    闵政浩
    >>>189,190;190,191
    韩剧
    >>>1111,1112;1112,1113;1113,1114
    郑云白
    >>>599,600;600,601
    连生
    >>>610,611;611,612
    主簿
    >>>975,976;976,977;977,978;978,979
    冷庙高香
    >>>1233,1234;1234,1235
    义字
    >>>559,560;560,561
    医女
    >>>561,562;562,563
    张德
    >>>3114,3115;3115,3116
    剩者
    >>>534,535;535,536
    济州
    >>>580,581;581,582
    选拨
    >>>2071,2072;2072,2073
    文秘
    本算法是在:小叮咚分词的基础上进行的.
    欢迎大家一起交流,改进这个算法.

转载于:https://www.cnblogs.com/webcool/archive/2005/12/28/306708.html

一种快速的未登陆词识别方法(原理和实现)相关推荐

  1. 未登陆词/停用词建立和使用

    refer:https://wenku.baidu.com/view/0029a79a376baf1ffd4fad8d.html https://wenku.baidu.com/view/0029a7 ...

  2. 一种快速的公交专用车道检测方法

    一种快速的公交专用车道检测方法 关键词:公交车,车道线检测,摄像头 时间:2012-09-19 15:56:48      来源:中电网 目前,国内外学者已经提出了很多车道线检测算法,主要分为两类:一 ...

  3. 人脸识别最低像素_一种低分辨率条件下的人脸识别方法与流程

    本发明涉及生物识别技术领域,具体涉及一种低分辨率条件下的人脸识别方法. 背景技术: 从上个世纪六十年代以来,人脸识别算法获得了长期的发展,从对单一背景的针对性研究到现在对各种复杂条件的适应,如表情.姿 ...

  4. 浅析计算机用户身份识别技术,一种计算机系统及其用户的身份识别方法和系统与流程...

    技术领域本发明涉及身份识别领域,具体涉及一种计算机系统及其用户的身份识别方法和系统. 背景技术: 随着移动互联网技术的普及,移动支付已经成为人们工作.学习.娱乐.生活中非常重要的一部分.随之,移动支付 ...

  5. 水位尺读数识别 python_一种基于深度学习的水尺识别方法与流程

    本发明涉及水位监测 技术领域: :,具体地说,涉及一种基于深度学习的水尺识别方法. 背景技术: ::近些年来,随着图像处理技术的发展,通过计算机获得图像里的详细信息成为了一种非常方便且高效的方式.将图 ...

  6. 微分算法 非侵入式负荷识别_一种非侵入式用电负荷识别方法与流程

    本发明涉及智能电网领域,具体地,涉及一种非侵入式用电负荷识别方法. 背景技术: 在智能电网环境下,智能量测设备会逐步得到广泛应用,从而能够得到用户负荷准确的.海量的数据.利用数据挖掘方法对用户负荷大数 ...

  7. 一种快速制作立体渲染效果地形图方法

    概述 制作立体渲染地形图的方法网上有很多,常见的方法就是在ArcToolbox中使用山体阴影工具制作山体阴影,再调整透明度,这里给大家介绍另外一种方法,该方法更加的快速. 数据来源 本教程所使用的数据 ...

  8. chatgpt赋能python:Python断句:一种快速且便利的文本处理方法

    Python 断句:一种快速且便利的文本处理方法 Python作为一种通用编程语言,在文本处理方面也有很强的能力.其中,断句是在Python中应用广泛的一种文本处理方法.本篇文章将介绍如何使用Pyth ...

  9. Zen Coding: 一种快速编写HTML/CSS代码的方法

    译自:Smashing Magazine 中文:Zen Coding: 一种快速编写HTML/CSS代码的方法 请尊重版权,转载请注明来源! 在本文中我们将展示一种新的使用仿CSS选择器的语法来快速开 ...

最新文章

  1. Win7中如何删除word模板
  2. elasticsearch使用jetty进行简单的权限控制
  3. Advanced Transact-SQL for SQL Server 2000 学习译文
  4. 2021云栖大会,打卡IoT最全攻略
  5. 疫情之下的求职姿势:视频面试,电话面试这样做,你就已经赢一半了!
  6. java类型转换 float类型转换_Java类型转换 – float(和long)到int
  7. 如何用html构建ios应用,使用HTML5构建iOS原生APP(5)
  8. 安全彻底的卸载工具App Cleaner Uninstaller for Mac
  9. c语言ds12c887,ds12c887引脚图 DS12C887中文资料.doc
  10. 省市区经纬度地图json获取方法
  11. gradle配置阿里Maven仓库
  12. vue项目电商后台管理系统(一)
  13. Bought a new glass in BeiJing Pan Jia Yuan
  14. 计算力矩——计算关节力矩以平衡端点力和力矩
  15. Java全栈学习路线-拭去心尘
  16. 基本概念学习(1001)---外部设备
  17. dellr710服务器(DellR710服务器做完raid安装系统找不到磁盘)
  18. 推荐JSON-handle谷歌插件
  19. 超分辨率——综述文章
  20. 青岛企业掘金大数据时代 大数据时代已经来临

热门文章

  1. POJ 1236 Network of Schools(强连通分量缩点求根节点和叶子节点的个数)
  2. 泥鳅般的const(一个小Demo彻底搞清楚)
  3. linux下php、apache、mysql、curl环境搭建
  4. 数组中的第K个最大元素
  5. 什么命令能把Linux搞死机,Linux常见死机原因
  6. web前端之框架(frameset)
  7. 2019有的图纸打印出来看不清楚_CAD制图初学入门:CAD打印实用技巧
  8. devops .net_DevOps vs. Agile:它们有什么共同点吗?
  9. 2017 开源软件排行_2017年政府和公民如何使用开源解决人类问题
  10. linux 穿件文件_关于Linux的25件事