中文词典的扩充和组织

楼主gdding()2006-09-04 22:21:44 在 专题开发/技术/项目 / 搜索引擎技术 提问

分词技术是

中文信息处理中的关键技术之一,是信息检索、文本分类、文本聚类等各种文本处理技术的基础。目前中文分词算法逐渐趋于成熟,其分词准确率已基本能满足应用需求。   
            词典在 分词技术中扮演着至关重要的角色。一方面,词典的规模(收录的词条数目)是影响分词准确率的一个重要因素。目前的词典规模都在10万个词条左右,只能满足 于一般的文本(如传统的新闻报道等);随着Internet的广泛普及,日益增加的未登录词对分词技术是一个巨大的挑战,传统的中文词典已越来越难对付目 前对Internet文本的分词要求,因此扩充中文核心词典是一个十分有意义的事情。   
            我最近的一个工作就是新词检测,不寻求优美的检测算法,而只追求最终的效果。 通过对北大天网CWT100G数据集的统计分析,我已经抽取了近100万个新词(当然有一些噪音),其中根据我的评价方法得分最高的前10万条左右的新词 效果相当不错。感兴趣的同志请与我联系:gdding@hotmail.com。以下是其中的一部分新词(其中右列为评分值):   
  保险公司                                                                                     102.1217630598   
  老夫                                                                                             101.4161935225   
  千万                                                                                             101.3831813758   
  玩家                                                                                             99.8747389063   
    网络游戏99.2633686672   
  贝克汉姆                                                                                     98.6127246394   
  百万                                                                                             97.8989631474   
  萨达姆                                                                                         97.5115719667   
  律师事务所                                                                                 97.4145752689   
  信息技术                                                                                     96.6513122347   
  微软                                                                                             96.0803421691   
  姚明                                                                                             95.9885301657   
  新技术                                                                                         95.9283498033   
  帮主                                                                                             94.3097484228   
  化成                                                                                             94.2552672475   
  放入                                                                                             94.2174890261   
  闻言                                                                                             94.0920991382   
  短信                                                                                             94.0665508006   
  中国足球                                                                                     93.9756640568   
  航空公司                                                                                     93.3904036729   
  公司总经理                                                                                 93.3007389538   
  解决方案                                                                                     92.9160832220   
  主管部门                                                                                     92.8771068835   
  冷冷                                                                                             92.6888841223   
  管理部门                                                                                     92.6264385327   
  数百                                                                                             92.4165308552   
  系列产品                                                                                     92.4150737852   
  基础设施                                                                                     92.4018776391   
  管理系统                                                                                     92.3439132146   
  证券市场                                                                                     92.2664635335   
  点击                                                                                             92.2370180445   
  什麽                                                                                             91.9666818061   
  学家                                                                                             91.9266075102   
  中国市场                                                                                     91.7831884230   
  道长                                                                                             91.7680148179   
  新产品                                                                                         91.7312686223   
  万元                                                                                             91.6393529512   
  掌门                                                                                             91.5954090766   
  拉住                                                                                             91.4054745027   
  部份                                                                                             91.3910453982   
  剑法                                                                                             91.3175642456   
  抱住                                                                                             91.2809315778   
  小白                                                                                             91.0912774799   
  安全生产                                                                                     90.8164919757   
  高达                                                                                             90.8024993815   
  皇马                                                                                             90.6885143725   
  数码相机                                                                                     90.6165621700   
  证券公司                                                                                     90.5219773434   
  副主任                                                                                         90.3355731737   
  国际市场                                                                                     90.2767902975   
  信息系统                                                                                     90.2392757515   
  送回                                                                                             90.1219871204   
  金融机构                                                                                     90.1152273859   
  产品质量                                                                                     90.1095372176   
  环境保护                                                                                     89.8504855693   
  摇摇头                                                                                         89.8206738428   
  风险投资                                                                                     89.5960110694   
    经济增 长                                                                                     89.5194082573   
  公安机关                                                                                     89.5085702094   
  领导干部                                                                                     89.4859910310   
  米卢                                                                                             89.4656572355   
  链接                                                                                             89.4646065803   
    
          词典在分词技术中扮演的重的角色还体现在,词典的存储组织方式是影响分词速度的关键因素,对于静态词典来说,采用双数组TRIE树来词典组织是非常不错的 选择,这种组织方式使得在查找词条时只需要作几次加法即可判断一个词条是否在词典中,因此查找速度极快,再加上词典的装载开销很小(只是读入数据而已), 且很少占用内存,因此十分适合中文分词;本人最近的试验标明,基于双数组TRIE树来组织词典,最大匹配分词的速度可达52MB/秒(测试环境:CPU   P4   3.2G,内存512MB)。本人将在后续的文章中介绍这种词典组织方法,并将本人写的词典管理和最大匹配程序打包,供各位同仁共享。感兴趣的读者可与我 联系:gdding@hotmail.com。

中文词典的扩充和组织相关推荐

  1. 苹果Mac自带词典完美扩充

    -- 简书作者 谢恩铭 转载请注明出处 内容简介 前言 准备工作 实作 后记 1. 前言 作为一个使用苹果Mac电脑的程序员,非常喜欢Mac OS系统的便捷和高效.基本上我可以说,用过Mac OS,就 ...

  2. 苹果系统里面 dictionary 如何加入中文词典

    转载自:http://beike.iteye.com/blog/375119 豆瓣上的YYQ大侠写的   我曾经介绍过Mac下的免费词典软件TranslateIt! 而在新版Mac OS X - Le ...

  3. python中文词典构建_python-构建英语学习词典

    1.从网上下载一个机器学习有关的中英文对照文件,转换为csv文件格式. import numpy import os #---------------------------------------- ...

  4. 从字到词,大词典中文BERT模型的探索之旅

    导语: BERT模型自诞生以来统治了各项NLP任务的榜单,谷歌也针对中文给出了基于字的模型.然而我们知道词是语言最重要的组成部分,因此,一个自然的想法就是做基于词的BERT模型.但是受限于显存,谷歌原 ...

  5. bert 中文 代码 谷歌_从字到词,大词典中文BERT模型的探索之旅

    导语: BERT模型自诞生以来统治了各项NLP任务的榜单,谷歌也针对中文给出了基于字的模型.然而我们知道词是语言最重要的组成部分,因此,一个自然的想法就是做基于词的BERT模型.但是受限于显存,谷歌原 ...

  6. 基于词典的中文情感倾向分析算法设计

    基于词典的中文情感倾向分析算法设计 https://site.douban.com/146782/widget/notes/15462869/note/355625387/   情感倾向可认为是主体对 ...

  7. practice是什么意思_practice是什么意思|practice的中文翻译 - 医学词典

    简明英语-中文词典 ˋpræktIs; ˊpræktis < prac.tice > [常用字] <> practiced, practic.ing, practic.es & ...

  8. 中文情感分析 (Sentiment Analysis) 的难点在哪?现在做得比较好的有哪几家?

    点击上方,选择星标或置顶,每天给你送干货! 阅读大概需要25分钟 跟随小博主,每天进步一丢丢 来自: 知乎 编辑: 深度学习自然语言处理公众号 地址: https://www.zhihu.com/qu ...

  9. python汉字排序_【IT专家】Python中文排序(转载)

    本文由我司收集整编,推荐下载,如有疑问,请与我司联系 Python 中文排序(转载) 2012/02/02 3793 Python 比较字符串大小时,根据的是 ord 函数得到的编码 值.基于它的排序 ...

  10. IK Analyzer 中文分词器

    IK Analyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包.从2006年12月推出1.0版开始, IKAnalyzer已经推出了3个大版本.最初,它是以开源项目Luence为应用 ...

最新文章

  1. ORA-00845 : MEMORY_TARGET not supported on this system(调大数据库内存无法启动)
  2. 谷歌旗下DeepMind开发出编程机器人,已达人类程序员平均水平!
  3. egg前面加什么_跟 egg 有关的英语多半是贬义,goose egg 也八九不离十
  4. 分布式开放消息系统 ( RocketMQ ) 的原理与实践
  5. linux ls -l 详解
  6. 为某个酒店编写程序:酒店管理系统,模拟订房、退房、打印所有房间状态等功能。 1、该系统的用户是:酒店前台。 2、酒店使用一个二维数组来模拟。“Room[][] roo
  7. 小强的HTML5移动开发之路(32)—— JavaScript回顾7
  8. 查询数据库中所有的表的信息
  9. js将html替换字符串,js 替换字符串指定内容 javascript 替换指定位置的字符
  10. Zigbee协议网络相关的东西(1)
  11. 计算机两个活动分区,硬盘无法设置活动分区,硬盘只能有一个活动分区吗
  12. Google浏览器自动翻译失灵
  13. 组装手机DIY时代或将到来
  14. 两台笔记本相连是不是计算机网络,打扰一下,如何将两台笔记本电脑的屏幕连接在一起?...
  15. 获取网页上没有下载链接的视频音频资源 火狐浏览器插件 Video DownloadHelper
  16. 进入注册表的一些常用命令
  17. python excelwriter保存路径_从Excel中解救你!如何用Python实现报表自动化
  18. 计算机算法的概念教案,高中信息技术 1.2 算法和算法的描述教案
  19. Linux 中实时查看日志的3种方法
  20. 溪谷软件游戏工作室管理系统V2.1.0 游戏公会OA系统

热门文章

  1. 数据库文档自动生成工具
  2. 加拿大工作签证-(1)
  3. 编程学习视频网站汇总
  4. LOAP引擎:clickhouse 01: 介绍、安装及集群搭建
  5. 道格拉斯-普克抽稀算法 曲线平滑
  6. hook declined to update refs/heads/dev
  7. 齐治运维堡垒机后台命令执行漏洞
  8. 计算机毕业设计:基于springboot框架开发的办公自动化OA系统
  9. 当java 8 lambda遇上uncheck exception
  10. 财务应付结算系统设计-发票(含账单发票差异调整)