随着计算机网络的飞速普及,人们已经进入了信息时代。在这个信息社会里,信息的重要性与日俱增,无论是个人,企业,乃至政府都需要获取大量有用的信息。谁掌握了信息,谁就能在竞争中处于有利位置。在这种环境下,搜索引擎技术逐渐成为技术人员的开发热点,而其中最为重要的技术就是分词技术。

  分词技术属于自然语言理解技术的范畴,是语义理解的首要环节,它是能将语句中的词语正确切分开的一种技术。它是文本分类,信息检索,机器翻译,自动标引,文本的语音输入输出等领域的基础。而由于中文本身的复杂性及其书写习惯,使中文分词技术成为了分词技术中的难点。

  词是最小的能够独立活动的有意义的语言成分 。在中文中,词与词之间不存在分隔符,词 本身也缺乏明显的形态标记,因此,中文信息处理 的特有问题就是如何将汉语的字串分割为合理的词语序列,即中文分词,因而分词是中文自然语言处理的第一步,这是不同于其他语言的自然语言处理系统的重要特点,也是影响自然语言处理在中文信息处理中应用的重要因素。

  北京理工大学大数据搜索与挖掘实验室张华平主任研发的NLPIR大数据语义智能分析技术是满足大数据挖掘对语法、词法和语义的综合应用。NLPIR大数据语义智能分析平台是根据中文数据挖掘的综合需求,融合了网络精准采集、自然语言理解、文本挖掘和语义搜索的研究成果,并针对互联网内容处理的全技术链条的共享开发平台。

  NLPIR大数据语义智能分析平台十三大功能:

  精准采集:对境内外互联网海量信息实时精准采集,有主题采集(按照信息需求的主题采集)与站点采集两种模式(给定网址列表的站内定点采集功能)。

  文档转化:对doc、excel、pdf与ppt等多种主流文档格式,进行文本信息转化,效率达到大数据处理的要求。

  新词发现:从文本中挖掘出新词、新概念,用户可以用于专业词典的编撰,还可以进一步编辑标注,导入分词词典中,提高分词系统的准确度,并适应新的语言变化。

  批量分词:对原始语料进行分词,自动识别人名地名机构名等未登录词,新词标注以及词性标注。并可在分析过程中,导入用户定义的词典。

  语言统计:针对切分标注结果,系统可以自动地进行一元词频统计、二元词语转移概率统计。针对常用的术语,会自动给出相应的英文解释。

  文本聚类:能够从大规模数据中自动分析出热点事件,并提供事件话题的关键特征描述。同时适用于长文本和短信、微博等短文本的热点分析。

  文本分类:根据规则或训练的方法对大量文本进行分类,可用于新闻分类、简历分类、邮件分类、办公文档分类、区域分类等诸多方面。

  摘要实体:对单篇或多篇文章,自动提炼出内容摘要,抽取人名、地名、机构名、时间及主题关键词;方便用户快速浏览文本内容。

  智能过滤:对文本内容的语义智能过滤审查,内置国内最全词库,智能识别多种变种:形变、音变、繁简等多种变形,语义精准排歧。

  情感分析:针对事先指定的分析对象,系统自动分析海量文档的情感倾向:情感极性及情感值测量,并在原文中给出正负面的得分和句子样例。

  文档去重:快速准确地判断文件集合或数据库中是否存在相同或相似内容的记录,同时找出所有的重复记录。

  全文检索:支持文本、数字、日期、字符串等各种数据类型,多字段的高效搜索,支持AND/OR/NOT以及NEAR邻近等查询语法,支持维语、藏语、蒙语、阿拉伯、韩语等多种少数民族语言的检索。

  编码转换:自动识别内容的编码,并把编码统一转换为其他编码。

  中文分词技术应时代的要求应运而生,在很大程度上满足了人们对自然语言处理的需要,解决了人和计算机交流中的一些障碍;但中文分词技术也存在很多困难,我们相信在未来的几年里,通过对中文分词技术的深入研究,必将开发出高质量、多功能的中文分词算法并促进自然语言理解系统的广泛应用。

转载于:https://www.cnblogs.com/ljrj/p/10728459.html

NLPIR汉语分词为自然语言信息处理提供新方法相关推荐

  1. NLPIR汉语分词为自然语言处理提供新方向

    随着计算机网络的飞速普及,人们已经进入了信息时代.在这个信息社会里,信息的重要性与日俱增,无论是个人,企业,乃至政府都需要获取大量有用的信息.谁掌握了信息,谁就能在竞争中处于有利位置.在这种环境下,搜 ...

  2. ICTCLAS2013(NLPIR汉语分词系统) Java版本的使用方法

    这个工具是什么?先看看他的官方介绍吧: NLPIR汉语分词系统(又名ICTCLAS2013),主要功能包括中文分词:词性标注:命名实体识别:用户词典功能:支持GBK编码.UTF8编码.BIG5编码.新 ...

  3. 新书上市 | Vue 3.0 核心源码解析,这本书给Vue学习提供新方法

    Vue.js 作为一款极简的 MVVM 框架,因其轻量.易上手,得到了众多开发者的喜爱. 自从 2014 年 Vue 诞生以来,这个框架设计的初衷,尤大说只是为了设计一个让自己用起来舒服的框架,随着受 ...

  4. ZH奶酪:Java调用NLPIR汉语分词系统

    NLPIR工具 支持自定义词表: 可以离线使用: 下载地址:http://ictclas.nlpir.org/newsdownloads?DocId=389 在线演示:http://ictclas.n ...

  5. Python下如何调用NLPIR(ICTCLAS2013)分词系统

    NLPIR汉语分词系统-Python下如何调用NLPIR(ICTCLAS2013) 在国内研究自然语言处理的人大概都知道ICTCLAS分词系统的大名.该系统是由张华平博士开发的基于层叠隐性马可夫链的分 ...

  6. 自然语言处理简介(1)---- 服务梳理与传统汉语分词

    文章大纲 1.Nlp技术体系简介 1.1 基础技术 1.2 Nlp 核心技术 1.3 NlP+(高端技术) 2.知名NLP 服务系统简介 2.1汉语分词系统ICTCLAS 2.2 哈工大语言云(Lan ...

  7. 《自然语言处理实战入门》 ---- 第4课 :中文分词原理及相关组件简介 之 汉语分词领域主要分词算法、组件、服务(上)...

    目录 0.内容梗概 1. 基于传统统计算法的分词组件 1.1 hanlp : Han Language Processing 1.2 语言技术平台(Language Technology Platfo ...

  8. 灵玖Nlpir Parser语义智能系统精准汉语分词

    词是最小的能够独立活动的有意义的语言成分.在汉语中,由于词与词之间不存在分隔符,词本身也缺乏明显的形态标记,因此汉语浅层分析的特有问题就是如何将汉语的字串分割为合理的词语序列. 实际上,汉语分词的主要 ...

  9. 自然语言处理:汉语分词

    NLPIR/ICTCLAS 汉语分词系统(http://ictclas.nlpir.org) PyNLPIR 是该汉语分词系统的 python 封装版(http://pynlpir.readthedo ...

最新文章

  1. Redis 高级特性(1)—— 事务 过期时间 排序
  2. canvas绘制时钟
  3. Til the Cows Come Home (最短路问题, 模板)
  4. 基于SNN脉冲神经网络的FPGA实现介绍
  5. Spring声明式事务管理
  6. 基于mindspore的口罩检测训练与在线推理
  7. OPGL+GLFW+GLEW配置详细步骤
  8. asp.net web常用控件FileUpload(文件上传控件)
  9. sqlserver导入execl数据ACE.OLEDB.12.0错误
  10. ctfshow-萌新-web14( 曲线救国-POST请求绕过获取网站敏感信息)
  11. selenium+python学习总结-mac
  12. (非本校)湖南工业大学个人选拔赛第一场 解题报告
  13. 小甲鱼python课后题答案_小甲鱼python课后习题总结
  14. 搜狗输入法按shift键切换到英文时会清空已输入字符的问题
  15. Fluent瞬态结果导出为Ensight格式
  16. 滴滴裁员并不代表互联网进入寒冬,只是精细化管理时代到来了
  17. python(decorator)
  18. Web认证如何对接第三方认证平台?
  19. MATLAB删除图例中的多余线条
  20. jquery+ajax分页

热门文章

  1. 科学的整理计算机中的文件,如何快速整理电脑中的文件?
  2. RedHat下QT程序打包方法
  3. KT6368A的HID蓝牙双模版本_蓝牙键盘鼠标扫码枪方案介绍
  4. iOS直播开播端概述
  5. 学习笔记-操作系统发展史
  6. linux查询CPU信息几种方式
  7. 几行代码迅速提取音频,YYDS!
  8. ZEKU2021数字IC验证笔试题(解析)
  9. Linux 学习阶段总结admin
  10. 解决图片下方的缝隙问题(display : inherit 或者 vertical-align : middle)