前几天,公司的几个华科的实习生他们做文本挖掘的项目,说啥Word2vec啥的,好像是做文本分析、分词啥的吧。

今天无意间在网上发现了这个好东西:语意分析系统,可以快速对文本进行分析。

简介

NLPIR是一套专门针对原始文本集进行处理和加工的软件,提供了中间件处理效果的可视化展示,也可以作为小规模数据的处理加工工具。用户可以使用该软件对自己的数据进行处理。NLPIR分词系统前身为2000年发布的ICTCLAS词法分析系统,从2009年开始,为了和以前工作进行大的区隔,并推广NLPIR自然语言处理与信息检索共享平台,调整命名为NLPIR分词系统。NLPIR 系统支持多种编码(GBK 编码、UTF8 编码、BIG5 编码)、多种操作系统(Windows, Linux, FreeBSD 等所有主流操作系统)、多种开发语言与平台(包括:C/C++/C#,Java,Python,Hadoop 等)。

NLPIR工程包简介

License--一个月的授权文件;如果发生授权过期的情况,可以在此目录下下载更新。NLPIR_Demo--组件功能演示demo(NLPIR大数据搜索与挖掘共享开发平台)NLPIR_SDK--13个组件包,提供了用于技术二次开发的基础工具集,各个组件API可以无缝地融合到客户的各类复杂应用系统之中,可兼容Windows,Linux, Android,Maemo5, FreeBSD等不同操作系统平台,可以供Java,C,C#等各类开发语言使用。

功能介绍

NLPIR大数据搜索与挖掘共享开发平台的十一种功能:全文精准检索-JZSearch支持文本、数字、日期、字符串等各种数据类型,多字段的高效搜索,支持AND/OR/NOT以及NEAR邻近等查询语法,支持维语、藏语、蒙语、阿拉伯、韩语等多种少数民族语言的检索。可以无缝地与现有文本处理系统与数据库系统融合。

新词发现从文件集合中挖掘出内涵的新词语列表,可以用于用户专业词典的编撰;还可以进一步编辑标注,导入分词词典中,从而提高分词系统的准确度,并适应新的语言变化。

分词标注对原始语料进行分词、自动识别人名地名机构名等未登录词、新词标注以及词性标注。并可在分析过程中,导入用户定义的词典。

统计分析与术语翻译针对切分标注结果,系统可以自动地进行一元词频统计、二元词语转移概率统计(统计两个词左右连接的频次即概率)。针对常用的术语,会自动给出相应的英文解释。

大数据聚类及热点分析-Cluster能够从大规模数据中自动分析出热点事件,并提供事件话题的关键特征描述。同时适用于长文本和短信、微博等短文本的热点分析。

大数据分类过滤针对事先指定的规则和示例样本,系统自动从海量文档中筛选出符合需求的样本。

自动摘要-Summary能够对单篇或多篇文章,自动提炼出内容的精华,方便用户快速浏览文本内容。

关键词提取-KeyExtract能够对单篇文章或文章集合,提取出若干个代表文章中心思想的词汇或短语,可用于精化阅读、语义查询和快速匹配等。

文档去重-RedupRemover能够快速准确地判断文件集合或数据库中是否存在相同或相似内容的记录,同时找出所有的重复记录。

HTML正文提取-HTMLPaser自动剔除导航性质的网页,剔除网页中的HTML标签和导航、广告等干扰性文字,返回有价值的正文内容。适用于大规模互联网信息的预处理和分析。

编码自动识别与转换自动识别文档内容的编码,并进行自动转换,目前支持Unicode/BIG5/UTF-8等编码自动转换为简体的GBK,同时将繁体BIG5和繁体GBK进行繁简转化。

—————————————————————————

【版权申明】

如非注明,本站文章均为 数据小雄 原创,转载请注明出处:数据小雄博客,并附带本文链接,谢谢合作!

本文地址:http://www.zhangzhengxiong.com/?id=31。

—————————————————————————

python语义分析_NLPIR语义分析系统——文本分析利器相关推荐

  1. linux文本分析利器awk

    转 快速理解linux文本分析利器awk 原文链接 杜亦舒 性能与架构 awk是什么 如果工作中需要操作linux比较多,那么awk是非常值得学习的 awk是一个极其强大的文本分析工具,把文件逐行的读 ...

  2. python使用jieba模块进行文本分析和搜索引擎推广“旅行青蛙”数据分析实战

    目录 1 需要导入的模块 2 中文分词基础步骤 2.1 载入数据 2.2 分词 2.3 分词后的数据转回文本 2.4 保存分词后的文本为文本文件 3 添加自定义词典 3.1 方法1:直接定义词典列表 ...

  3. python实现对小说的文本分析(人物关系图,人物词云等)

    文本分析 0.效果图 这里有些"二人"."不会"等词语没用筛选掉,手动筛选即可. 1.整体思路: 调用的库:jieba,matplotlib,networkx, ...

  4. Python求解多机系统暂态分析

    求解多机系统暂态分析 好吧,我不装了,这是一个老师布置的题目,题目也是电力系统分析的C17课后第7题. 先放一下原题: 我想对于这类题,编写代码之前的工作量也很大,先是把等值电路求解出来,然后求发电机 ...

  5. python设计及论文-python能否实现学术论文文本分析的功能?

    泻药,我使用正则表达式和简单字符串匹配的组合在Python中解析文本. 约瑟夫海勒捕捉22是我最喜欢的小说.我最近读完了 ,喜欢整本书中语言的创造性使用和荒谬人物的互动.对于我的可视化类,选择文本作为 ...

  6. python绘制社会关系网络图_文本分析之制作网络关系图——Python

    今天给大家带来我一个脚本,用来分析社会网络关系. 这个图我没有用到gephi或者其他的工具,是我用python纯脚本运行出来的.简单的实现了封装,大家有兴趣可以下载下脚本,运行下. 原理知识 我就简单 ...

  7. tidytext | 耳目一新的R-style文本分析库

    腾讯课堂 | Python网络爬虫与文本分析 tidytext是R语言的文本分析包,一般数据会整理为dataframe,每行都是由docid-word-freq组成.有一本R语言的文本挖掘书<T ...

  8. python唐诗分析综合_Python利器之胎教《唐诗三百首》文本分析

    事情是这样的,你们听我讲: 有一天,孕妈妈在家庭群里对准爸爸说,在某猫上买本<唐诗三百首>吧,每天给宝宝读一首唐诗,作为胎教.有图有真相: 作为好吃懒做的准爸爸,听到这个消息的瞬间,表情是 ...

  9. python数据获取与文本分析_python文本分析之处理和理解文本

    前言: 在进行自然语言的建模(NLP)时,我们通常难以处理文字类型的数据,因此在常见的机器学习项目中,数据的格式是结构化的,就算在视觉处理的时候也是一个矩阵或者高维张量的形式.那么文字类型的数据我们应 ...

  10. 基于python的智能文本分析 书_Python文本分析

    译者序 前言 第1章自然语言基础 11自然语言 111什么是自然语言 112语言哲学 113语言习得和用法 12语言学 13语言句法和结构 131词 132短语 133从 ...

最新文章

  1. android中的json二之json的读写
  2. Pandas/networkx图分析简单入门
  3. Linux EOF使用
  4. 学习ccna,ccnp中如何提高英语问题
  5. C语言万年历 年历月历日历都要,c语言万年历
  6. 自学it18大数据笔记-第二阶段hadoop-day11——会持续更新……
  7. 使用mongoose来创建嵌入式websocket客户端和http客户端
  8. mysql8 win10_window10下安装多个MySQL8.0
  9. 模拟幅度调制系统抗干扰性能仿真分析[模板]
  10. 10款滑动门代码_jquery 滑动门_js滑动门_tab滑动门_jquery 选项卡_js选项卡_tab选项卡效果(二)
  11. Java Caledar类(日历类)判断本周周数
  12. 样本量估算:随机对照试验(两组均数)比较的样本量计算方法
  13. 渗透测试工程师面试题大全(一)
  14. 一起来吐槽:想颠覆大数据行业的FEB,真的具有价值吗?
  15. HTML基础常识问答(三)
  16. 矩阵的转置(C语言)
  17. 关于如何快速学好,学懂Linux内核。内含学习路线
  18. 项目07城市餐饮店铺选址分析
  19. Jav8 HashMap-putVal() 方法分析
  20. 机器视觉灯光选型指南

热门文章

  1. MATLAB 求导diff
  2. Java编程必备软件
  3. win10电脑性能测试软件,win10系统测试计算机性能的图文方法
  4. 用JS实现图片模糊到清晰预加载效果
  5. vs2010sp1安装失败问题
  6. Python爬虫入门教程 68-100 一招解决爬虫程序卡死问题
  7. 利用计算机发布调度命令时必须严格遵守,调度命令规范格式(22页)-原创力文档...
  8. SMP多核启动(二):PSCI
  9. 数据库系统概念第七版(Database System Concepts 7th)课后习题答案英文版
  10. 职场必备的Excel函数技巧!