java 语义分析 开源
语义分析
LingPipe的优势是:
- 比较全面的覆盖自然语言处理的各个分支,文本分词,聚类,语义情感分析,领域知识学习等等
- 具有全套在research上免费的源码,样列代码,测试代码(商业与非商业均同一套代码),并且文档详细,对于其中模型所参考的论文都引用出来,适合研究学习.
- 作为相对开源资源缺少的领域,项目一直持续更新中.
包含的模块:
- 主题分类(Top Classification) : 基于文本语言模型训练,归类
- 命名实体识别(Named Entity Recognition):基于first-best, n-best and per-entity confidencemodes识别,以及训练与评估识别器
- 聚类(Clustering): 基于single-link andcomplete-link多层聚类,包裹一些聚类评估技术
- 词性标注(Part-of Speech Tagging):
- 句题检测(Sentence Detection):
- 拼写更正(Spelling Correction):基于"你要找的是"风格的检查引擎
- 数据库文本挖掘(Database Text Mining)
- 字符串比较(String Comparison) :基于距离与相似度测量,包括权重距离,TF/IDF距离,Jaccard distance, Jaro-Winkler distance,等
- 兴趣短语检测(Interseting Phrase Detection)
- 字符语言建模(Character Language Modeling)
- 中文分词(Chinese WordSegmentation)基于空格分割类似训练库,机器学习,发现认知新词
- 数据库文本挖掘(Database Text Mining)
- 情感分析(Sentiment Analysis)基于文本聚类
- 断字识音(Hyphenation and Syllabification)
- 语言辨别(Language Identification)
- 奇异值分解(Singular Value Decomposition)
- 逻辑回归 (Logistic Regression)
- 期望最大化(Expectation Maximization)
- 词义排歧(Word Sense Disambiguation)
LingPipe包含资源:
- Papaer&language material :source,介绍中均包含有所引用资源
目前个人应用LingPipe包中的中文分词,结合情感分析模块研究中文情感检测与辨别。API接口均已高度概括化,便于快速实现,不过所运用的算法需要详尽的分析。
- 中文自然语言处理工具包 FudanNLP
FudanNLP主要是为中文自然语言处理而开发的工具包,也包含为实现这些任务的机器学习…
- Java自然语言处理 LingPipe
LingPipe是一个自然语言处理的Java开源工具包。LingPipe目前已有很丰富的功能,包括…
- 自然语言处理工具 OpenNLP
OpenNLP 是一个机器学习工具包,用于处理自然语言文本。支持大多数常用的 NLP 任务…
- 自然语言工具包 NLTK
NLTK 会被自然地看作是具有栈结构的一系列层,这些层构建于彼此基础之上。那些熟悉…
- 自然语言处理工具 CRF++
CRF++是著名的条件随机场开源工具,也是目前综合性能最佳的CRF工具。CRF++本身已经…
- 分布式在线机器学习框架 Jubatus
Jubatus 是一个分布式处理框架和机器学习库,包含以下功能: 在线机器学习库,包括…
- 机器学习软件包 Mallet
Mallet是专门用于机器学习方面的软件包,此软件包基于java。通过mallet工具,可以进…
- 大规模知识加速器 LarKC
欧盟第7框架计划(FP7)的LarKC项目的目标是开发大规模知识加速器(LarKC,其发音为“…
- DKPro Core
DKPro Core 是基于 Apache UIMA 框架之上的自然语言处理(NLP)的软件组件。DKPro…
- TextTeaser
TextTeaser是一个自动摘要算法,结合了自然语言处理的力量和机器学习产生好结果。…
OpenNLP
FudanNLP
Standford NLP
机器学习
Support Vector Machine
- SVMlight
An implementation of Vapnik's Support Vector Machine
- LIBSVM
A Library for Support Vector Machines
Decision Tree
- C4.5
The "classic" decision-tree tool, developed by J. R. Quinlan Tutorial
Maximum Entropy
- YASMET
Yet Another Small MaxEnt Toolkit
Conditional Random Field
- CRF++
A simple, customizable, and open source implementation of Conditional Random Fields (CRFs) for segmenting/labeling sequential data
自然语言处理
综合
- OpenNLP
An organizational center for open source projects related to natural language processing
- CMU Statistical Language Modeling Toolkit
A suite of UNIX software tools to facilitate the construction and testing of statistical language models
- The Dragon ToolKit
A Java-based development package for academic use in information retrieval (IR) and text mining. Include many NLP tools
- LingPipe
A suite of Java libraries for the linguistic analysis of human language, including
- track mentions of entities (e.g. people or proteins);
- link entity mentions to database entries;
- uncover relations between entities and actions;
- classify text passages by language, character encoding, genre, topic, or sentiment;
- correct spelling with respect to a text collection;
- cluster documents by implicit topic and discover significant trends over time; and
- provide part-of-speech tagging and phrase chunking.
- Natural Language Toolkit
Open source Python modules, linguistic data and documentation for research and development in natural language processing and text analytics, with distributions for Windows, Mac OSX and Linux.
- Antelope
- Advanced Natural Lange Object-oriented Processing Environment.包括一系列工具(特别c#的stanford parser)
分词
- ICTCLAS
中科院的中文分词系统
- Stanford Chinese Word Segmenter
A Java implementation of a CRF-based Chinese Word Segmenter
词性标注
- Brill tagger
A error-driven transformation-based tagger implemented by Eric Brill
- Stanford POS Tagger
A Java implementation of the log-linear part-of-speech taggers descriped by Kristina Toutanova, et.al.
- MBT:Memory-based Tagger
- TreeTagger
A decision tree based tagger from the University of Stuttgart.
- SVMTool , a POS Tagger based on SVMs
- QTAG Part of speech tagger
An HMM-based Java POS tagger from Birmingham U.
命名实体识别
- Stanford Named Entity Recognizer
A Java implementation of a Conditional Random Field sequence model, together with well-engineered features for Named Entity Recognition
- LingPipe
Tools include statistical named-entity recognition, a heuristic sentence boundary detector, and a heuristic within-document coreference resolution engine. Java. GPL. By Bob Carpenter, Breck Baldwin and co.
- YamCha
SVM-based NP-chunker, also usable for POS tagging, NER, etc. C/C++ open source. Won CoNLL 2000 shared task. (Less automatic than a specialized POS tagger for an end user.)
Stemming
- Porter Stemming
A process for removing the commoner morphological and inflexional endings from words in English byMartin Porter
- Snowball
A small string processing language designed for creating stemming algorithms for use in Information Retrieval.
句法分析
- Stanford Parser
Java implementations of probabilistic natural language parsers, both highly optimized PCFG and dependency parsers, and a lexicalized PCFG parser.
- Berkeley Parser
文本挖掘
摘要
- Rouge Rouge在Windows下的配置
其他
加密
- OpenSSL
包括众多加密算法,RSA、DES、MD5、SHA等 Win32安装版
压缩
- zlib
A Massively Spiffy Yet Delicately Unobtrusive Compression Library
日志
- Apache Logging Services
Creates and maintains open-source software related to the logging of application behavior and released at no charge to the public, including
- log4j for Java,
- log4cxx for C++, and
- log4net for MS .Net framework.
注: log4cxx官方版本有内存泄漏问题
Unicode
- ICU
A mature, widely used set of C/C++ and Java libraries providing Unicode and Globalization support for software applications
XML
- Xerces
A validating XML parser, including C and Java edition
多字符串匹配
- AC in C# : Aho-Corasick string matching in C#
HTML Parser
- Html Agility Pack , an agile HTML parser that builds a read/write DOM and supports plain XPATH or XSLT. It is a .NET code library that allows you to parse "out of the web" HTML files.
- Majestic-12 , an open source high-performance .NET C# module that was created to parse HTML for links, indexing and other purposes. 速度快,但不生成dom树
外部联接
- An annotated list of resources by Stanford NLP Group
- KDnuggets 有一些与KDD相关的软件等
自然语言处理
http://www.oschina.net/p/lingpipe/similar_projects
http://opennlp.apache.org/cgi-bin/download.cgi
https://code.google.com/p/fudannlp/
java 语义分析 开源相关推荐
- java b2b2c开源商城系统源码
网址:www.hulianrongyun.com,本人QQ:4407509,有问题可以联系本人 最近公司要开发商城,让我多方咨询,最后看了很多,要不就是代码.表字段注释不全,要不就是bug多,要么就是 ...
- java的算法库_利用Java写开源库 覆盖70多种推荐算法
描述 在经过一年多的开发工作之后,LibRec 3.0 版本终于发布了.LibRec 是一个基于 Java 的开源算法工具库,覆盖了 70 余个各类型推荐算法,可以有效解决评分预测和物品推荐两大关键的 ...
- 微信跳一跳高分系列四:一个 JAVA 版开源的微信跳一跳辅助工具
基于前三篇文章,我们一起来制作一个自动化工具,解放劳动力,通过机器自动完成跳一跳 wechat-jump-helper 一款JAVA版开源的微信跳一跳小程序辅助工具 传送门一:wechat-jump- ...
- 推荐算法实现java_利用Java写开源库 覆盖70多种推荐算法
在经过一年多的开发工作之后,LibRec3.0版本终于发布了.LibRec是一个基于Java的开源算法工具库,覆盖了70余个各类型推荐算法,可以有效解决评分预测和物品推荐两大关键的推荐问题,目前已经在 ...
- java项目_值得学习和练手的Java企业级开源项目,强烈推荐!
热门文章推荐:100本纸质书籍免费包邮!22款高颜值的终端工具,点燃了小姐姐对编程的热爱! 一条 SQL 引发的事故,同时小姐姐直接被开除!! 11月全国程序员平均工资新鲜出炉,内附封面图! 文末有彩 ...
- 基于Java的开源 Carrot2 搜索结果聚合聚类引擎 2.0发布了
基于Java的开源 Carrot2 搜索结果聚合聚类引擎 2.0发布了 专注是不断前进的指南针 --- 题记 基于Java的开源 Carrot2 搜索结果聚合聚类引擎 2.0发布了. Carrot ...
- Java APNS开源库apns4j-1.0.1发布
Java APNS开源库apns4j-1.0.1发布 开源地址:https://github.com/teaey/apns4j maven依赖: <dependency><group ...
- JAVA WEB 开源CMS系统,可用来二次开发
1.InfoGlue infoglue是一个高级的.可扩展的.健壮的内容管理系统,完全用Java开发.重要的功能包括完全支持多语言,站点之间良好的重用,以及广泛的集成能力. 该项目主页: http:/ ...
- 基于Java的开源 Carrot2 搜索结果聚合聚类引擎
来自这里:http://blog.csdn.net/accesine960/archive/2006/09/25/1282935.aspx 基于Java的开源 Carrot2 搜索结果聚合聚类引擎 2 ...
最新文章
- 10.21 crond定时任务练习
- linux 时间 无法连接服务器地址,怎么解决linux访问不了ip地址问题?
- 20000赫兹的声音试听下载_好听又不贵,DLC球顶双面镀铍动圈:七赫兹i99
- P1429-平面最近点对(加强版)【分治】
- REVERSE-PRACTICE-CTFSHOW-1
- 查询mysql临时表空间_查看临时表空间使用情况
- matlab中设置拟合初值,如何确定自定义函数拟合时的参数初值?
- linux mysql web界面吗_Linux下安装MySQL Web 管理工具phpMyAdmin
- JAVA utf8编码字符_Java中的UTF-8字符编码
- 第一次做项目经理总结_工程总承包项目:项目经理如果是第一次做,一定要把握这4个要点...
- java创建gitlab账户_GitLab不会创建新的存储库
- lIUNX如何加载U盘,光盘
- wps表格怎么添加附页_关于WPS里面页码的问题
- Jenkins构建maven项目失败
- [CTSC2016]时空旅行
- 如何实现一个脚本语言?
- 趣店被骂只是开始,一大批消费金融公司正在走向“危险地带”
- java.exe点击无反应_win7系统双击JeR安装包没有任何反应的解决方法
- unity2d游戏开发系列教程:一、环境安装
- leetcode844,难度easy
热门文章
- 关于系统起不起来的原因
- THREE.JS镜头随鼠标晃动效果
- Windows 10 下 安装 VMware16 +Centos 7 采用 NAT 方式实现访问外网 及 ssh 方式远程访问
- 2022年能不能创业做无货源网店?
- Qt5.15.2+VLC3.0.14学习笔记(六)Qt Player测试(官方示例 vlc-qt+mingw_64版)
- java租户模式_Multi-Tenancy多租户模式
- android全屏模式
- #define #undef 使用
- Intrinsic Plasticity 公式推导
- 在忘记APPLE ID密码的情况下如何删除icloud账号?