public class CRFClassifier<IN extends CoreMap>

extends AbstractSequenceClassifier<IN>

使用CRF模型进行层序划分的类。这个类具有处理不同格式文档的功能,但是当使用标准ColumnDocumentReaderAndWriter 类用来训练或者测试模型时,输入文件中要一行一个token(几列标志性的东西,比如单词、POS、chunk和answer class)。ColumnDocumentReaderAndWriter 默认训练集是有3列输入的,分别是:单词、pos、gold class,但是这个可以通过map属性来指定。

当使用-textFile命令在一个文件上运行的时候,文件要是普通英文文本(或者简单的html/xml),通过PlainTextDocumentReaderAndWriter可以进行做一下简单的英文标记测试。用来读取文本的类可以通过 -plainTextDocumentReaderAndWriter来改变。-tokenizeOptions 标记提供了一些其他的标记器选项。

To read from stdin, use the flag -readStdin. The same reader/writer will be used as for -textFile.

要从标准输入读取文本的话,就是用-readStdin。至于-textFile,也可以使用同样的reader/writer。

典型命令行使用:

为了将一个(含有(提供好的序列化的分类器)的训练好的模型)在文本文件上运行:

java -mx500m edu.stanford.nlp.ie.crf.CRFClassifier -loadClassifier conll.ner.gz -textFile samplesentences.txt

在一个属性文件(训练、测试、运行时)中指定全部参数:

java -mx1g edu.stanford.nlp.ie.crf.CRFClassifier -prop propFile

To train and test a simple NER model from the command line:

通过命令行训练和测试一个简单的NER(命名实体识别)模型:
java -mx1000m edu.stanford.nlp.ie.crf.CRFClassifier -trainFile trainFile -testFile testFile -macro > output

用多个文件进行训练:
java -mx1000m edu.stanford.nlp.ie.crf.CRFClassifier -trainFileList file1,file2,... -testFile testFile -macro > output

使用-testFiles选项和逗号分割的列表来进行多文件测试。

各种特征值通过FeatureFactory来定义。默认使用的是NERFeatureFactory,你可以查看特征值模版和在训练NER分类器中需要使用的特征值的属性或标记。还有一个edu.stanford.nlp.wordseg.SighanFeatureFactory,以及各种继承者,例如用来进行中文分词的ChineseSegmenterFeatureFactory。特征值可以通过Properties文件(推荐)或者命令行的标记来指定。各种标记被读入到一个SeqClassifierFlags 对象,除非用户想添加新的特征,否则用户不用关注它。

CRFClassifier也可以在程序中使用,当新建一个实例的时候,你一定要指定Properties对象。然后你要调用训练函数来训练分类器或者加载一个分类器。另一种得到CRFClassifier的方法就是通过静态函数getClassifier(String)来返回一个反序列化的分类器。之后你可能就会标注文档,可以使用合适的classify()或者AbstractSequenceClassifier中合适的classify函数。可以通过printProbsDocument()或getCliqueTrees() 询问CRF给定的概率。

本文转自ZH奶酪博客园博客,原文链接:http://www.cnblogs.com/CheeseZH/archive/2012/11/29/2794280.html,如需转载请自行联系原作者

Stanford_NLP_TOOLS:CRFClassifier相关推荐

  1. 大数据技术之_19_Spark学习_07_Spark 性能调优 + 数据倾斜调优 + 运行资源调优 + 程序开发调优 + Shuffle 调优 + GC 调优 + Spark 企业应用案例

    大数据技术之_19_Spark学习_07 第1章 Spark 性能优化 1.1 调优基本原则 1.1.1 基本概念和原则 1.1.2 性能监控方式 1.1.3 调优要点 1.2 数据倾斜优化 1.2. ...

  2. golang大厂面试2

    golang大厂面试 滴滴 写个二分查找 以下是一个简单的二分查找算法的 Go 语言实现: package mainimport "fmt"// 二分查找函数 func binar ...

  3. InstallShield内部库函数

    InstallShield内部库函数 下载资源:点击 1  库函数综述 InstallShield包含300多个内部库函数,用户可在安装脚本中调用它们来创建程序组,操作文件夹,处理目录,监督安装状态, ...

  4. Day14:使用斯坦福 NER 软件包实现你自己的命名实体识别器

    我并不是一个机器学习(Machine Learning).自然语言处理(Natural Text Processing,NLP)等的狂热者,但我总会想到一些需要用到它们的主意.我们今天在这篇博文中要实 ...

  5. python命名实体识别工具_Day14:使用斯坦福 NER 软件包实现你自己的命名实体识别器(Named Entity Recognition,NER)...

    编者注:我们发现了有趣的一系列文章<30天学习30种新技术>,正在翻译中,一天一篇更新,年终礼包.下面是第 14 天的内容. 我并不是一个机器学习(Machine Learning).自然 ...

  6. Elasticsearch 系列文章(一):Elasticsearch 默认分词器和中分分词器之间的比较及使用方法

    介绍:ElasticSearch 是一个基于 Lucene 的搜索服务器.它提供了一个分布式多用户能力的全文搜索引擎,基于 RESTful web 接口.Elasticsearch 是用 Java 开 ...

  7. 端口映射问题:Bad Request This combination of host and port requires TLS.

    错误信息: Bad Request This combination of host and port requires TLS. 遇到上面的错误信息:如果是通过域名访问,则该域名后配置的转发端口映射 ...

  8. locust入门:单机使用locust运行压力测试

    locust的官方文档在这里: http://docs.locust.io/en/stable/ 前置:locust的测试脚本使用为python(若未安装python环境,可以搜索安装python) ...

  9. docker报错:driver failed programming external connectivity on endpoint, iptables:No chain by that name

    docker 报错: Error response from daemon: Cannot restart container hello: driver failed programming ext ...

最新文章

  1. Linux磁盘管理:LVM逻辑卷的拉伸及缩减
  2. 区块链安全:2019年我们走了多远?
  3. 【迁移2018-04-12 10:46:11】BeanCopier之MapStruct(一)
  4. hdu 5167 bfs
  5. 称重管理系统如何修改重量_微嵌智能称重方案实现自动零件计数秤
  6. pmp每日三题(2022年3月15日)
  7. javascript的性能优化
  8. 编译lzlib mysql5.6_CentOS下编译安装MySQL5.6
  9. [转载] 全本张广泰——第一回 开篇聊闲天 青楼是非多
  10. 爬虫从网页中去取的数据中包含nbsp;空格
  11. ABAQUS二次开发手册【随书代码使用说明】
  12. refresh( )
  13. Travis CI(持续集成)
  14. 重启计算机后ip丢失,win10系统重启后ip丢失的处理步骤
  15. linux格式化u盘为ntfs格式,Linux上格式化U盘为NTFS格式
  16. 贷款逾期,征信记录五年之内可以消除?
  17. c语言.jpg图片转成数组_JPG图片怎么转换成PDF?可以试试这些转换方法!
  18. win7无线网显示小太阳
  19. photoshop怎么旋转图片
  20. 程序员的算法趣题Q67: 不挨着坐是一种礼节吗?

热门文章

  1. HDU 1108 最小公倍数
  2. 数据按时间拆开分批处理示例
  3. 关于eclipse web项目认不到用户库的问题
  4. Java代码实现Fibonacci数列
  5. HKEY_LOCAL_MACHINE\SYSTEM\CurrentControlSet\Control\Session Manager\PendingFileRenameOperations
  6. flask登录验证用ajax,基于 Ajax 请求的 Flask-Login 认证
  7. jsoup 去除html标签,如何使用jsoup取消注释html标签
  8. 河北大学计算机专业调剂,【计算机考研调剂】河北大学2021级硕士研究生预调剂信息统计的通知...
  9. python 简历处理_按照这个方式学Python,老板把垃圾桶里的简历舔回来:月薪50000...
  10. python统计程序运行时间-如何方便地统计 Python 程序每一个函数、每一行代码执行所花的时间?...