PHPAnalysis是目前广泛使用的中文分词类,使用反向匹配模式分词,因此兼容编码更广泛,现将其变量与常用函数详解如下:

一、比较重要的成员变量

$resultType   = 1        生成的分词结果数据类型(1 为全部, 2为 词典词汇及单个中日韩简繁字符及英文, 3 为词典词汇及英文)

这个变量一般用 SetResultType( $rstype ) 这方法进行设置。

$notSplitLen  = 5        切分句子最短长度

$toLower      = false    把英文单词全部转小写

$differMax    = false    使用最大切分模式对二元词进行消岐

$unitWord     = true     尝试合并单字(即是新词识别)

$differFreq   = false    使用热门词优先模式进行消岐

二、主要成员函数列表

1、public function __construct($source_charset='utf-8', $target_charset='utf-8', $load_all=true, $source='')

函数说明:构造函数

参数列表:

$source_charset      源字符串编码

$target_charset      目录字符串编码

$load_all            是否完全加载词典(此参数已经作废)

$source              源字符串

如果输入输出都是utf-8,实际上可以不必使用任何参数进行初始化,而是通过 SetSource 方法设置要操作的文本

2、public function SetSource( $source, $source_charset='utf-8', $target_charset='utf-8' )

函数说明:设置源字符串

参数列表:

$source              源字符串

$source_charset      源字符串编码

$target_charset      目录字符串编码

返回值:bool

3、public function StartAnalysis($optimize=true)

函数说明:开始执行分词操作

参数列表:

$optimize            分词后是否尝试优化结果

返回值:void

一个基本的分词过程:

//

$pa = new PhpAnalysis();

$pa->SetSource('需要进行分词的字符串');

//设置分词属性

$pa->resultType = 2;

$pa->differMax  = true;

$pa->StartAnalysis();

//获取你想要的结果

$pa->GetFinallyIndex();

4、public function SetResultType( $rstype )

函数说明:设置返回结果的类型

实际是对成员变量$resultType的操作

参数 $rstype 值为:

1 为全部, 2为 词典词汇及单个中日韩简繁字符及英文, 3 为词典词汇及英文

返回值:void

5、public function GetFinallyKeywords( $num = 10 )

函数说明:获取出现频率最高的指定词条数(通常用于提取文档关键字)

参数列表:

$num = 10  返回词条个数

返回值:用","分隔的关键字列表

6、public function GetFinallyResult($spword=' ')

函数说明:获得最终分词结果

参数列表:

$spword    词条之间的分隔符

返回值:string

7、public function GetSimpleResult()

函数说明:获得粗分结果

返回值:array

8、public function GetSimpleResultAll()

函数说明:获得包含属性信息的粗分结果

属性(1中文词句、2 ANSI词汇(包括全角),3 ANSI标点符号(包括全角),4数字(包括全角),5 中文标点或无法识别字符)

返回值:array

9、public function GetFinallyIndex()

函数说明:获取hash索引数组

返回值:array('word'=>count,...) 按出现频率排序

10、public function MakeDict( $source_file, $target_file='' )

函数说明:把文本文件词库编译成词典

参数列表:

$source_file   源文本文件

$target_file   目标文件(如果不指定,则为当前词典)

返回值:void

11、public function ExportDict( $targetfile )

函数说明:导出当前词典全部词条为文本文件

参数列表:

$targetfile  目标文件

返回值:void

php自定义中文分词方法,PHPAnalysis中文分词类详解相关推荐

  1. [Python知识图谱] 三.Jieba工具中文分词、添加自定义词典及词性标注详解

    本系列文章主要结合Python语言实现知识图谱构建相关工程,具有一定创新性和实用性,非常希望各位博友交流讨论,相互促进成长.前面两篇文章详细讲解了哈工大Pyltp工具,包括中文分词.词性标注.实体识别 ...

  2. 计算机毕设——中文分词方法研究与实现

    毕业论文 中文分词方法研究与实现 1.课题意义及目标 中文分词技术不断发展,各种中文分词系统层出不穷.中文分词技术应用也原来越广泛.如搜索引擎的应用.语音识别系统.机器翻译.自动分类校对等.学生应通过 ...

  3. 中文分词方法汇总笔记

    中文分词方法汇总笔记 分词难点 分词方法 传统基于字典(规则分词) 基于机器学习的分词方法 统计分词 语言模型 隐马尔可夫 HMM 模型 其他 分词工具和云服务 其他 感谢知乎 @华天清 的总结 分词 ...

  4. 转一个,中文分词方法概述

    感兴趣的可以看看自然语言理解,很好的图书,可以了解中文的处理过程, 动态规划的中文分词方法      中文分词方法有很多,其中基于词典的分词方法有: 基于模式匹配的方法:(速度快)           ...

  5. 动态规划的中文分词方法

    中文分词方法有很多,其中基于词典的分词方法有: 基于模式匹配的方法:(速度快) 正向最大匹配.逆向最大匹配法.双向匹配法 基于规则的方法:(索引压缩的效果最好) 最少分词法 基于统计的分词方法有: 统 ...

  6. 计算机毕设分词,毕业设计(论文)+计算机科学与技术+中文分词方法研究与实现论文全文.doc...

    毕业论文 中文分词方法研究与实现 计算机工程系学生姓名: 学号: 计算机工程系 计算机科学与技术系 部: 计算机科学与技术 专 业: 指导教师: 诚信声明 本人郑重声明:本设计(论文)及其研究工作是本 ...

  7. java中文分词工具_中文分词工具(LAC) 试用笔记

    一.背景 笔者2年前写过一篇<PHP使用elasticsearch搜索安装及分词方法>的文章,记录了使用ES的分词的实现步骤,最近又需要用到分词,在网上发现一个百度的中文分词项目,中文词法 ...

  8. python中docx模块的使用_python使用docx模块读写docx文件的方法与docx模块常用方法详解...

    一,docx模块 Python可以利用python-docx模块处理word文档,处理方式是面向对象的.也就是说python-docx模块会把word文档,文档中的段落.文本.字体等都看做对象,对对象 ...

  9. mysql数据库表分区_MySQL数据库之MySQL的分区和分表详解

    本文主要向大家介绍了MySQL数据库之MySQL的分区和分表详解 ,通过具体的内容向大家展现,希望对大家学习MySQL数据库有所帮助. 1. 分区 MySQL中的分区是指将一个数据表按照某种规则(如时 ...

最新文章

  1. php localcompare,JS中使用sort结合localeCompare实现中文排序实例_javascript技巧
  2. MySQL varchar和char类型
  3. ARM Linux启动过程分析
  4. java sax解析xml_【转】java使用sax解析xml文件
  5. ios开发 热搜词demo_手机app如何开发
  6. c语言把一段编码注释,C语言编码规范——着重注意点整理
  7. redis数据导入导出
  8. 弹性理论法研究桩基受力计算公式_桩基础沉降计算方法及相关的理论分析
  9. win 10专业版中虚拟机里面无法按打开centos镜像
  10. 实变函数自制笔记6:初识可测函数
  11. 虚拟DOM和deff算法
  12. 一Flex(Flex+j2EE)
  13. jy-12-SPRINGMYBATIS02——云笔记10-刘苍松
  14. js-视频播放插件Video.js简单使用
  15. SAP ABAP(增强技术) BADI自己的一些了解,以及用法
  16. 14_Elasticsearch 内部原理详细解析(上篇)
  17. STM32 HAL库 驱动 MT6701 磁编码器
  18. 苹果屏蔽更新_知友答疑——无需越狱,屏蔽 iOS 13更新的描述文件来了
  19. a:link、a:visited、a:hover、a:active伪类选择器
  20. 各大公司docker容器云的技术栈对比

热门文章

  1. sql is null优化_你不会还在用这8个错误的SQL写法吧?
  2. python显示1000以内的斐波拉契数列_python实现斐波那契数列
  3. mysql genlog 分析_Mysq性能分析 —— Genral log(普通日志)与 Slow log(慢速日式)...
  4. gnuradio android手机,如何搭配USRP在安卓设备上搭建GNU Radio
  5. 在windows上模拟linux环境,MSYS2——Windows平台下模拟linux环境的搭建-Go语言中文社区...
  6. 怎样把php文件改成固定大小,php修改上传文件大小限制的方法
  7. php jquery grid,jQuery Grid
  8. kernel pca与传统pca的区别
  9. 如何删除链表的最后一个节点_面试:删除链表的节点
  10. python初级数据分析师薪资_学会数据分析,薪资翻倍?!