php自定义中文分词方法,PHPAnalysis中文分词类详解
PHPAnalysis是目前广泛使用的中文分词类,使用反向匹配模式分词,因此兼容编码更广泛,现将其变量与常用函数详解如下:
一、比较重要的成员变量
$resultType = 1 生成的分词结果数据类型(1 为全部, 2为 词典词汇及单个中日韩简繁字符及英文, 3 为词典词汇及英文)
这个变量一般用 SetResultType( $rstype ) 这方法进行设置。
$notSplitLen = 5 切分句子最短长度
$toLower = false 把英文单词全部转小写
$differMax = false 使用最大切分模式对二元词进行消岐
$unitWord = true 尝试合并单字(即是新词识别)
$differFreq = false 使用热门词优先模式进行消岐
二、主要成员函数列表
1、public function __construct($source_charset='utf-8', $target_charset='utf-8', $load_all=true, $source='')
函数说明:构造函数
参数列表:
$source_charset 源字符串编码
$target_charset 目录字符串编码
$load_all 是否完全加载词典(此参数已经作废)
$source 源字符串
如果输入输出都是utf-8,实际上可以不必使用任何参数进行初始化,而是通过 SetSource 方法设置要操作的文本
2、public function SetSource( $source, $source_charset='utf-8', $target_charset='utf-8' )
函数说明:设置源字符串
参数列表:
$source 源字符串
$source_charset 源字符串编码
$target_charset 目录字符串编码
返回值:bool
3、public function StartAnalysis($optimize=true)
函数说明:开始执行分词操作
参数列表:
$optimize 分词后是否尝试优化结果
返回值:void
一个基本的分词过程:
//
$pa = new PhpAnalysis();
$pa->SetSource('需要进行分词的字符串');
//设置分词属性
$pa->resultType = 2;
$pa->differMax = true;
$pa->StartAnalysis();
//获取你想要的结果
$pa->GetFinallyIndex();
4、public function SetResultType( $rstype )
函数说明:设置返回结果的类型
实际是对成员变量$resultType的操作
参数 $rstype 值为:
1 为全部, 2为 词典词汇及单个中日韩简繁字符及英文, 3 为词典词汇及英文
返回值:void
5、public function GetFinallyKeywords( $num = 10 )
函数说明:获取出现频率最高的指定词条数(通常用于提取文档关键字)
参数列表:
$num = 10 返回词条个数
返回值:用","分隔的关键字列表
6、public function GetFinallyResult($spword=' ')
函数说明:获得最终分词结果
参数列表:
$spword 词条之间的分隔符
返回值:string
7、public function GetSimpleResult()
函数说明:获得粗分结果
返回值:array
8、public function GetSimpleResultAll()
函数说明:获得包含属性信息的粗分结果
属性(1中文词句、2 ANSI词汇(包括全角),3 ANSI标点符号(包括全角),4数字(包括全角),5 中文标点或无法识别字符)
返回值:array
9、public function GetFinallyIndex()
函数说明:获取hash索引数组
返回值:array('word'=>count,...) 按出现频率排序
10、public function MakeDict( $source_file, $target_file='' )
函数说明:把文本文件词库编译成词典
参数列表:
$source_file 源文本文件
$target_file 目标文件(如果不指定,则为当前词典)
返回值:void
11、public function ExportDict( $targetfile )
函数说明:导出当前词典全部词条为文本文件
参数列表:
$targetfile 目标文件
返回值:void
php自定义中文分词方法,PHPAnalysis中文分词类详解相关推荐
- [Python知识图谱] 三.Jieba工具中文分词、添加自定义词典及词性标注详解
本系列文章主要结合Python语言实现知识图谱构建相关工程,具有一定创新性和实用性,非常希望各位博友交流讨论,相互促进成长.前面两篇文章详细讲解了哈工大Pyltp工具,包括中文分词.词性标注.实体识别 ...
- 计算机毕设——中文分词方法研究与实现
毕业论文 中文分词方法研究与实现 1.课题意义及目标 中文分词技术不断发展,各种中文分词系统层出不穷.中文分词技术应用也原来越广泛.如搜索引擎的应用.语音识别系统.机器翻译.自动分类校对等.学生应通过 ...
- 中文分词方法汇总笔记
中文分词方法汇总笔记 分词难点 分词方法 传统基于字典(规则分词) 基于机器学习的分词方法 统计分词 语言模型 隐马尔可夫 HMM 模型 其他 分词工具和云服务 其他 感谢知乎 @华天清 的总结 分词 ...
- 转一个,中文分词方法概述
感兴趣的可以看看自然语言理解,很好的图书,可以了解中文的处理过程, 动态规划的中文分词方法 中文分词方法有很多,其中基于词典的分词方法有: 基于模式匹配的方法:(速度快) ...
- 动态规划的中文分词方法
中文分词方法有很多,其中基于词典的分词方法有: 基于模式匹配的方法:(速度快) 正向最大匹配.逆向最大匹配法.双向匹配法 基于规则的方法:(索引压缩的效果最好) 最少分词法 基于统计的分词方法有: 统 ...
- 计算机毕设分词,毕业设计(论文)+计算机科学与技术+中文分词方法研究与实现论文全文.doc...
毕业论文 中文分词方法研究与实现 计算机工程系学生姓名: 学号: 计算机工程系 计算机科学与技术系 部: 计算机科学与技术 专 业: 指导教师: 诚信声明 本人郑重声明:本设计(论文)及其研究工作是本 ...
- java中文分词工具_中文分词工具(LAC) 试用笔记
一.背景 笔者2年前写过一篇<PHP使用elasticsearch搜索安装及分词方法>的文章,记录了使用ES的分词的实现步骤,最近又需要用到分词,在网上发现一个百度的中文分词项目,中文词法 ...
- python中docx模块的使用_python使用docx模块读写docx文件的方法与docx模块常用方法详解...
一,docx模块 Python可以利用python-docx模块处理word文档,处理方式是面向对象的.也就是说python-docx模块会把word文档,文档中的段落.文本.字体等都看做对象,对对象 ...
- mysql数据库表分区_MySQL数据库之MySQL的分区和分表详解
本文主要向大家介绍了MySQL数据库之MySQL的分区和分表详解 ,通过具体的内容向大家展现,希望对大家学习MySQL数据库有所帮助. 1. 分区 MySQL中的分区是指将一个数据表按照某种规则(如时 ...
最新文章
- php localcompare,JS中使用sort结合localeCompare实现中文排序实例_javascript技巧
- MySQL varchar和char类型
- ARM Linux启动过程分析
- java sax解析xml_【转】java使用sax解析xml文件
- ios开发 热搜词demo_手机app如何开发
- c语言把一段编码注释,C语言编码规范——着重注意点整理
- redis数据导入导出
- 弹性理论法研究桩基受力计算公式_桩基础沉降计算方法及相关的理论分析
- win 10专业版中虚拟机里面无法按打开centos镜像
- 实变函数自制笔记6:初识可测函数
- 虚拟DOM和deff算法
- 一Flex(Flex+j2EE)
- jy-12-SPRINGMYBATIS02——云笔记10-刘苍松
- js-视频播放插件Video.js简单使用
- SAP ABAP(增强技术) BADI自己的一些了解,以及用法
- 14_Elasticsearch 内部原理详细解析(上篇)
- STM32 HAL库 驱动 MT6701 磁编码器
- 苹果屏蔽更新_知友答疑——无需越狱,屏蔽 iOS 13更新的描述文件来了
- a:link、a:visited、a:hover、a:active伪类选择器
- 各大公司docker容器云的技术栈对比
热门文章
- sql is null优化_你不会还在用这8个错误的SQL写法吧?
- python显示1000以内的斐波拉契数列_python实现斐波那契数列
- mysql genlog 分析_Mysq性能分析 —— Genral log(普通日志)与 Slow log(慢速日式)...
- gnuradio android手机,如何搭配USRP在安卓设备上搭建GNU Radio
- 在windows上模拟linux环境,MSYS2——Windows平台下模拟linux环境的搭建-Go语言中文社区...
- 怎样把php文件改成固定大小,php修改上传文件大小限制的方法
- php jquery grid,jQuery Grid
- kernel pca与传统pca的区别
- 如何删除链表的最后一个节点_面试:删除链表的节点
- python初级数据分析师薪资_学会数据分析,薪资翻倍?!