thinkphp5.1和5.0下的中文分词
官网地址 http://www.xunsearch.com/scws/
SCWS 中文分词方法
thinkphp5.1 config目录下的app.php文件中增加
//中文分词的目录
‘CONF_PATH’ => Env::get(‘root_path’) . ‘application’ . DIRECTORY_SEPARATOR . ‘你的模块’ . DIRECTORY_SEPARATOR . ‘中文分词的目录’.DIRECTORY_SEPARATOR
thinkphp5.0 application的config.php
//中文分词的目录
‘CONF_PATH’ => ROOT_PATH . ‘application’ . DS . ‘你的模块’ . DS . ‘中文分词的目录’.DS
公共方法:
/**
- 中文分词
- @params string $title 需要分词的语句
- @params int num分词个数,默认不用填写∗∗/functiongettags(num 分词个数,默认不用填写 **/ function get_tags(num分词个数,默认不用填写∗∗/functiongettags(title,$num=null){
$pscws = new \app\你的模块\中文分词目录\Pscws();
$pscws->set_dict(config(‘app.CONF_PATH’) . ‘dict.utf8.xdb’);
$pscws->set_rule(config(‘app.CONF_PATH’) . ‘rules.utf8.ini’);
$pscws->set_ignore(true);
pscws−>sendtext(pscws->send_text(pscws−>sendtext(title);
$words = pscws−>gettops(pscws->get_tops(pscws−>gettops(num);
$pscws->close();
tags=array();foreach(tags = array(); foreach (tags=array();foreach(words as $val) {
$tags = $val[‘word’];
}
return implode(’,’, $tags);
}
Tp5.0框架下
config(‘app.CONF_PATH’) 改成 CONF_PATH
调用方法:
dump(get_tags(‘积分第三方鉴定是非得失佛挡杀佛度是的不舒服’));die;
本地测试结果:
string(50) “是非得失,第三方,鉴定,是的,舒服,积分”
文件下载到附件 http://bbs.dolphinphp.com/article/39228
thinkphp5.1和5.0下的中文分词相关推荐
- docker环境下solr6.0配置(中文分词+拼音)
前言:这篇文章是基于之前的"linux环境下配置solr5.3详细步骤"(http://www.cnblogs.com/zhangyuan0532/p/4826740.html)进 ...
- 开源搜索引擎solr4.0+tomcat7实现中文分词
2012年12月16日,solr4.0正式版发布,由于其新功能比较给力(特别是关于分布式的新特性,关联zookeeper等),所以准备替换掉老版本 官网下载solr4.0:http://lucene. ...
- 中文处理工具fastHan 2.0:支持中文分词、词性标注、命名实体识别、依存语法分析、中文AMR的强有力工具
fastHan 简介 fastHan是基于fastNLP与pytorch实现的中文自然语言处理工具,像spacy一样调用方便. 其内核为基于BERT的联合模型,其在15个语料库中进行训练,可处理中文分 ...
- solr 中文分词器IKAnalyzer和拼音分词器pinyin
solr分词过程: Solr Admin中,选择Analysis,在FieldType中,选择text_en 左边框输入 "冬天到了天气冷了小明不想上学去了",点击右边的按钮,发现 ...
- 第02课:简单好用的中文分词利器 jieba 和 HanLP
前言 从本文开始,我们就要真正进入实战部分.首先,我们按照中文自然语言处理流程的第一步获取语料,然后重点进行中文分词的学习.中文分词有很多种,常见的比如有中科院计算所 NLPIR.哈工大 LTP.清华 ...
- R语言︱文本挖掘之中文分词包——Rwordseg包(原理、功能、详解)
笔者寄语:与前面的RsowballC分词不同的地方在于这是一个中文的分词包,简单易懂,分词是一个非常重要的步骤,可以通过一些字典,进行特定分词.大致分析步骤如下: 数据导入--选择分词字典--分词 但 ...
- 常用的开源中文分词工具
转载自: http://www.scholat.com/vpost.html?pid=4477 常用的开源中文分词工具 由于中文文本词与词之间没有像英文那样有空格分隔,因此很多时候中文文本操作都涉及 ...
- 中文分词软件包的使用
中文分词 (Chinese Word Segmentation) 指的是将一个汉字序列切分成一个一个单独的词.分词就是将连续的字序列按照一定的规范重新组合成词序列的过程.我们知道,在英文的行文中,单词 ...
- NLP第2课:中文分词利器 jieba 和 HanLP
前言 从本文开始,我们进入实战部分.首先,我们按照中文自然语言处理流程的第一步获取语料,然后重点进行中文分词的学习.中文分词有很多种,常见的比如有中科院计算所 NLPIR.哈工大 LTP.清华大学 T ...
最新文章
- HDU 1816, POJ 2723 Get Luffy Out(2-sat)
- asp.net web forms page life cycle
- mysql:通用查询日志general_log
- Spring-AOP 流程切面
- ASP.NET Web Game 架构设计1--服务器基本结构
- 十二、Python第十二课——函数
- javascript-变量的命名-数据类型-注释
- MongoDB 3.0+访问数据库的方法
- linux对于图形方式的运行级,在大多数Linux发行版本中,图形方式的运行级定义为( )?...
- 烂泥:nagios监控单网卡双IP
- 直播电商源码,无加密
- LOL_2D局域网小游戏(Qt)
- 【原创】我所认识的银行业务之旅(票据篇)
- java毕业设计商品货物信息管理系统源码+lw文档+mybatis+系统+mysql数据库+调试
- xmr-stak compile
- css设置单行文本超出部分点点点、多行文本超出部分点点点(两种方法)/解决多行 数字不换行问题。
- 单例模式(Singleton)分析
- Java实现-五子棋
- 第30关 判断回文数
- 大数据时代鸿星尔克因系统崩溃恳请顾客退款;微信里可以开借条了;阿里云盘来势汹汹却首战告败?
热门文章
- LabVIEW图表之双坐标轴
- Netty系列进阶篇一:阻塞和多路复用到底是个啥?
- Arch linux使用yay安装软件时有效性检查错误
- 未解——Matlab积分运算int函数
- 四旋翼飞行器基本知识(四旋翼飞行器结构和原理+四轴飞行diy全套入门教程)
- CLSR 11.2散列表
- CLSR 11.1直接寻址表
- IDEA 学生注册成功并使用一段时间,还要激活,并且提示No suitable licenses associated with account
- Python 爬虫 性能 相关( asyncio 模块 --- 高性能爬虫 )
- 基于Cesium使用自定义着色器的资源总结