官网地址 http://www.xunsearch.com/scws/
SCWS 中文分词方法
thinkphp5.1 config目录下的app.php文件中增加
//中文分词的目录
‘CONF_PATH’ => Env::get(‘root_path’) . ‘application’ . DIRECTORY_SEPARATOR . ‘你的模块’ . DIRECTORY_SEPARATOR . ‘中文分词的目录’.DIRECTORY_SEPARATOR
thinkphp5.0 application的config.php
//中文分词的目录
‘CONF_PATH’ => ROOT_PATH . ‘application’ . DS . ‘你的模块’ . DS . ‘中文分词的目录’.DS

公共方法:
/**

  • 中文分词
  • @params string $title 需要分词的语句
  • @params int num分词个数,默认不用填写∗∗/functiongettags(num 分词个数,默认不用填写 **/ function get_tags(num分词个数,默认不用填写∗∗/functiongett​ags(title,$num=null){
    $pscws = new \app\你的模块\中文分词目录\Pscws();
    $pscws->set_dict(config(‘app.CONF_PATH’) . ‘dict.utf8.xdb’);
    $pscws->set_rule(config(‘app.CONF_PATH’) . ‘rules.utf8.ini’);
    $pscws->set_ignore(true);
    pscws−>sendtext(pscws->send_text(pscws−>sendt​ext(title);
    $words = pscws−>gettops(pscws->get_tops(pscws−>gett​ops(num);
    $pscws->close();
    tags=array();foreach(tags = array(); foreach (tags=array();foreach(words as $val) {
    $tags = $val[‘word’];
    }
    return implode(’,’, $tags);
    }
    Tp5.0框架下
    config(‘app.CONF_PATH’) 改成 CONF_PATH
    调用方法:
    dump(get_tags(‘积分第三方鉴定是非得失佛挡杀佛度是的不舒服’));die;
    本地测试结果:
    string(50) “是非得失,第三方,鉴定,是的,舒服,积分”

文件下载到附件 http://bbs.dolphinphp.com/article/39228

thinkphp5.1和5.0下的中文分词相关推荐

  1. docker环境下solr6.0配置(中文分词+拼音)

    前言:这篇文章是基于之前的"linux环境下配置solr5.3详细步骤"(http://www.cnblogs.com/zhangyuan0532/p/4826740.html)进 ...

  2. 开源搜索引擎solr4.0+tomcat7实现中文分词

    2012年12月16日,solr4.0正式版发布,由于其新功能比较给力(特别是关于分布式的新特性,关联zookeeper等),所以准备替换掉老版本 官网下载solr4.0:http://lucene. ...

  3. 中文处理工具fastHan 2.0:支持中文分词、词性标注、命名实体识别、依存语法分析、中文AMR的强有力工具

    fastHan 简介 fastHan是基于fastNLP与pytorch实现的中文自然语言处理工具,像spacy一样调用方便. 其内核为基于BERT的联合模型,其在15个语料库中进行训练,可处理中文分 ...

  4. solr 中文分词器IKAnalyzer和拼音分词器pinyin

    solr分词过程: Solr Admin中,选择Analysis,在FieldType中,选择text_en 左边框输入 "冬天到了天气冷了小明不想上学去了",点击右边的按钮,发现 ...

  5. 第02课:简单好用的中文分词利器 jieba 和 HanLP

    前言 从本文开始,我们就要真正进入实战部分.首先,我们按照中文自然语言处理流程的第一步获取语料,然后重点进行中文分词的学习.中文分词有很多种,常见的比如有中科院计算所 NLPIR.哈工大 LTP.清华 ...

  6. R语言︱文本挖掘之中文分词包——Rwordseg包(原理、功能、详解)

    笔者寄语:与前面的RsowballC分词不同的地方在于这是一个中文的分词包,简单易懂,分词是一个非常重要的步骤,可以通过一些字典,进行特定分词.大致分析步骤如下: 数据导入--选择分词字典--分词 但 ...

  7. 常用的开源中文分词工具

    转载自:  http://www.scholat.com/vpost.html?pid=4477 常用的开源中文分词工具 由于中文文本词与词之间没有像英文那样有空格分隔,因此很多时候中文文本操作都涉及 ...

  8. 中文分词软件包的使用

    中文分词 (Chinese Word Segmentation) 指的是将一个汉字序列切分成一个一个单独的词.分词就是将连续的字序列按照一定的规范重新组合成词序列的过程.我们知道,在英文的行文中,单词 ...

  9. NLP第2课:中文分词利器 jieba 和 HanLP

    前言 从本文开始,我们进入实战部分.首先,我们按照中文自然语言处理流程的第一步获取语料,然后重点进行中文分词的学习.中文分词有很多种,常见的比如有中科院计算所 NLPIR.哈工大 LTP.清华大学 T ...

最新文章

  1. HDU 1816, POJ 2723 Get Luffy Out(2-sat)
  2. asp.net web forms page life cycle
  3. mysql:通用查询日志general_log
  4. Spring-AOP 流程切面
  5. ASP.NET Web Game 架构设计1--服务器基本结构
  6. 十二、Python第十二课——函数
  7. javascript-变量的命名-数据类型-注释
  8. MongoDB 3.0+访问数据库的方法
  9. linux对于图形方式的运行级,在大多数Linux发行版本中,图形方式的运行级定义为( )?...
  10. 烂泥:nagios监控单网卡双IP
  11. 直播电商源码,无加密
  12. LOL_2D局域网小游戏(Qt)
  13. 【原创】我所认识的银行业务之旅(票据篇)
  14. java毕业设计商品货物信息管理系统源码+lw文档+mybatis+系统+mysql数据库+调试
  15. xmr-stak compile
  16. css设置单行文本超出部分点点点、多行文本超出部分点点点(两种方法)/解决多行 数字不换行问题。
  17. 单例模式(Singleton)分析
  18. Java实现-五子棋
  19. 第30关 判断回文数
  20. 大数据时代鸿星尔克因系统崩溃恳请顾客退款;微信里可以开借条了;阿里云盘来势汹汹却首战告败?

热门文章

  1. LabVIEW图表之双坐标轴
  2. Netty系列进阶篇一:阻塞和多路复用到底是个啥?
  3. Arch linux使用yay安装软件时有效性检查错误
  4. 未解——Matlab积分运算int函数
  5. 四旋翼飞行器基本知识(四旋翼飞行器结构和原理+四轴飞行diy全套入门教程)
  6. CLSR 11.2散列表
  7. CLSR 11.1直接寻址表
  8. IDEA 学生注册成功并使用一段时间,还要激活,并且提示No suitable licenses associated with account
  9. Python 爬虫 性能 相关( asyncio 模块 --- 高性能爬虫 )
  10. 基于Cesium使用自定义着色器的资源总结