本文实例讲述了php实现scws中文分词搜索的方法。分享给大家供大家参考,具体如下:

1、4个文件(本站下载地址。)解压后,放到一个地方 eg:E:/wamp/scws

2、php.ini 中配置

extension = php_scws.dll

scws.default.charset = utf8 //配置默认的编码方式

scws.default.fpath = "E:/wamp/scws" //加压后文件的路径

3、使用

$so = scws_new();

$so->set_charset('utf8'); //编码

// 这里没有调用 set_dict 和 set_rule 系统会自动试调用 ini 中指定路径下的词典和规则文件

$so->add_dict(ini_get('scws.default.fpath') . '/dict.utf8.xdb');

//$so->add_dict('./dd.txt',SCWS_XDICT_TXT);

$so->set_rule(ini_get('scws.default.fpath') . '/rules.utf8.ini');

$so->set_duality(0); //散字二元

$so->set_ignore(0); //忽略标点符号

$so->set_multi(0);

$wd='要搜索的内容';

$so->send_text($wd);

while($tmp = $so->get_result())

//遍历后即得到字符串分割后的内容,

//根据得到的内容分别到数据库中查找(like匹配)

{

}

亲自试验了一下如下:

test

$value)

{

$str2=explode(',',$value); //,切割

foreach($str2 as $k=>$v)

{

$str3=explode('.',$v); //。切割

foreach($str3 as $kk=>$vv)

{

array_push($arr,$vv);//处理完后,返回一个数组

}

}

}

}else{//对中文的分词处理

$so = scws_new();

$so->set_charset('utf8');

// 这里没有调用 set_dict 和 set_rule 系统会自动试调用 ini 中指定路径下的词典和规则文件

$so->add_dict(ini_get('scws.default.fpath') . '/dict.utf8.xdb');

$so->set_rule(ini_get('scws.default.fpath') . '/rules.utf8.ini');

$so->set_duality(0); //散字二元

$so->set_ignore(0); //忽略标点符号

$so->set_multi(0);

$so->send_text($keywords);

while ($tmp = $so->get_result())//得到一个数组,里面包含词组和标点符号

{

foreach($tmp as $key=>$value)

{

$value=$value["word"];

if(preg_match("/^[一-龥]{6,21}$/", $value))//去除标点符号

{

array_push($arr,$value);

}

}

}

}

foreach($arr as $key=>$value)//便利得到的数组,到数据库中匹配

{

if($key2!='')

{

$sql="select * from `$table` where `$key1` like '%$value%' or `$key2` like '%$value%'";

}else{

$sql="select * from `$table` where `$key1` like '%$value%'";

}

$query=mysql_query($sql);

array_push($str,$query);

}

return $str;

}

include('conn.php');

$keywords="哈哈lsd djk,hdjs dd";

$table='two_key';

$key1='address';

$key2='';

$query=search($keywords,$table,$key1,$key2);

foreach($query as $key=>$value)

{

while($row=mysql_fetch_array($value))

{

echo $row[id].'----'.$row[name].'-----'.$row[address].'

';

}

}

?>

希望本文所述对大家PHP程序设计有所帮助。

以上就介绍了php实现scws中文分词搜索的方法,包括了方面的内容,希望对PHP教程有兴趣的朋友有所帮助。 本条技术文章来源于互联网,如果无意侵犯您的权益请点击此处反馈版权投诉 本文系统来源:php中文网

TAG标签: 脚本

php scws 获取分词结果,php实现scws中文分词搜索的方法相关推荐

  1. PHP+mysql数据库开发搜索功能:中英文分词+全文检索(MySQL全文检索+中文分词(SCWS))...

    PHP+mysql数据库开发类似百度的搜索功能:中英文分词+全文检索 中文分词: a)   robbe PHP中文分词扩展: http://www.boyunjian.com/v/softd/robb ...

  2. 中文分词工具比较 6大中文分词器测试(哈工大LTP、中科院计算所NLPIR、清华大学THULAC和jieba、FoolNLTK、HanLP)

    中文分词工具比较 6大中文分词器测试(jieba.FoolNLTK.HanLP.THULAC.nlpir.ltp) 哈工大LTP.中科院计算所NLPIR.清华大学THULAC和jieba 个人接触的分 ...

  3. 悟空分词与mysql结合_中文分词与关键词提取实践小结

    本文基于题库查重需求实现过程及<NLP自然语言处理原理与实践>学习过程总结得出.定有不足之处,恳请指出. 基本概念 评价指标 一般,中文分词从Precision.Recall.F-scor ...

  4. postgresql 分词_使用Postgresql进行中文分词

    使用Postgresql进行中文分词 安装 postgresql 数据库 解压 tar -zxvf postgresql-9.6.6.tar.gz 配置 ./configure 可能会缺少这个依赖,安 ...

  5. 2019年了,中文分词到底该怎么做?中文分词十年方法大盘点(附下载)

    https://www.toutiao.com/a6655113946241958403/ 2019-02-07 12:41:03 基本上所有的中文自然语言处理任务,第一步都需要先分词.中文分词是中文 ...

  6. ik分词器 分词原理_Solr7.7.2中文分词器

    中文分词器的配置 1.7版本之后solr内置了中文分词器所以可以使用solr内置的分词器进行配置 1.在解压的目录内找到分词器包 2.将包放在solr项目的lib下 3.修改配置文件修改他下面的con ...

  7. bilstm+crf中文分词_基于LSTM的中文分词模型

    中文分词任务是一个预测序列的经典问题,已知的方法有基于HMM[1]的分词方法.基于CRF[2]的方法和基于LSTM的分词方法. 本文介绍Xinchi Chen等人[3]提出的基于LSTM的分词方法.根 ...

  8. jieba结巴分词--关键词抽取_结巴中文分词原理分析2

    作者:白宁超,工学硕士,现工作于四川省计算机研究院,著有<自然语言处理理论与实战>一书,作者公众号:机器学习和自然语言处理(公众号ID:datathinks) 结巴分词详解1中文分词介绍 ...

  9. 搜索引擎分词:Nutch整合Paoding中文分词步骤详解

    搜索引擎+B2B平台+SNS网站=?, 一个三不像网站.偏偏投资人需要这样一个三不像网站.从4月份开始组建团队.时间一瞬2个月过去了.做B2B需要的就是大工作量和时间,而做搜索引擎光分词这块就搞的头大 ...

  10. python中哪个库用于中文分词_以下属于?Python?中文分词方向第三方库的是:

    以下属于?Python?中文分词方向第三方库的是: 答:jieba 霍兰德代码由几个字母组成: 答:3 在弹性价格下的货币模型下,当汇率变动与本国货币存量的供给成正比,与外国货币供给成反比,当本国货币 ...

最新文章

  1. [技术文档] 一劳永逸,用USB设备制作多系统引导
  2. python 自定义异常和主动抛出异常(raise)的操作
  3. 【企业管理】价值创造的文化支撑
  4. centos7.4 U盘安装卡在 starting dracut initqueue hook
  5. 大叔手记(12):我的一次面试经历(谈大叔如何应对面试官)
  6. 机器与人交流的五大法则
  7. [SAP HANA]Data Provisioning is not configured. Contact the system administrator
  8. centos7系统管理和运维实战
  9. sql取最大值的那一行_SQL高级功能
  10. MSSQL数据库的一些长度限制
  11. 为什么学习线性代数?
  12. 30天敏捷结果(10):发挥你的优势
  13. 顶级域名 一级域名 二级域名 三级域名什么区别?
  14. 数据中台:建立在数据网络效应之上的赛道
  15. 2020美赛赛后感想总结
  16. windos10系统 激活
  17. cytoscape.js初级篇
  18. 蓝牙安全入门详解 超详细
  19. 我们的时间都去哪了?
  20. 在android studio下 如何去掉任务栏以及显示全屏

热门文章

  1. wce实现hash注入
  2. PPT详解:自动仓储、自动分拣、自动订货系统
  3. Balking Patten ------Java 多线程模式(四)
  4. TMS iCL v4.0
  5. 【C基础】三子棋小游戏
  6. css3宽度变大动画_动画演示14种流量计的工作原理,长知识
  7. 2018年5月初丽江大理一周自由行
  8. 关于python使用wordcloud生成繁体字词云的方法
  9. 双11,为什么说是一场由中国人忽悠中国人的购物狂欢节?
  10. html在线笔记,HTML笔记