t00ls.php,php学习心历(2)-中文分词
需要实现一个查询数据库的功能,要求是实现中文的模糊查询。
首先想到的是直接构建sql语句进行查询就好了,sql语句本身就提供了模糊查询的功能,但是我利用中括号对关键字进行处理之后发现根本没用用,发现数据库根本就没有把中括号当特殊符号进行处理。后来才发现原来是因为数据库的原因,mysql数据库是不支持中括号查询的,进一步了解之后发现mysql也能支持模糊查询,不过使用的是正则的方式,使用关键字regexp进行查询。形如:select * from table_name where name regexp "reg"; reg代表正则表达式。
但是后来有发现了一个问题,即是使用正则进行中文匹配经常出来一些意想不到的结果。后来想想还是用分词的方法比较靠谱,搜索结果也比较人性化,对分词的结果进行like查询就好了。于是在网上找了个分词库还比较好用,就保存下来了。
在分词库的文件夹下有一个.class.php的实现源文件,目录下有一个编译好的字典文件,其中包含了所有的中文词语。还有一个index.php文件提供了一个使用的例子。还有一个rebuild.php文件可以将字典文件重新编译,可以在字典中加入一些特有的词语,然后调用这个文件进行编译。
下载链接:http://download.csdn.net/detail/bai12345633/8827945
t00ls.php,php学习心历(2)-中文分词相关推荐
- 重磅!李沐「动手学深度学习」中文课程笔记来了!
点击 机器学习算法与Python学习 ,选择加星标 精彩内容不迷路 机器之心报道 markdown笔记与原课程视频一一对应,Jupyter代码均有详细中文注释,这份学习笔记值得收藏. 亚马逊资深首席科 ...
- 从零开始学python网络爬虫读书笔记_从零开始学Python网络爬虫 中文pdf
资源名称:从零开始学Python网络爬虫 中文pdf 第1章 Python零基础语法入门 1 第2章 爬虫原理和网页构造 17 第3章 我的第一个爬虫程序 26 第4章 正则表达式 45 第5章 Lx ...
- 跟老齐学python轻松入门_跟老齐学Python 轻松入门 中文pdf_Python教程
资源名称:跟老齐学Python 轻松入门 中文pdf 第0章 预备 1第1章 基本对象类型 13第2章 语句和文件 100第3章 函数 145第4章 类 181第5章 错误和异常 233第6章 模块 ...
- 李沐「动手学深度学习」中文课程笔记来了!代码还有详细中文注释
关注公众号,发现CV技术之美 本文转自机器之心,编辑张倩. markdown笔记与原课程视频一一对应,Jupyter代码均有详细中文注释,这份学习笔记值得收藏. 去年年初,机器之心知识站上线了亚马逊资 ...
- 创新工场提出中文分词和词性标注模型,性能分别刷新五大数据集| ACL 2020
出品 | AI科技大本营(ID:rgznai100) 中文分词和词性标注是中文自然语言处理的两个基本任务.尽管以BERT为代表的预训练模型大行其道,但事实上,中文中基于全词覆盖 (whole word ...
- 2019年了,中文分词到底该怎么做?中文分词十年方法大盘点(附下载)
https://www.toutiao.com/a6655113946241958403/ 2019-02-07 12:41:03 基本上所有的中文自然语言处理任务,第一步都需要先分词.中文分词是中文 ...
- 全文检索lucene中文分词的一些总结
为什么80%的码农都做不了架构师?>>> 全文检索几乎是所有内容管理系统软件(CMS)必备的功能,在对公司的CMS产品的开发维护过程中,全文检索始终是客户重点关注的模块,为满足 ...
- 中文分词最佳记录刷新了,两大模型分别解决中文分词及词性标注问题丨已开源...
伊瓢 发自 中关村 量子位 报道 | 公众号 QbitAI 中文分词的最佳效果又被刷新了. 在今年的ACL 2020上,来自创新工场大湾区人工智能研究院的两篇论文中的模型,刷新了这一领域的成绩. WM ...
- 深度学习将会变革NLP中的中文分词
深度学习将会变革NLP中的中文分词 2016-08-08 19:03 转载 陈圳 0条评论 雷锋网按:本文转自ResysChina高翔,文章主要介绍了1)区分中文分词的方法:2)用深度学习的方法来解决 ...
最新文章
- git 创建邮箱 用户名_git设置用户名和邮箱
- 【云原生AI】Fluid + JindoFS 助力微博海量小文件模型训练速度提升 18 倍
- excel文件下载下来损坏 js_js处理文件流下载excel
- java折半查找简述_折半查找(java版)
- python编码器_自编码器和分类器python
- 在星辰世界的guandan
- valueOf与toString
- NS2 分裂机制及代码分析一---解释类成员变量与编译类成员变量互操作
- MyBatis多个接口参数报错:Available parameters are [0, 1, param1, param2], 及解决方法
- qt调用import sys库_【开源库】使用Qt.py进行开发
- 7.15 NOIP 2013
- CAN与CAN FD通信之间存在的问题
- setting文件详解
- python VTK 初入门学习
- CRC32 Hash PK Murmur Hash
- 如何用标题博得观众眼球
- 如何快速在Mac 安装 jq 命令行 JSON 解析器
- 安卓设备互相投屏_安卓投屏电脑版-安卓投屏下载v7.9.1-IE浏览器中文网站
- 基于YII2.0中设置用户端不需要登陆的操作
- 牛散NO.3:MACD放之四海 假作真时真亦假
热门文章
- 清除购物车的php代码,ecshop 退出清空购物车
- 百分比计算机公式,百分比的计算公式怎么算的(免费教你计算百分比)
- FPGA采集AD7606串行输源码加讲解
- 低成本5W无线充电器方案FS68001B简便充电芯片
- TypeError: Student() takes no arguments
- 对大学三年学习生活的总结与反思
- flutter微信分享,qq分享
- nodebb接入已有的账号体系及实现单点登陆、更改nodebb样式及页面
- Android 4.4(KitKat)窗口管理子系统 - 体系框架
- 用python制作二维码_使用python制作二维码