postgres中的中文分词zhparser
postgres中的中文分词zhparser
2015-04-09 10:32 by 轩脉刃, ... 阅读, ... 评论, 收藏, 编辑
postgres中的中文分词zhparser
postgres中的中文分词方法
基本查了下网络,postgres的中文分词大概有两种方法:
- Bamboo
- zhparser
其中的Bamboo安装和使用都比较复杂,所以我选择的是zhparser
zhparse基于scws
scws是简易中文分词系统的缩写,它的原理其实很简单,基于词典,将文本中的内容按照词典进行分词,提取关键字等。github上的地址在这里。它是xunsearch的核心分词系统。
而zhparser是基于scws来做的postgres的扩展。
安装
基本按照zhparser 中的步骤就可以了。
使用
在postgres.conf中你可以设置下面的参数:
zhparser.punctuation_ignore = fzhparser.seg_with_duality = fzhparser.dict_in_memory = fzhparser.multi_short = fzhparser.multi_duality = fzhparser.multi_zmain = fzhparser.multi_zall = f
还可以设置自有词典
zhparser.extra_dicts = 'dict_extra.txt,mydict.xdb'
虽然项目文档说用txt也是可以的,但是我自己尝试过的时候,自有词典只能使用xdb
sql使用
按照文档说明
CREATE EXTENSION zhparser;
CREATE TEXT SEARCH CONFIGURATION testzhcfg (PARSER = zhparser);
ALTER TEXT SEARCH CONFIGURATION testzhcfg ADD MAPPING FOR n,v,a,i,e,l WITH simple;
在这三步之后,你就创建了一个testzhcfg的解析器
to_tsvector, to_tsquery 其实都是有第一个参数的,第一个参数表示解析器是什么。比如你想要进行文本搜索,可以使用下面的语句:
SELECT id FROM question_viewWHERE to_tsvector('testzhcfg', content) @@ to_tsquery('testzhcfg', '宝马') AND status = 1 ORDER BY id DESC
这个语句是基于视图question_view的
postgres中的中文分词zhparser相关推荐
- postgres-xl 数据库 安装中文分词 zhparser
在工作工作中遇到使用postgres-xl数据库,需要使用中文分词zhparser ,postgresql的zhparser安装使用比较方便,但是postgres-xl在网上却找不到怎么安装 zhpa ...
- 深度学习将会变革NLP中的中文分词
深度学习将会变革NLP中的中文分词 2016-08-08 19:03 转载 陈圳 0条评论 雷锋网按:本文转自ResysChina高翔,文章主要介绍了1)区分中文分词的方法:2)用深度学习的方法来解决 ...
- 【原创】NLP中的中文分词技术
NLP中的中文分词技术 作者:mjs (360电商技术组) 随着需求的变化和技术的发展,互联网企业对数据的分析越来越深入,尤其是自然语言处理处理领域,近几年,在搜索引擎.数据挖掘.推荐系统等应用方 ...
- 如何在Elasticsearch中安装中文分词器(IK+pinyin)
如何在Elasticsearch中安装中文分词器(IK+pinyin) 如果直接使用Elasticsearch的朋友在处理中文内容的搜索时,肯定会遇到很尴尬的问题--中文词语被分成了一个一个的汉字,当 ...
- ElasticSearch 中的中文分词器该怎么玩?_03
内置分词器 ElasticSearch 核心功能就是数据检索,首先通过索引将文档写入 es.查询分析则主要分为两个步骤: 词条化:分词器将输入的文本转为一个一个的词条流. 过滤:比如停用词过滤器会从词 ...
- ElasticSearch 中的中文分词器以及索引基本操作详解
文章目录 1.ElasticSearch 分词器介绍 1.1 内置分词器 1.2 中文分词器 1.2.1 安装 1.2.2 测试 1.2.3 自定义扩展词库 1.2.3.1 本地自定义 1.2.3.2 ...
- ElasticSearch中的中文分词详解
1.什么是分词: 分词就是指将一个文本转化成一系列单词的过程,也叫文本分析,在Elasticsearch中称之为Analysis. 举例:我是好学生 --> 我/是/好学生 2.分词API 2. ...
- 实体对齐 算法_中英命名实体识别及对齐中的中文分词优化 论文笔记
1.计算命名实体词汇对齐的置信度:对一个中英双语句对,中文在初始分词的基础上进行命名实体识别. 2.分词工具:采用中科院分词工具ICTCLAS.Stanford分词工具对中文句子进行分词,其中Stan ...
- 深度学习将会变革NLP中的中文分词——TODO 待好好细看
见:https://www.leiphone.com/news/201608/IWvc75oJglAIsDvJ.html TODO 待好好细看 转载于:https://www.cnblogs.com/ ...
- 斯坦福python中文分词stanza
斯坦福python中文分词stanza 1 下载 Stanford CoreNLP相关文件 下载完整的组件 https://stanfordnlp.github.io/CoreNLP/index.ht ...
最新文章
- Unity “出圈”:游戏引擎的技术革新和跨界商机
- 无法打开 configsource 文件
- 一文读懂浏览器存储与缓存机制
- java 有参数的构造函数如何注入_Spring5参考指南:依赖注入
- (Oracle)关于blob转到目标库报ORA-01461: 仅能绑定要插入 LONG 列的 LONG 值错误解决方案...
- mapper 判断条件为null
- 本月与上月对比数据叫什么_动态轨控数据分析:2019-11
- php与mysql网页实例,php与mysql 实例
- php项目导入其他包,将一个外部项目导入Thinkphp环境中
- 干货!专治设计师没灵感没创意没素材
- Linux基础:linux网络接口
- mysql命中索引规律
- Unix 消亡史,Linux 如何崛起 | 极客头条
- springMvc 使用ajax上传文件,返回获取的文件数据 附Struts2文件上传
- ios弧形进度条_iOS圆弧渐变进度条的实现
- 深度学习、机器学习面试问题总结
- 数据结构选择练习题(有解析)
- python中def main是什么意思_python main用法解析
- 面对众多的在线打印平台该怎么选择?
- poi 使用模板导出数据
热门文章
- Permutation 和 Combination
- TypeError: empty() received an invalid combination of arguments 报错
- 数据分析必备43个Excel函数
- 小水智能-智慧工地与传统工地相比,数字科技赋予了以下三大优势
- 【神经网络】权重衰减(weight-decay)
- 模拟人生java版攻略_模拟人生免费版简易攻略小技巧
- 模拟人生畅玩版无线连接服务器超时,打开模拟人生™:畅玩版提示网络异常或者连接不上...
- C语言刷题6:给定b的值,输入a和m,求a*b和a^m的值
- 用批处理调用Rundll32添加打印机命令说明文件
- CONCAT不是可以识别的内置函数名称。