postgres中的中文分词zhparser

2015-04-09 10:32 by 轩脉刃, ... 阅读, ... 评论, 收藏, 编辑

postgres中的中文分词zhparser

postgres中的中文分词方法

基本查了下网络,postgres的中文分词大概有两种方法:

  • Bamboo
  • zhparser

其中的Bamboo安装和使用都比较复杂,所以我选择的是zhparser

zhparse基于scws

scws是简易中文分词系统的缩写,它的原理其实很简单,基于词典,将文本中的内容按照词典进行分词,提取关键字等。github上的地址在这里。它是xunsearch的核心分词系统。

而zhparser是基于scws来做的postgres的扩展。

安装

基本按照zhparser 中的步骤就可以了。

使用

在postgres.conf中你可以设置下面的参数:

zhparser.punctuation_ignore = fzhparser.seg_with_duality = fzhparser.dict_in_memory = fzhparser.multi_short = fzhparser.multi_duality = fzhparser.multi_zmain = fzhparser.multi_zall = f

还可以设置自有词典

zhparser.extra_dicts = 'dict_extra.txt,mydict.xdb'

虽然项目文档说用txt也是可以的,但是我自己尝试过的时候,自有词典只能使用xdb

sql使用

按照文档说明

CREATE EXTENSION zhparser;
CREATE TEXT SEARCH CONFIGURATION testzhcfg (PARSER = zhparser);
ALTER TEXT SEARCH CONFIGURATION testzhcfg ADD MAPPING FOR n,v,a,i,e,l WITH simple;

在这三步之后,你就创建了一个testzhcfg的解析器

to_tsvector, to_tsquery 其实都是有第一个参数的,第一个参数表示解析器是什么。比如你想要进行文本搜索,可以使用下面的语句:

SELECT id FROM question_viewWHERE to_tsvector('testzhcfg', content) @@ to_tsquery('testzhcfg', '宝马') AND status = 1  ORDER BY id DESC

这个语句是基于视图question_view的

postgres中的中文分词zhparser相关推荐

  1. postgres-xl 数据库 安装中文分词 zhparser

    在工作工作中遇到使用postgres-xl数据库,需要使用中文分词zhparser ,postgresql的zhparser安装使用比较方便,但是postgres-xl在网上却找不到怎么安装 zhpa ...

  2. 深度学习将会变革NLP中的中文分词

    深度学习将会变革NLP中的中文分词 2016-08-08 19:03 转载 陈圳 0条评论 雷锋网按:本文转自ResysChina高翔,文章主要介绍了1)区分中文分词的方法:2)用深度学习的方法来解决 ...

  3. 【原创】NLP中的中文分词技术

     NLP中的中文分词技术 作者:mjs (360电商技术组) 随着需求的变化和技术的发展,互联网企业对数据的分析越来越深入,尤其是自然语言处理处理领域,近几年,在搜索引擎.数据挖掘.推荐系统等应用方 ...

  4. 如何在Elasticsearch中安装中文分词器(IK+pinyin)

    如何在Elasticsearch中安装中文分词器(IK+pinyin) 如果直接使用Elasticsearch的朋友在处理中文内容的搜索时,肯定会遇到很尴尬的问题--中文词语被分成了一个一个的汉字,当 ...

  5. ElasticSearch 中的中文分词器该怎么玩?_03

    内置分词器 ElasticSearch 核心功能就是数据检索,首先通过索引将文档写入 es.查询分析则主要分为两个步骤: 词条化:分词器将输入的文本转为一个一个的词条流. 过滤:比如停用词过滤器会从词 ...

  6. ElasticSearch 中的中文分词器以及索引基本操作详解

    文章目录 1.ElasticSearch 分词器介绍 1.1 内置分词器 1.2 中文分词器 1.2.1 安装 1.2.2 测试 1.2.3 自定义扩展词库 1.2.3.1 本地自定义 1.2.3.2 ...

  7. ElasticSearch中的中文分词详解

    1.什么是分词: 分词就是指将一个文本转化成一系列单词的过程,也叫文本分析,在Elasticsearch中称之为Analysis. 举例:我是好学生 --> 我/是/好学生 2.分词API 2. ...

  8. 实体对齐 算法_中英命名实体识别及对齐中的中文分词优化 论文笔记

    1.计算命名实体词汇对齐的置信度:对一个中英双语句对,中文在初始分词的基础上进行命名实体识别. 2.分词工具:采用中科院分词工具ICTCLAS.Stanford分词工具对中文句子进行分词,其中Stan ...

  9. 深度学习将会变革NLP中的中文分词——TODO 待好好细看

    见:https://www.leiphone.com/news/201608/IWvc75oJglAIsDvJ.html TODO 待好好细看 转载于:https://www.cnblogs.com/ ...

  10. 斯坦福python中文分词stanza

    斯坦福python中文分词stanza 1 下载 Stanford CoreNLP相关文件 下载完整的组件 https://stanfordnlp.github.io/CoreNLP/index.ht ...

最新文章

  1. Unity “出圈”:游戏引擎的技术革新和跨界商机
  2. 无法打开 configsource 文件
  3. 一文读懂浏览器存储与缓存机制
  4. java 有参数的构造函数如何注入_Spring5参考指南:依赖注入
  5. (Oracle)关于blob转到目标库报ORA-01461: 仅能绑定要插入 LONG 列的 LONG 值错误解决方案...
  6. mapper 判断条件为null
  7. 本月与上月对比数据叫什么_动态轨控数据分析:2019-11
  8. php与mysql网页实例,php与mysql 实例
  9. php项目导入其他包,将一个外部项目导入Thinkphp环境中
  10. 干货!专治设计师没灵感没创意没素材
  11. Linux基础:linux网络接口
  12. mysql命中索引规律
  13. Unix 消亡史,Linux 如何崛起 | 极客头条
  14. springMvc 使用ajax上传文件,返回获取的文件数据 附Struts2文件上传
  15. ios弧形进度条_iOS圆弧渐变进度条的实现
  16. 深度学习、机器学习面试问题总结
  17. 数据结构选择练习题(有解析)
  18. python中def main是什么意思_python main用法解析
  19. 面对众多的在线打印平台该怎么选择?
  20. poi 使用模板导出数据

热门文章

  1. Permutation 和 Combination
  2. TypeError: empty() received an invalid combination of arguments 报错
  3. 数据分析必备43个Excel函数
  4. 小水智能-智慧工地与传统工地相比,数字科技赋予了以下三大优势
  5. 【神经网络】权重衰减(weight-decay)
  6. 模拟人生java版攻略_模拟人生免费版简易攻略小技巧
  7. 模拟人生畅玩版无线连接服务器超时,打开模拟人生™:畅玩版提示网络异常或者连接不上...
  8. C语言刷题6:给定b的值,输入a和m,求a*b和a^m的值
  9. 用批处理调用Rundll32添加打印机命令说明文件
  10. CONCAT不是可以识别的内置函数名称。