使用Postgresql进行中文分词

安装 postgresql 数据库

解压

tar -zxvf postgresql-9.6.6.tar.gz

配置

./configure

可能会缺少这个依赖,安装readline开发包

yum install readline-devel

编译

make

安装

make install

添加postgres用户并加入到postgres用户组

groupadd postgres

useradd -g postgres postgres

创建数据目录

mkdir -p /data/pgdata/

添加环境变量

在/etc/profile中添加

export PATH=/usr/local/pgsql/bin:$PATH

刷新配置文件,使之立即生效

source /etc/profile

修改数据目录和pg程序目录的权限

chown postgres:postgres /data/pgdata/

chown postgres:postgres /usr/local/pgsql/

初始化数据库

su - postgres

/usr/local/pgsql/bin/initdb -D /data/pgdata/

添加postgresql到系统服务

vim postgresql-9.6.6/contrib/start-scripts/linux

PGDATA="/data/pgdata/"

chmod a+x postgresql-9.6.6/contrib/start-scripts/linux

cp postgresql-9.6.6/contrib/start-scripts/linux /etc/init.d/postgresql

用系统服务的方式启动postgresql

service postgresql start

查看postgresql的端口起来了没有

netstat -tlnp | grep 5432

设置开机启动

chkconfig postgresql on

安装分词程序

tar -jxvf scws-1.2.3.tar.bz2

cd scws-1.2.3/

配置

./configure

编译

make

安装

make install

安装postgresql的分词插件,这个插件依赖scws程序

解压

unzip zhparser-0.1.4.zip

cd zhparser-0.1.4

编译

SCWS_HOME=/usr/local make

安装

make install

测试

进入postgres用户

su - postgres

进入pg数据库

psql

切换到postgres数据库

\c postgres

创建扩展

CREATE EXTENSION zhparser;

CREATE TEXT SEARCH CONFIGURATION testzhcfg (PARSER = zhparser);

ALTER TEXT SEARCH CONFIGURATION testzhcfg ADD MAPPING FOR n,v,a,i,e,l WITH simple;

查询分词

SELECT to_tsvector(‘testzhcfg’,‘南京市长江大桥’);

ps:分词的粒度可以从配置中调整。

更多优质文章

关注:正经的金莲

postgresql 分词_使用Postgresql进行中文分词相关推荐

  1. bilstm+crf中文分词_基于LSTM的中文分词模型

    中文分词任务是一个预测序列的经典问题,已知的方法有基于HMM[1]的分词方法.基于CRF[2]的方法和基于LSTM的分词方法. 本文介绍Xinchi Chen等人[3]提出的基于LSTM的分词方法.根 ...

  2. python中哪个库用于中文分词_以下属于?Python?中文分词方向第三方库的是:

    以下属于?Python?中文分词方向第三方库的是: 答:jieba 霍兰德代码由几个字母组成: 答:3 在弹性价格下的货币模型下,当汇率变动与本国货币存量的供给成正比,与外国货币供给成反比,当本国货币 ...

  3. PHP+mysql数据库开发搜索功能:中英文分词+全文检索(MySQL全文检索+中文分词(SCWS))...

    PHP+mysql数据库开发类似百度的搜索功能:中英文分词+全文检索 中文分词: a)   robbe PHP中文分词扩展: http://www.boyunjian.com/v/softd/robb ...

  4. 中文分词工具比较 6大中文分词器测试(哈工大LTP、中科院计算所NLPIR、清华大学THULAC和jieba、FoolNLTK、HanLP)

    中文分词工具比较 6大中文分词器测试(jieba.FoolNLTK.HanLP.THULAC.nlpir.ltp) 哈工大LTP.中科院计算所NLPIR.清华大学THULAC和jieba 个人接触的分 ...

  5. python统计词频瓦尔登湖_自然语言处理之中文分词器-jieba分词器详解及python实战...

    (转https://blog.csdn.net/gzmfxy/article/details/78994396) 中文分词是中文文本处理的一个基础步骤,也是中文人机自然语言交互的基础模块,在进行中文自 ...

  6. python中文分词工具jieba_Python 流行的中文分词工具之一 jieba

    jieba分词是Python 里面几个比较流行的中文分词工具之一.为了理解分词工具的工作原理,以及实现细节对jieba进行了详细的阅读. 读代码之前,我有几个问题是这样的: 分词工具的实现都有哪几个步 ...

  7. 2019年了,中文分词到底该怎么做?中文分词十年方法大盘点(附下载)

    https://www.toutiao.com/a6655113946241958403/ 2019-02-07 12:41:03 基本上所有的中文自然语言处理任务,第一步都需要先分词.中文分词是中文 ...

  8. ik分词器 分词原理_Solr7.7.2中文分词器

    中文分词器的配置 1.7版本之后solr内置了中文分词器所以可以使用solr内置的分词器进行配置 1.在解压的目录内找到分词器包 2.将包放在solr项目的lib下 3.修改配置文件修改他下面的con ...

  9. 搜索引擎分词:Nutch整合Paoding中文分词步骤详解

    搜索引擎+B2B平台+SNS网站=?, 一个三不像网站.偏偏投资人需要这样一个三不像网站.从4月份开始组建团队.时间一瞬2个月过去了.做B2B需要的就是大工作量和时间,而做搜索引擎光分词这块就搞的头大 ...

最新文章

  1. 理解与理论:人工智能基础问题的悲观与乐观
  2. ITU-T Technical Paper: IP网络测量模型
  3. 内嵌资源html,内嵌元素(HTML)
  4. bzoj 1045 [HAOI2008] 糖果传递 —— 贪心
  5. curl get请求_Linux curl 常用示例你都 Get 了吗?| CSDN 博文精选
  6. 【数据结构与算法】之旋转图像的求解算法
  7. node-inspector 在chrome里调试node代码
  8. 短视频内容理解与生成技术在美团的创新实践
  9. Log4cpp 使用手册
  10. python sqlite
  11. 21天jmeter打卡day3-熟悉界面
  12. 关于C#绘制qq好友列表控件
  13. eclipse,aptana,zendstudio,flex全屏插件
  14. Cadence全家桶Capture+Allegro流程-5-编辑焊盘并制作封装
  15. PassMark Software - PC Benchmark and Test Software - 软件和硬件基准测试
  16. 仿外卖mysql源码_进云仿美团外卖源码 v1.19
  17. Qt5+vs2017 UI界面添加新控件后,提示没有类成员
  18. 纯MSDOS操作系统下的计算机重启与关机
  19. 1.一个人赶着鸭子去每个村庄卖,每经过一个村子卖去所赶鸭子的一半又一只。 这样他经过了七个村子后还剩两只鸭子,问他出发时共赶多少只鸭子?经过每个村子卖出多少只鸭子?2.角谷定理。
  20. wifi营销小程序源码+搭建教程

热门文章

  1. 外置MOS管平均电流型LED降压恒流驱动器
  2. Nacos 的AP和CP模式
  3. 缺少对象 WScript 问题解决方法
  4. 毕业后月薪50K,他的竞争力来自哪里?你为什么不行?
  5. 【教程】Java继承
  6. Linux命令之sfdisk命令
  7. Xutils之HttpUtils使用
  8. 【win10专业版】Win7系统IE浏览器消失的解决方法
  9. 论文阅读 # Event Detection with Trigger-Aware Lattice Neural Network
  10. 20230403英语学习