12.5. 解析器

文本搜索解析器负责把未处理的文档文本划分成记号并且标识每一个记号的类型,而可能的类型集合由解析器本身定义。注意一个解析器完全不会修改文本 — 它简单地标识看似有理的词边界。因为这种有限的视野,对于应用相关的自定义解析器的需求就没有自定义字典那么强烈。目前PostgreSQL只提供了一种内建解析器,它已经被证实对很多种应用都适用。

内建解析器被称为pg_catalog.default。它识别 23 种记号类型,如表 12.1所示。

表 12.1. 默认解析器的记号类型

别名 描述 例子
asciiword 单词,所有 ASCII 字母 elephant
word 单词,所有字母 mañana
numword 单词,字母和数字 beta1
asciihword 带连字符的单词,所有 ASCII up-to-date
hword 带连字符的单词,所有字母 lógico-matemática
numhword 带连字符的单词,字母和数字 postgresql-beta1
hword_asciipart 带连字符的单词部分,所有 ASCII postgresql in the context postgresql-beta1
hword_part 带连字符的单词部分,所有字母 lógico or matemática in the context lógico-matemática
hword_numpart 带连字符的单词部分,字母和数字 beta1 in the context postgresql-beta1
email Email 地址 foo@example.com
protocol 协议头部 http://
url URL example.com/stuff/index.html
host 主机 example.com
url_path URL 路径 /stuff/index.html, in the context of a URL
file 文件或路径名 /usr/local/foo.txt, if not within a URL
sfloat 科学记数法 -1.234e56
float 十进制记数法 -1.234
int 有符号整数 -1234
uint 无符号整数 1234
version 版本号 8.3.0
tag XML 标签 <a href="dictionaries.html">
entity XML 实体 &amp;
blank 空格符号 (其他不识别的任意空白或标点符号)

注意

解析器的一个“字母”的概念由数据库的区域设置决定,具体是lc_ctype。只包含基本 ASCII 字母的词被报告为一个单独的记号类型,因为有时可以用来区别它们。在大部分欧洲语言中,记号类型wordasciiword应该被同样对待。

email不支持 RFC 5322 定义的所有合法 email 字符。具体来说,对 email 用户名被支持的非字母数字字符只有句点、破折号和下划线。

解析器有可能从同一份文本得出相互覆盖的记号。例如,一个带连字符的词可能会被报告为一整个词或者多个部分:

SELECT alias, description, token FROM ts_debug('foo-bar-beta1');alias      |               description                |     token
-----------------+------------------------------------------+---------------numhword        | Hyphenated word, letters and digits      | foo-bar-beta1hword_asciipart | Hyphenated word part, all ASCII          | fooblank           | Space symbols                            | -hword_asciipart | Hyphenated word part, all ASCII          | barblank           | Space symbols                            | -hword_numpart   | Hyphenated word part, letters and digits | beta1

这种行为是值得要的,因为它允许对整个复合词和每个部分进行搜索。这里是另一个例子:

SELECT alias, description, token FROM ts_debug('http://example.com/stuff/index.html');alias   |  description  |            token
----------+---------------+------------------------------protocol | Protocol head | http://url      | URL           | example.com/stuff/index.htmlhost     | Host          | example.comurl_path | URL path      | /stuff/index.html

本文转自PostgreSQL中文社区,原文链接:12.5. 解析器

PostgreSQL 10.1 手册_部分 II. SQL 语言_第 12 章 全文搜索_12.5. 解析器相关推荐

  1. PostgreSQL 10.1 手册_部分 II. SQL 语言_第 9 章 函数和操作符_9.23. 行和数组比较

    9.23. 行和数组比较 9.23.1. IN9.23.2. NOT IN9.23.3. ANY/SOME (array)9.23.4. ALL (array)9.23.5. 行构造器比较9.23.6 ...

  2. PostgreSQL 10.1 手册_部分 II. SQL 语言_第 12 章 全文搜索_12.9. GIN 和 GiST 索引类型

    12.9. GIN 和 GiST 索引类型 有两种索引可以被用来加速全文搜索.注意全文搜索并非一定需要索引,但是在一个定期会被搜索的列上,通常需要有一个索引. CREATE INDEX name ON ...

  3. PostgreSQL 10.1 手册_部分 II. SQL 语言_第 9 章 函数和操作符_9.4. 字符串函数和操作符...

    9.4. 字符串函数和操作符 9.4.1. format 本节描述了用于检查和操作字符串值的函数和操作符.在这个环境中的串包括所有类型character.character varying和text的 ...

  4. PostgreSQL 10.1 手册_部分 II. SQL 语言_第 8 章 数据类型_8.10. 位串类型

    8.10. 位串类型 位串就是一串 1 和 0 的串.它们可以用于存储和可视化位掩码.我们有两种类型的 SQL 位类型:bit(n)和bit varying(n),其中 n是一个正整数. bit类型的 ...

  5. PostgreSQL 10.1 手册_部分 II. SQL 语言_第 12 章 全文搜索_12.4. 额外特性

    12.4. 额外特性 12.4.1. 操纵文档12.4.2. 操纵查询12.4.3. 用于自动更新的触发器12.4.4. 收集文档统计数据 这一节描述在文本搜索中有用的一些额外的函数和操作符. 12. ...

  6. PostgreSQL 10.1 手册_部分 II. SQL 语言_第 5 章 数据定义_5.11. 外部数据

    5.11. 外部数据 PostgreSQL实现了部分的SQL/MED规定,允许我们使用普通SQL查询来访问位于PostgreSQL之外的数据.这种数据被称为外部数据(注意这种用法不要和外键混淆,后者是 ...

  7. PostgreSQL 10.1 手册_部分 II. SQL 语言_第 9 章 函数和操作符_9.15. JSON 函数和操作符...

    9.15. JSON 函数和操作符 表 9.43展示了可以用于两种 JSON 数据类型(见第 8.14 节)的操作符. 表 9.43. json和jsonb 操作符 操作符 右操作数类型 描述 例子 ...

  8. PostgreSQL 10.1 手册_部分 II. SQL 语言_第 10 章 类型转换_10.4. 值存储

    10.4. 值存储 将被插入到一个表的值会按照下列步骤被转换到目标列的数据类型. 值存储类型转换 检查一个与目标的准确匹配. 否则,尝试转换表达式为目标类型.如果在两种类型之间的一个 赋值造型已经被注 ...

  9. PostgreSQL 10.1 手册_部分 II. SQL 语言_第 8 章 数据类型_8.6. 布尔类型

    8.6. 布尔类型 PostgreSQL提供标准的SQL类型boolean,参见表 8.19.boolean可以有多个状态:"true(真)"."false(假)&quo ...

  10. PostgreSQL 10.1 手册_部分 II. SQL 语言_第 5 章 数据定义_5.5. 修改表

    5.5. 修改表 5.5.1. 增加列5.5.2. 移除列5.5.3. 增加约束5.5.4. 移除约束5.5.5. 更改列的默认值5.5.6. 修改列的数据类型5.5.7. 重命名列5.5.8. 重命 ...

最新文章

  1. 设计模式(十二):通过ATM取款机来认识“状态模式”(State Pattern)
  2. 11g废弃的Hint - BYPASS_UJVC
  3. 已解决:Unable to register authentication agent: GDBus.Error:org.freedesktop.PolicyKit1.Error.Failed:
  4. 关于Python的学习和认知---刘浩
  5. FloodFill算法详解及应用
  6. java 递归 堆栈_Java中的堆栈安全递归
  7. 吕布机器人唤醒方式能换么_《王者荣耀》推吕布智能机器人,网友:小学生受到1万点暴击伤害...
  8. win8.1 安装.NET Framework3.5
  9. android 关闭上下文菜单,【Android笔记】ContextMenu上下文菜单
  10. 【最详细】最全java面试题及答案(210道)
  11. 世界上第一台计算机的问世地点,1946年2月14日 世界上第一台计算机诞生及bug由来...
  12. 「题解」NOIP模拟测试题解乱写II(36)
  13. charles android 抓取https 出现unknown简单明了的解决教程
  14. 大数据开发学习脑图+学习路线清晰的告诉你!月薪50K很轻松
  15. java开发微信公众号(SpringMVC)2-消息管理功能
  16. python数据可视化神器,我就服它
  17. 使用idea起服务,起好久都起不起来
  18. python numpy 获得数组的行和列(三种方法)
  19. 电车识别 电瓶车识别
  20. 剖析CPU温度监控技术

热门文章

  1. 使用hbase遇到的问题
  2. (转载)Jvm工作原理学习笔记
  3. Linux部署之批量自动安装系统之DHCP篇
  4. Win7(64Bit) 安装 PL/SQL Developer图解
  5. Could not resolve type alias ‘‘
  6. python json数据格式
  7. java基础--集合框架的认识
  8. Linux 下安装Node.js
  9. .net core 图片合并,图片水印,等比例缩小,SixLabors.ImageSharp
  10. 手机站的拨打电话和发短信