为什么80%的码农都做不了架构师?>>>   

线上产品升级需要导入一批3W多的用户数据,问题卡在了用户的汉字拼音码上,Excel也能实现大部分汉字的拼音转换,但还有很多生僻字无法转换。下面的汉字转拼音功能是在德哥的BLOG上的主题函数上做了一些简化和外加做了一层嵌套实现我本地的功能。 需求:软件需要根据用户的拼音码(中文的拼音缩写)输入来显示用户姓名,比如输入ZS就能出来一串类似张三、张松之类的用户名。 DB版本9.3

数据准备:

--汉字和拼音以及拼音首字母的对照表
create table pinyin (hz varchar(1),py varchar(6),zm varchar(1));
--索引以及唯一约束,视情况怎么加
create index idx_pinyin_hz on pinyin(hz);
--create unique index idx_pinyin_hz_py on pinyin(hz,py);
--create unique index idx_pinyin_hz_zm on pinyin(hz,zm);
--未收录汉字插入以下表
create table new_discover (hz varchar(1) primary key,py varchar(6),zm varchar(1));

函数准备:

--创建输出type和函数,函数返回是数组
CREATE TYPE t_py_zm as (c1 text[],c2 text[]);
CREATE OR REPLACE FUNCTION get_py_zm(i_hz text)RETURNS SETOF t_py_zm AS
$BODY$
DECLARE
v_hz text;
i int;
v_sql1 text;
v_sql2 text;
v_sql3 text;
v_sql4 text;
v_sql text;
v_max_id int;
v_id int;
BEGIN
--创建临时表用来存储每个汉字和字母
set client_min_messages = warning;
CREATE TEMPORARY TABLE IF NOT EXISTS tmp_get_py_zm (id int,py varchar(6),zm varchar(1)) ON COMMIT DELETE ROWS;
truncate table tmp_get_py_zm;
i := 0;--拆分输入参数为每个字符并插入到临时表里
for v_hz in select regexp_split_to_table(i_hz,'') loopif ascii(v_hz) > 255 theninsert into tmp_get_py_zm select i,py,zm from pinyin where hz=v_hz;elseinsert into tmp_get_py_zm values(i,v_hz,v_hz);end if;if not found thenperform 1 from new_discover where hz = v_hz;if not found theninsert into new_discover(hz) values(v_hz);end if;insert into tmp_get_py_zm values(i,'?','?');end if;i := i+1;
end loop;select max(id) into v_max_id from tmp_get_py_zm;
if v_max_id > 0 thenv_sql1 := '';v_sql3 := '';v_sql4 := '';v_id := 0;for v_id in select generate_series(0,v_max_id) loopif v_id <> v_max_id thenv_sql1 := v_sql1||'(select py,zm from tmp_get_py_zm where id='||v_id||') as t'||v_id||',';v_sql3 := v_sql3||'t'||v_id||'.py::text||';v_sql4 := v_sql4||'t'||v_id||'.zm::text||';elsev_sql1 := v_sql1||'(select py,zm from tmp_get_py_zm where id='||v_id||') as t'||v_id;v_sql3 := v_sql3||'t'||v_id||'.py::text';v_sql4 := v_sql4||'t'||v_id||'.zm::text';v_sql := 'select array_agg('||v_sql3||'),array_agg('||v_sql4||') from '||v_sql1;end if;end loop;
elsev_sql := 'select array_agg(py::text),array_agg(zm::text) from tmp_get_py_zm';
end if;return query execute v_sql;
return;
END;
$BODY$LANGUAGE plpgsql VOLATILECOST 100ROWS 1000;
ALTER FUNCTION get_py_zm(text)OWNER TO postgres;--上面这个函数比我预期的功能要强大,除了输出汉字的拼音缩写外还提供了全拼,效果如下
postgres=# select * from get_py_zm('我爱你');c1    |  c2
----------+-------{woaini} | {wan}
(1 row)

我的需求只需要输出简写,故外面再套一层循环更新函数并转换数组为字符类型,省得去更新原来的函数

CREATE OR REPLACE FUNCTION f_update_pinyin()RETURNS VOID AS $BODY$
declare
v_value text;
i_hn text;
rec record;
begin
--where后面的条件是筛选出不全为拼音的数据,也可以不用该条件全量更新,tmp_kenyon是我要更新的表
for rec in select num,name from tmp_kenyon where pym !~ E'[A-Z][A-Z][A-Z]' and pym !~ E'[A-Z][A-Z]'  loopi_hn:=rec.name;select c2[1]::text into v_value from get_py_zm(i_hn);update tmp_kenyon set pym = v_value where num = rec.num;end loop;
return;
end;
$BODY$LANGUAGE plpgsql VOLATILECOST 100;
ALTER FUNCTION f_update_pin()OWNER TO postgres;  --调用该函数时直接使用select f_update_pin();
--如果遇到词库没有的汉字需要在new_discovery里面更新并最终补充到pinyin词库表里去

pinyin词库表整理在了下面的云盘地址里,目前收录了将近7000个常用汉字,地址在: http://pan.baidu.com/s/1pJ6spSn 导入方式
[postgres@db1 ~]$ psql
psql (9.2.4)
Type "help" for help.
postgres=# \i /home/postgres/py.sql

参考: http://blog.163.com/digoal@126/blog/static/163877040201241452827379/

转载于:https://my.oschina.net/Kenyon/blog/284161

PostgreSQL的汉字转拼音相关推荐

  1. PostgreSQL对汉字按拼音排序

    转自:https://www.cnblogs.com/gaojian/p/3188609.html postgres=# \lList of databasesName | Owner | Encod ...

  2. PostgreSQL汉字转拼音

    标签 PostgreSQL , 拼音 , 汉字转拼音 背景 在有些应用中,可能会有对拼音搜索.拼音首字母搜索.中文搜索共存的需求.在PostgreSQL中如何实现这个需求呢? 关键是函数转拼音和首字母 ...

  3. 在PostgreSQL中实现按拼音、汉字、拼音首字母搜索的例子

    在PostgreSQL中实现按拼音.汉字.拼音首字母搜索的例子 作者 digoal 日期 2016-11-09 标签 PostgreSQL , 拼音 , 中文分词 , tsvector , 拼音首字母 ...

  4. Java pinyin4j 汉字转拼音包括——多音字

    Java汉字转拼音(包括多音字) 有个需求需要把汉字转拼音,我的小伙伴推荐用Unicode官方的包:下载有些慢. 实际中用了Java工具包:pinyin4j解决 可以转汉字,多音字,多音字的地方要求不 ...

  5. mysql汉字转拼音函数

    -- 创建汉字拼音对照临时表 CREATE TABLE IF NOT EXISTS `t_base_pinyin` (`pin_yin_` varchar(255) CHARACTER SET gbk ...

  6. 昵称到拼音php,php 汉字转换拼音程序_PHP教程

    php 汉字转换拼音程序 $p=ord(substr($str,$i,1)); if($p>160){ $q=ord(substr($str,++$i,1)); $p=$p*256+$q-655 ...

  7. 文件名批量汉字转拼音+核磁共振影像数据处理

    文件名批量汉字转拼音+核磁共振影像数据处理 讲解视频内容请移步Bilibili: https://space.bilibili.com/542601735 入群讨论请加v hochzeitstorte ...

  8. mysql简拼_mysql实现汉字换拼音,及汉字转简拼

    我们实现汉字转拼音,需要结束代码包来完成,但是有个问题 ,针对多音字,会把排列组合的所有方式 全部打印出来. 比如 地区名,都是不需要多音字的,只有一个拼音发音是正确的. 下边 我们来实现 汉字转拼音 ...

  9. java 汉字转拼音_推荐一款前端汉字转拼音组件工具

    推荐一个前端的汉字转拼音组件 hotoo/pinyin, 支持在 Node 和 Web 浏览器环境运行. github网址:https://github.com/hotoo/pinyin 特性 根据词 ...

最新文章

  1. RunnableException与CheckedException
  2. UA PHYS515A 电磁理论III 静磁学问题2 标量势方法与向量势方法简介
  3. grep 匹配制表符 和 换行符
  4. Linux运维之——每日小技巧,使用awk命令截取每行的指定列数据
  5. Linux篇 | 多网卡绑定技术 binding 和 网络组nmcli
  6. 在 Ubuntu 16.04 上安装 LEMP 环境之图文向导
  7. Web框架——Flask系列之设置和读取cookie(十五)
  8. element-ui 左侧边栏el-menu组件: 路由跳转 - 案例篇
  9. 网络信息如此庞杂,人工智能助你验明真伪
  10. [WCF编程]10.操作:请求/应答操作
  11. C#用Socket和S7.net实现安卓手机APP读写西门子PLC数据(安卓APP使用的E4A中文编程软件)
  12. git输入 ssh-keygen -t rsa 后只显示Generating public/private rsa key pair. 然后就直接跳出了
  13. 基于三星6.0.1的Xposed模块安装以及模拟位置的安装
  14. 带有风的诗词_带有风的诗句
  15. 计算机类部分核心期刊说明
  16. JVM源码分析之wait()和notify()
  17. Android刷windows 10系统,无处不在!安卓手机能刷 Win10 系统了
  18. Google大神每天写多少行代码?真相让你吃惊!
  19. gom列表自动选择服务器,GOM纯微端服务器如何设置
  20. 中科蓝讯 AB32VG1 RISC-V开发板模块评测任务大挑战

热门文章

  1. php精度两位小数点,php中小数精度的代码解析
  2. 前沿观察 | 数据库战争往事
  3. windows使用VS获取窗口句柄或者类名
  4. 液晶屏有吱吱的电流声该怎么办
  5. 【shell】批量修改文件前缀和后缀
  6. 【Daticist】|(二)大数据分析学习计划(更新ing)
  7. 1.聊聊Netty那些事儿之从内核角度看IO模型
  8. java compareto 时间_Java LocalDateTime compareTo()用法及代码示例
  9. topik怎么读_韩语TOPIK的1-6级是个什么概念呢?
  10. gt740m显卡linux驱动,NVIDIA GeForce GT 740驱动