PostgreSQL的中文拼音排序(转载)

您所在的位置：网站首页 › 中文姓氏拼音排序 › PostgreSQL的中文拼音排序(转载)

PostgreSQL的中文拼音排序(转载)

2024-07-09 22:29:41| 来源: 网络整理| 查看: 265

转载地址： https://my.oschina.net/Kenyon/blog/183063

环境： OS：CentOS 6.3 DB：PostgreSQL 9.2.4 TABLE: tbl_kenyon场景:

postgres=# \d tbl_kenyon Table "public.tbl_kenyon" Column | Type | Modifiers --------+------+--------------- vname | text | --使用排序后的结果，不是很理想 postgres=# select vname from tbl_kenyon order by vname; vname ------- 上海北京杭州浙江 (4 rows)

说明： postgresql的排序除了受到数据库的编码影响外，还有一个初始化参数是locale也会影响(initdb)，,通常我的选择是C，这可以让postgres数据库通过strcmp()这个函数来比较字符串，而不是strcoll()函数。这个参数可以在数据库里查看，如

因为初始化时选择的locale是C，所以数据库的默认排序也是C，要想字段内容按照中文拼音排序，需要将UTF8格式存储的内容转换为GBK方式。解决办法 1.转换字段的方式,加个convert_to前缀函数

postgres=# select vname from tbl_kenyon order by convert_to(vname,'GBK'); vname ------- 北京杭州上海浙江 (4 rows) --convert_to函数输入参数是text形式,输出编码是bytea形式，是将字符转换为目标编码的函数,如 postgres=# select convert_to('浙江','UTF8'),('浙江','GBK'); convert_to | row ----------------+------------ \xe6b599e6b19f | (浙江,GBK) (1 row)

2.列指定zh_cn的方式存储

3.查询时指定collate

其他问题： 1.在用了方法一的convert_to函数转换一段时间后，开发告诉我说有异常,报错 character with byte sequence 0xc2 0xae in encoding "UTF8" has no equivalent in encoding "GBK"

### Error querying database. Cause: org.postgresql.util.PSQLException: ERROR: character with byte sequence 0xc2 0xae in encoding "UTF8" has no equivalent in encoding "GBK"

排查了一下，发现数据库里存了一些比较奇怪的字符导致的，比如Mircle® city,niwhite®town。后对该表重建了一下，用方法二解决,所以convert_to函数使用对一些奇怪的字符转换时需要注意。 2.对于多音字，仍然会产生一定的歧义，比如重庆，会按Z去排序上述办法能满足大部分汉字的拼音排序，但仍有一些不足。比较理想的解决办法是对这类基础数据录入时就指定拼音规则，或者数据库里存一份数据的拼音字典来关联使用。其他：使用zh_cn存储时测试字段大小，未测试取值速度

postgres=# insert into tbl_kenyon select repeat('浙江GDOOASASHOME爱你',5000), repeat('浙江GDOOASASHOME爱你',5000) ; INSERT 0 1 postgres=# insert into tbl_kenyon select repeat('浙江GDOOASASHOME爱你',50000), repeat('浙江GDOOASASHOME爱你',50000) ; INSERT 0 1 postgres=# insert into tbl_kenyon select repeat('浙江GDOOASASHOME爱你',100000), repeat('浙江GDOOASASHOME爱你',100000) ; INSERT 0 1 postgres=# select pg_column_size(cname),pg_column_size(vname) from tbl_kenyon ; pg_column_size | pg_column_size ----------------+---------------- 1410 | 1406 13769 | 13769 27506 | 27506 (3 rows)

存储差异并不大

【本文地址】

公司简介

联系我们

今日新闻

点击排行

实验室常用的仪器、试剂和: 说到实验室常用到的东西，主要就分为仪器、试剂和耗

不用再找了，全球10大实验: 01、赛默飞世尔科技（热电）Thermo Fisher Scientif

三代水柜的量产巅峰T-72坦: 作者：寞寒最近，西边闹腾挺大，本来小寞以为忙完这

通风柜跟实验室通风系统有: 说到通风柜跟实验室通风，不少人都纠结二者到底是不

集消毒杀菌、烘干收纳为一: 厨房是家里细菌较多的地方，潮湿的环境、没有完全密

实验室设备之全钢实验台如: 全钢实验台是实验室家具中较为重要的家具之一，很多

图片新闻

实验室药品柜的特性有哪些: 实验室药品柜是实验室家具的重要组成部分之一，主要

小学科学实验中有哪些教学: 计算机计算器一般打孔器打气筒仪器车显微镜

实验室各种仪器原理动图讲: 1.紫外分光光谱UV分析原理：吸收紫外光能量，引起分

高中化学常见仪器及实验装: 1、可加热仪器：2、计量仪器：（1）仪器A的名称：量

微生物操作主要设备和器具: 今天盘点一下微生物操作主要设备和器具，别嫌我啰嗦

浅谈通风柜使用基本常识: 　众所周知，通风柜功能中最主要的就是排气功能。在

PostgreSQL的中文拼音排序(转载)

PostgreSQL的中文拼音排序(转载)

今日新闻

点击排行

推荐新闻

图片新闻

专题文章