PostgreSQL 去除字符串中的不可见字符 终极方法
发布时间:2020-12-13 17:02:00 所属栏目:百科 来源:网络整理
导读:测试表中数据如下: postgres=# select * from test; street ---------- ?澄江街道 澄江街道(2 行记录) 然后我们执行如下sql: postgres=# select * from test where street='澄江街道'; street ---------- 澄江街道(1 行记录) 问题已经暴露,明明两条‘澄江
测试表中数据如下: postgres=# select * from test; street ---------- ?澄江街道 澄江街道 (2 行记录) 然后我们执行如下sql: postgres=# select * from test where street='澄江街道'; street ---------- 澄江街道 (1 行记录) 问题已经暴露,明明两条‘澄江街道’的记录啊!咋查出来就一条了?? 接下来进行如下检查: postgres=# select street,length(street) from test; street | length ----------+-------- ?澄江街道 | 5 澄江街道 | 4 (2 行记录)遇到这种情况就问你懵不懵逼??一样的字符串长度一个5一个4啊!!日狗,混入不可见字符了。 可能这时已经有人想出了办法,这种办法如下: update test set street='澄江街道' where street like '%澄江街道%'; postgres=# start transaction; START TRANSACTION postgres=# update test set street='澄江街道' where street like '%澄江街道%'; UPDATE 2 postgres=# select * from test where street='澄江街道'; street ---------- 澄江街道 澄江街道 (2 行记录) postgres=# rollback; ROLLBACK哈哈,皆大欢喜,问题解决了。 但是,如果这种数据很多呢??? 你是要一条一条的update咯?? 不幸的是,本人遇到的这种数据就很多(因为数据是从excel中导入进来的)。 然后我就找到了如下这种终极方案: 先确定这种不可见字符到底是哪个字符(一般情况一个csv文件的中如果有不可见字符应该也都是同一个不可见字符) postgres=# select encode(street::bytea,'escape') from test; encode -------------------------------------------------------------- 357273277346276204346261237350241227351201223 346276204346261237350241227351201223 (2 行记录)那段357273277多刺眼啊。。。。。。 如果你有仇人可以考虑有这种方法报复他了 然后确定是否可以将该不可见字符过滤掉: postgres=# select encode(street::bytea,'escape') from test where btrim(street::bytea,E'357273277'::bytea) = '澄江街道'; encode -------------------------------------------------------------- 357273277346276204346261237350241227351201223 346276204346261237350241227351201223 (2 行记录)查到了两条记录,用这个btrim看来确实是把字符串里的357273277全部去除了。 接下来就要update表啦~ postgres=# update test set street=btrim(street::bytea,E'357273277'::bytea); UPDATE 2update成功。 查看数据: postgres=# select * from test; street ---------------------------- xe6be84e6b19fe8a197e98193 xe6be84e6b19fe8a197e98193 (2 行记录)哈哈,中文变成16进制的了。 不过不用捉急。 postgres=# select convert_from(street::bytea,'UTF8') from test; convert_from -------------- 澄江街道 澄江街道 (2 行记录)再转回UTF8编码不就行了?(乱码问题是所有问题中最简单的问题,没有之一) 按照这种方法update一下表: postgres=# update test set street=convert_from(street::bytea,'UTF8'); UPDATE 2 postgres=# select * from test; street ---------- 澄江街道 澄江街道 (2 行记录) 正常的数据又回来啦。 postgres=# select * from test where street='澄江街道'; street ---------- 澄江街道 澄江街道 (2 行记录) postgres=# select street,length(street) from test; street | length ----------+-------- 澄江街道 | 4 澄江街道 | 4 (2 行记录)不可见字符的问题也得到了解决。 (编辑:李大同) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |