postgresql – 如何在Postgres中执行简单的map reduce？

发布时间：2020-12-13 16:07:57 所属栏目：百科来源：网络整理

导读：我在postgres中使用trigrams进行全文搜索,如下所示： SELECT * FROM "Users" users WHERE 'search_text' % ANY(regexp_split_to_array(users.name,E's+')) 上面的查询检查search_text是否匹配User.displayName中的任何单词(由空格分割).这可行,但结果不按

我在postgres中使用trigrams进行全文搜索,如下所示：

SELECT * 
FROM "Users" users 
WHERE 'search_text' % ANY(regexp_split_to_array(users.name,E's+'))

上面的查询检查search_text是否匹配User.displayName中的任何单词(由空格分割).这可行,但结果不按实际“得分”排序.

分数可以通过相似性(文本,文本)函数来计算.

问题是我必须按顺序排序User.name中每个单词的所有相似之处.因此,如果用户名是“A B C”,则其分数应为：

similarity('search_text','A') + similarity('search_text','B') + similarity('search_text','C')

所以我需要将用户名字映射到分数,然后对它们求和(减少).我怎样才能在postgres中做到这一点？

解决方法

而不是拆分为分裂为集合的数组,然后重新组合相似性的总和

with users as (
    select user_id,name
    from (values (1,'John Smith')) t(user_id,name)
)
select user_id,sum(similarity('smth',name_part))
from (
    select user_id,regexp_split_to_table(name,E's+') as name_part
    from users
) users
where 'smth' % name_part
group by user_id
order by 2 desc
;
 user_id |  sum  
---------+-------
       1 | 0.375

我不确定你想要消除相似度低于阈值的那些名称部分.如果不是省略where子句

顺便说一下,你为什么需要拆分这个名字？为什么不将整个名称与搜索字符串进行比较？

with users as (
    select user_id,name)
)
select similarity('jon smth',name),*
from users
order by 1 desc
;
 similarity | user_id |    name    
------------+---------+------------
   0.333333 |       1 | John Smith

（编辑：李大同）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!