在PostgreSQL数据库中定期同步数据的最有效方法是什么?
我的PostgreSQL 9.0.x数据库中有一个名为cached_projects的表,我主要通过Rails应用程序访问它,其架构如下所示:
create_table "cached_projects",:force => true do |t| t.string "name",:null => false t.datetime "created_at",:null => false t.datetime "updated_at",:null => false t.boolean "localization",:default => false,:null => false t.integer "base_project_id" end 该表由Rake任务填充,该任务每N分钟运行一次并执行以下操作: >查询来自SOAP Web服务的所有项目记录(此上下文中的“项目”仅包含名称(字符串)和几个布尔和整数字段). 这种定期同步的最有效方法是什么?重要的是,DB中的行与SOAP结果中给出的记录完全匹配,没有额外的内容. 我可以想到两个解决方案,但不确定哪个是最快的(因为有成千上万的记录而且我想尽可能频繁地同步,所以性能是一个问题): >在每次同步期间,删除cached_projects中的所有行,并为通过SOAP服务找到的每个项目插入一个新行. 这将实现具有完全相同的数据集的目标,但是每次在DB中删除~50,000行是多么昂贵,假设其中绝大多数将保持不变?在DB中有这么多“流失”有缺点吗? 这是我目前的解决方案,虽然它也完全反映了数据,但比较Rake任务中的所有记录都是计算密集型的,每次同步大约需要3-5分钟. (实际上,第一次同步,当DB表为空时,它更快但在后续同步时它必须与所有行进行比较,这样会慢一些.) 我愿意接受其他建议或改进这些想法.到目前为止,我一直在寻找我的应用程序代码中的解决方案(基于Ruby的rake任务),但我也对将更多逻辑推入数据库本身的想法感兴趣,因为我对这方面的熟悉程度要低得多东西的. 解决方法
如果您的第一次同步比后续同步更快,这意味着将所有数据插入数据库比比较每个数据更快并修改现有表.
我建议你使用TRUNCATE删除表中的所有记录而不是删除,然后将所有记录插入表中. http://en.wikipedia.org/wiki/Truncate_(SQL) (编辑:李大同) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |