加入收藏 | 设为首页 | 会员中心 | 我要投稿 李大同 (https://www.lidatong.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 百科 > 正文

Postgresql截断速度

发布时间:2020-12-13 16:50:27 所属栏目:百科 来源:网络整理
导读:我们使用Postgresql 9.1.4作为我们的数据库服务器。我一直在试图加快我的测试套件,所以我盯着分析db一点,看看到底发生了什么。我们使用 database_cleaner在测试结束时截断表。是的我知道交易更快,我不能在某些情况下使用它们,所以我不关心。 我关心的是
我们使用Postgresql 9.1.4作为我们的数据库服务器。我一直在试图加快我的测试套件,所以我盯着分析db一点,看看到底发生了什么。我们使用 database_cleaner在测试结束时截断表。是的我知道交易更快,我不能在某些情况下使用它们,所以我不关心。

我关心的是,为什么TRUNCATION需要这么长(比使用DELETE更长),为什么在我的CI服务器上EVEN LONGER。

现在,在本地(在Macbook Air上)一个完整的测试套件需要28分钟。拖尾日志,每次我们截断表… ie:

TRUNCATE TABLE table1,table2  -- ... etc

它需要1秒以上执行截断。拖放我们的CI服务器(Ubuntu 10.04 LTS)上的日志,需要8秒时间来截断表,构建需要84分钟。

当我切换到:删除策略,我的本地构建花了20分钟,CI服务器下降到44分钟。这是一个显着的差异,我真的很遥远为什么这可能是。我有tuned the在CI服务器上的DB,它有16gb系统RAM,4gb shared_buffers …和一个SSD。所有的好东西。这怎么可能:

一个。它的速度比我的Macbook Air有2gb的ram
b。 TRUNCATION比DELETE慢得多,当postgresql docs state explicitly它应该要快得多。

有什么想法吗?

这最近已经出现了几次,在SO和PostgreSQL邮件列表。

你的最后两点的TL; DR:

(a)更大的shared_buffers可能是CI服务器上TRUNCATE速度较慢的原因。不同的fsync配置或使用旋转介质而不是SSD也可能有故障。

(b)TRUNCATE有固定的成本,但不一定慢于DELETE,加上它做更多的工作。请参见下面的详细说明。

更新:一个significant discussion on pgsql-performance出自这篇文章。见this thread。

更新2:改进已被添加到9.2beta3应该有助于,请参阅this post。

TRUNCATE对DELETE FROM的详细说明:

虽然不是这个话题的专家,我的理解是TRUNCATE具有几乎固定的每个表的成本,而DELETE对于n行至少是O(n)更糟的是如果有任何外键引用表被删除。

我总是假定TRUNCATE的固定成本低于几乎空的表上的DELETE的成本,但这根本不是真的。

TRUNCATE表;多于DELETE FROM表;

TRUNCATE表之后的数据库状态与要运行的方式大致相同:

> DELETE FROM table;
> VACCUUM(FULL,ANALYZE)表; (仅9.0,见脚注)

…当然,TRUNCATE实际上并没有用DELETE和VACUUM实现它的效果。

关键是DELETE和TRUNCATE做不同的事情,所以你不仅仅是比较两个具有相同结果的命令。

DELETE FROM表;允许死行和膨胀保留,允许索引携带死条目,不更新查询计划器使用的表统计信息等。

TRUNCATE为您提供了一个全新的表和索引,就像它们只是CREATE。这就像你删除所有的记录,重新索引表,并做了一个真空。

如果你不在乎表中是否有crud,因为你要再次填满它,你最好使用DELETE FROM table。

因为你没有运行VACCUM,你会发现死行和索引条目累积为膨胀,必须扫描然后忽略;这会减慢你的所有查询。如果你的测试没有真正创建和删除那些你可能不会注意到或关心的数据,你可以随时在测试运行中做一个VACCUM或两个部分。更好,让积极的autovaccum设置确保autovaccum为您在后台。

在整个测试套件运行后,您仍然可以TRUNCATE所有的表,以确保许多运行没有效果。在9.0及更高版本,VACUUM(FULL,ANALYZE);全球在桌子上是至少一样好,如果不是更好,这是一个很多更容易。

IIRC Pg有一些优化,意味着它可能会注意到,当你的事务是唯一一个可以看到表,并立即标记为自由的块。在测试中,当我想创建膨胀时,我不得不有多个并发连接来做。我不会依赖这个,虽然。

DELETE FROM table;是非常便宜的小表没有f / k refs

要删除没有外键引用的表中的所有记录,所有Pg都必须执行顺序表扫描并设置遇到的元组的xmax。这是一个非常便宜的操作 – 基本上是线性读取和半线性写入。 AFAIK它不必触及索引;它们继续指向死的元组,直到它们被稍后的VACCUM清除,这也将表中仅包含死元组的块视为空闲。

如果有许多记录,如果有许多外键引用必须被检查,或者如果你计数随后的VACUUM(FULL,ANALYZE)表,DELETE只会变得昂贵;需要在DELETE的成本内匹配TRUNCATE的效果。

在我的测试中,一个DELETE FROM表;通常比TRUNCATE在0.5ms vs 2ms时快4倍。这是一个SSD上的测试数据库,运行fsync = off,因为我不在乎我是否丢失所有这些数据。当然,DELETE FROM表;不是做所有相同的工作,如果我跟随一个VACCUM(FULL,ANALYZE)表;它是一个更昂贵的21ms,所以DELETE只是一个胜利,如果我实际上不需要表pristene。

TRUNCATE表;做比DELETE更多的固定成本的工作和内务

相比之下,TRUNCATE必须做很多工作。它必须为表,其TOAST表(如果有)和表具有的每个索引分配新文件。标题必须写入这些文件,并且系统目录可能需要更新(不确定那一点,没有检查)。然后,它必须用新的文件替换旧的文件或删除旧的文件,并必须确保文件系统已经赶上了同步操作 – fsync()或类似的 – 通常刷新所有缓冲区到磁盘的更改。我不知道如果你使用(data-eating)选项fsync = off运行同步是否被跳过。

我最近学到了TRUNCATE也必须冲洗所有PostgreSQL的与旧表相关的缓冲区。这可能需要一个非常小的时间与巨大的shared_buffers。我怀疑这是为什么它的CI服务器上慢。

余额

无论如何,你可以看到一个表的TRUNCATE有一个相关的TOAST表(大多数)和几个索引可能需要一些时间。不长,但比从几乎空的表删除更长。

因此,你可能更好的做一个DELETE FROM表。

– –

注意:对于DBs 9.0之前,CLUSTER table_id_seq ON表; ANALYZE表;或VACCUM FULL ANALYZE表; REINDEX表;将是一个更接近等同于TRUNCATE。 VACUUM FULL在9.0改变了一个更好的。

(编辑:李大同)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读