MySQL排序内部原理探秘

发布时间：2020-12-12 00:01:38 所属栏目：MySql教程来源：网络整理

导读：p style="color:rgb(51,51,51);font-family:'microsoft yahei',arial;font-size:16px;text-align:justify;" span style="font-weight:700;"［目录］ p style="color:rgb(51,arial;font-size:16px;text-align:justify;" 一、我们要解决什么问题? 二、排序，排

［目录］

一、我们要解决什么问题?
二、排序，排序，排序?
三、索引优化排序?
四、排序模式?
五、外部排序?
六、trace结果解释?
七、MySQL其他相关排序参数?
八、MySQL排序优化总结?
九、参考文献

<h2 style="font-family:'microsoft yahei',arial;font-weight:500;line-height:1.1;color:rgb(51,51);font-size:30px;text-align:justify;">
一、我们要解决什么问题

MySQL排序其实是一个老生常谈的问题了，但是我们这次想由浅入深详细说说MySQL排序模式，怎么影响MySQL选择不同的排序模式和怎么优化排序。

同时也希望通过这篇文章解决大家的以下疑问：

MySQL在哪些地方会使用排序，怎么判断MySQL使用了排序；

MySQL有几种排序模式，我们可以通过什么方法让MySQL选择不同的排序模式；

MySQL排序跟有啥关系，在哪些情况下增加能优化排序；


怎么判断MySQL使用到了磁盘来排序，怎么避免或者优化磁盘排序；
排序时变长字段（varchar）数据在内存是怎么存储的，5.7有哪些改进；
在
情况下，排序模式有哪些改进；

到底是什么鬼，该状态值过大说明了什么问题，可以通过什么方法解决；

最后MySQL使用到了排序的话，依次可以通过什么办法分析和优化让排序更快？









)的索引就能够利用B tree的特性来避免额外排序。




 *  t1
    key_part1,key_part2,... ;
<span class="hljs-operator"><span class="hljs-keyword" style="color:rgb(0,136);">WHERE key_part1 = constant

<span class="hljs-keyword" style="color:rgb(0,136);">BY key_part2;
<span class="hljs-operator"><span class="hljs-keyword" style="color:rgb(0,136);">BY key_part1 <span class="hljs-keyword" style="color:rgb(0,136);">DESC,key_part2 <span class="hljs-keyword" style="color:rgb(0,136);">DESC;
<span class="hljs-operator"><span class="hljs-keyword" style="color:rgb(0,136);">WHERE key_part1 = <span class="hljs-number" style="color:rgb(0,102,102);">1

<span class="hljs-keyword" style="color:rgb(0,136);">WHERE key_part1 > constant

<span class="hljs-keyword" style="color:rgb(0,136);">ASC;
<span class="hljs-operator"><span class="hljs-keyword" style="color:rgb(0,136);">WHERE key_part1 < constant

<span class="hljs-keyword" style="color:rgb(0,136);">WHERE key_part1 = constant1 <span class="hljs-keyword" style="color:rgb(0,136);">AND key_part2 > constant2

<span class="hljs-keyword" style="color:rgb(0,136);">BY key_part2;


<p style="color:rgb(51,arial;font-size:16px;text-align:justify;">

从以上例子里面我们也可以看到，如果要让MySQL使用索引优化排序应该怎么建组合索引。


<h2 style="font-family:'microsoft yahei',51);font-size:30px;text-align:justify;">

四、排序模式


<h3 style="font-family:'microsoft yahei',51);font-size:24px;text-align:justify;">

4.1 实际trace结果

<p style="color:rgb(51,arial;font-size:16px;text-align:justify;">

但是还是有非常多的SQL没法使用索引进行排序，例如


<p style="color:rgb(51,63);">select * from film where Producer like '东京热%' and prod_time>'2015-12-01' order by actor_age;


<p style="color:rgb(51,arial;font-size:16px;text-align:justify;">

我们想查询“东京热”出品的，从去年12月1号以来，并且按照演员的年龄排序的电影信息。?

（好吧，假设我这里有一个每一位男DBA都想维护的数据库:）


<p style="color:rgb(51,arial;font-size:16px;text-align:justify;">

这种情况下，使用索引已经无法避免排序了，那MySQL排序到底会怎么做列。


<p style="color:rgb(51,arial;font-size:16px;text-align:justify;">

笼统的来说，它会按照：


<ol style="color:rgb(51,arial;font-size:16px;text-align:justify;">
依据’2015-12-01’过滤数据，查找需要的数据；
对查找到的数据按照进行排序,并 按照将必要的数据按照依序返回给客户端。






依据’2015-12-01’过滤数据，查找需要的数据
 '2015-12-01'))","attached_conditions_computation": [
      ],"attached_conditions_summary": [
        {
          "table": "`film`","attached": "((`film`.`Producer` like '东京热%') and (`film`.`prod_time` > '2015-12-01'))"
        }
      ]
    }



对查找到的数据按照依序返回给客户端



#stepsfilesort_informationdirectionfieldactor_agefilesort_priority_queue_optimizationusablecause applicable ( LIMIT)filesort_executionfilesort_summaryexamined_rowsnumber_of_tmp_filessort_buffer_sizesort_mode
字段的asc排序操作。
: [
              {
                : ,: ,0);">"field": 
              }

`"`
`) (,num_rows) ,param_rows) ,num_chunks) ,table_sort_buffer_size()) _alnum(,68);">.using_packed_addons() ? " : param_addon_fields() ? : )`

”和“< sort_key,additional_fields >看过其他介绍介绍MySQL排序文章的同学应该比较清楚，相对较新。

对应的是MySQL 4.1以后引入的“修改后排序模式”
根据索引或者全表扫描，按照过滤条件获得需要查询的排序字段值和row ID；将要排序字段值和row ID组成键值对，存入sort buffer中；如果sort buffer内存大于这些键值对的内存，就不需要创建临时文件了。否则，每次sort buffer填满以后，需要直接用qsort(快速排序算法)在内存中排好序，并写到临时文件中；重复上述步骤，直到所有的行数据都正常读取了完成；用到了临时文件的，需要利用磁盘外部排序，将row id写入到结果文件中；根据结果文件中的row ID按序读取用户需要返回的数据。由于row ID不是顺序的，导致回表时是随机IO，为了进一步优化性能（变成顺序IO），MySQL会读一批row ID，并将读到的数据按排序字段顺序插入缓存区中(内存大小)。根据索引或者全表扫描，按照过滤条件获得需要查询的数据；将要排序的列值和组成键值对，存入sort buffer中；如果sort buffer内存大于这些键值对的内存，就不需要创建临时文件了。否则，每次sort buffer填满以后，需要直接用qsort(快速排序算法)在内存中排好序，并写到临时文件中；重复上述步骤，直到所有的行数据都正常读取了完成；用到了临时文件的，需要利用磁盘外部排序，将排序后的数据写入到结果文件中；直接从结果文件中返回用户需要的字段数据，而不是根据row ID再次回表查询。的参数。当“排序的键值对大小” >?时，MySQL认为磁盘外部排序的IO效率不如回表的效率，会选择第一种排序模式；反之，会选择第二种不回表的模式。从要排序的900M数据中读取100MB数据到内存中，并按照传统的内部排序算法（快速排序）进行排序；将排序好的数据写入磁盘；重复1，2两步，直到每个100MB chunk大小排序好的数据都被写入磁盘；每次读取排序好的chunk中前10MB（= 100MB / (9 chunks + 1)）数据，一共9个chunk需要90MB，剩下的10MB作为输出缓存；对这些数据进行一个“9路归并”，并将结果写入输出缓存。如果输出缓存满了，则直接写入最终排序结果文件并清空输出缓存；如果9个10MB的输入缓存空了，从对应的文件再读10MB的数据，直到读完整个文件。最终输出的排序结果文件就是900MB排好序的数据了。从要排序的50GB数据中读取100MB数据到内存中，并按照传统的内部排序算法（快速排序）进行排序；将排序好的数据写入磁盘；重复1，2两步，直到每个100MB chunk大小排序好的数据都被写入磁盘；每次取25个分片进行归并排序，这样就形成了20个（500/25=20）更大的2.5GB有序的文件；对这20个2.5GB的有序文件进行归并排序，形成最终排序结果文件。根据索引或者全表扫描，按照过滤条件获得需要查询的数据；将要排序的列值和row ID组成键值对，存入sort buffer中；如果sort buffer内存大于这些键值对的内存，就不需要创建临时文件了。否则，每次sort buffer填满以后，需要直接用qsort(快速排序模式)在内存中排好序，作为一个block写到临时文件中。跟正常的外部排序写到多个文件中不一样，MySQL只会写到一个临时文件中，并通过保存文件偏移量的方式来模拟多个文件归并排序；重复上述步骤，直到所有的行数据都正常读取了完成；每MERGEBUFF (7) 个block抽取一批数据进行排序，归并排序到另外一个临时文件中，直到所有的数据都排序好到新的临时文件中；重复以上归并排序过程，直到剩下不到MERGEBUFF2 (15)个block。通俗一点解释：? 第一次循环中，一个block对应一个sort buffer（大小为）排序好的数据；每7个做一个归并。? 第二次循环中，一个block对应MERGEBUFF (7) 个sort buffer的数据，每7个做一个归并。? …? 直到所有的block数量小于MERGEBUFF2 (15)。最后一轮循环，仅将row ID写入到结果文件中；根据结果文件中的row ID按序读取用户需要返回的数据。为了进一步优化性能，MySQL会读一批row ID，并将读到的数据按排序字段要求插入缓存区中(内存大小)。 MySQL把外部排序好的分片写入同一个文件中，通过保存文件偏移量的方式来区别各个分片位置； MySQL每MERGEBUFF (7)个分片做一个归并，最终分片数达到MERGEBUFF2 (15)时，做最后一次归并。这两个值都写死在代码中了…… 的描述只有一句话 passes that algorithm has had . If this is large,you should consider increasing sort_buffer_size . 到底是什么，该值比较大时说明了什么，通过什么方式可以缓解这个问题。对应的就是MySQL做归并排序的次数，也就是说，如果值比较大，说明和要排序的数据差距越大，我们可以通过增大或者让填入的键值对更小来缓解归并排序的次数。函数来实现，第5步单次归并使用实现，源码摘录如下： for (i=0 ; i < num_chunks - MERGEBUFF * 3 / 2 ; i+= MERGEBUFF) { if (merge_buffers(param,// param from_file,// from_file to_file,// to_file sort_buffer,// sort_buffer last_chunk++,// last_chunk [out] Merge_chunk_array(&chunk_array[i],MERGEBUFF),0)) // flag goto cleanup; } 0)) break; /* purecov: inspected */ ... } 截取部分<code style="font-family:'Source Code Pro',63);">merge_buffers()的代码如下， <pre class="prettyprint" style="overflow:auto;font-family:'Source Code Pro',monospace;color:inherit;display:block;">int merge_buffers(Sort_param param,IO_CACHE from_file,IO_CACHE to_file,Merge_chunk last_chunk,int flag) { ... current_thd->inc_status_sort_merge_passes(); 可以看到：每个<code style="font-family:'Source Code Pro',63);">merge_buffers()都会增加<code style="font-family:'Source Code Pro',63);">sort_merge_passes，也就是说每一次对MERGEBUFF (7)个block归并排序都会让<code style="font-family:'Source Code Pro',63);">sort_merge_passes加一，<code style="font-family:'Source Code Pro',63);">sort_merge_passes越多表示排序的数据太多，需要多次merge pass。解决的方案无非就是缩减要排序数据的大小或者增加<code style="font-family:'Source Code Pro',63);">sort_buffer_size。 打个小广告，在我们的qmonitor中就有<code style="font-family:'Source Code Pro',63);">sort_merge_pass的性能指标和参数值过大的报警设置。 <h2 style="font-family:'microsoft yahei',51);font-size:30px;text-align:justify;"> 六、trace结果解释 说明白了三种排序模式和外部排序的方法，我们回过头来看一下trace的结果。 <h3 style="font-family:'microsoft yahei',51);font-size:24px;text-align:justify;"> 6.1 是否存在磁盘外部排序



<p style="color:rgb(51,63);">"number_of_tmp_files": 0,


<p style="color:rgb(51,63);">number_of_tmp_files

表示有多少个分片，如果<code style="font-family:'Source Code Pro',63);">number_of_tmp_files不等于0，表示一个<code style="font-family:'Source Code Pro',63);">sort_buffer_size大小的内存无法保存所有的键值对，也就是说，MySQL在排序中使用到了磁盘来排序。

<h3 style="font-family:'microsoft yahei',51);font-size:24px;text-align:justify;">
6.2 是否存在优先队列优化排序

由于我们的这个SQL里面没有对数据进行分页限制，所以<code style="font-family:'Source Code Pro',63);">filesort_priority_queue_optimization并没有启用

<pre class="prettyprint" style="overflow:auto;font-family:'Source Code Pro',0);">"filesort_priority_queue_optimization": {
"usable": false,0);">"cause": "not applicable (no LIMIT)"
},

而正常情况下，使用了Limit会启用优先队列的优化。优先队列类似于FIFO先进先出队列。

算法稍微有点改变，以回表排序模式为例。

<code style="font-family:'Source Code Pro',63);">sort_buffer_size足够大

如果Limit限制返回N条数据，并且N条数据比<code style="font-family:'Source Code Pro',63);">sort_buffer_size小，那么MySQL会把sort buffer作为priority queue，在第二步插入priority queue时会按序插入队列；在第三步，队列满了以后，并不会写入外部磁盘文件，而是直接淘汰最尾端的一条数据，直到所有的数据都正常读取完成。

算法如下：

根据索引或者全表扫描，按照过滤条件获得需要查询的数据

将要排序的列值和row ID组成键值对，按序存入中priority queue中

如果priority queue满了，直接淘汰最尾端记录。

重复上述步骤，直到所有的行数据都正常读取了完成

最后一轮循环，仅将row ID写入到结果文件中

根据结果文件中的row ID按序读取用户需要返回的数据。为了进一步优化性能，MySQL会读一批row ID，并将读到的数据按排序字段要求插入缓存区中(内存大小

不够大
大的情况下，MySQL无法直接利用sort buffer作为priority queue，正常的文件外部排序还是一样的，只是在最后返回结果时，只根据N个row ID将数据返回出来。具体的算法我们就不列举了。
函数中确定的，具体的代码细节这里就不展开了。

足够大对Limit数据比较小的情况，优化效果是很明显的。



和。

是为了让MySQL选择的模式。
是键值对的大小无法确定时（比如用户要查询的数据包含了?）MySQL会对每个键值对分配个字节的内存，这样导致内存空间浪费，磁盘外部排序次数过多。



设置为ON的话，表示在排序中生成的临时文件不会用到文件系统的缓存，类似于打开文件。



设置的是在创建InnoDB索引时，使用到的sort buffer的大小。



排序和查询的字段尽量少。只查询你用到的字段，不要使用select *；使用Limit查询必要的行数据；
要排序或者查询的字段，尽量不要用不确定字符函数，避免MySQL直接分配，导致sort buffer空间不足；

使用索引来优化或者避免排序；
增加大小，避免磁盘排序；

不得不使用original排序算法时，增加；

字段长度定义合适就好（避免过长）；
tmpdir建议独立存放，放在高速存储设备上。




                        （编辑：李大同）
【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!