Introduction à EXPLAIN

Module J0

Dalibo SCOP

24.09

29 août 2024

Sur ce document

Formation Module J0
Titre Introduction à EXPLAIN
Révision 24.09
PDF https://dali.bo/j0_pdf
EPUB https://dali.bo/j0_epub
HTML https://dali.bo/j0_html
Slides https://dali.bo/j0_slides
TP https://dali.bo/j0_tp
TP (solutions) https://dali.bo/j0_solutions

Licence Creative Commons CC-BY-NC-SA

Cette formation est sous licence CC-BY-NC-SA. Vous êtes libre de la redistribuer et/ou modifier aux conditions suivantes :

  • Paternité
  • Pas d’utilisation commerciale
  • Partage des conditions initiales à l’identique

Marques déposées

PostgreSQL® Postgres® et le logo Slonik sont des marques déposées par PostgreSQL Community Association of Canada.

Versions de PostgreSQL couvertes

Ce document ne couvre que les versions supportées de PostgreSQL au moment de sa rédaction, soit les versions 12 à 16.

Introduction aux plans d’exécution

PostgreSQL

Introduction

  • Qu’est-ce qu’un plan d’exécution ?
  • Quels outils peuvent aider

Au menu

  • Exécution globale d’une requête
  • Optimiseur
  • EXPLAIN
  • Nœuds d’un plan
  • Outils

Niveau SGBD

Traitement d’une requête SQL

Optimiseur

  • SQL est un langage déclaratif
  • Une requête décrit le résultat à obtenir
    • mais pas la façon pour l’obtenir
  • C’est à l’optimiseur de déduire le moyen de parvenir au résultat demandé : comment ?

Principe de l’optimiseur

Le modèle vise à minimiser un coût :

  • Énumérer tous les plans d’exécution
    • ou presque tous…
  • Statistiques + configuration + règles → coût calculé
  • Coût le plus bas = meilleur plan

Exemple de requête et son résultat

SELECT nom, prenom, num_service
FROM employes
WHERE nom LIKE 'B%'
ORDER BY num_service;
    nom    |  prenom  | num_service
-----------+----------+-------------
 Berlicot  | Jules    |           2
 Brisebard | Sylvie   |           3
 Barnier   | Germaine |           4

Décisions de l’optimiseur

  • Comment accéder aux lignes ?
    • parcours de table, d’index, de fonction, etc.
  • Comment joindre les tables ?
    • ordre
    • type
  • Comment agréger ?
    • brut, tri, hachage…

Mécanisme de calcul de coûts

  • Chaque opération a un coût :
    • lire un bloc selon sa position sur le disque
    • manipuler une ligne
    • appliquer un opérateur
  • et généralement un paramètre associé

Statistiques

  • Connaître le coût de traitement d’une ligne est bien
    • mais combien de lignes à traiter ?
  • Statistiques sur les données
    • mises à jour : ANALYZE
  • Sans bonnes statistiques, pas de bons plans !

Exemple - parcours d’index

CREATE TABLE t1 (c1 integer, c2 integer);
INSERT INTO t1 SELECT i, i FROM generate_series(1, 1000) i;
CREATE INDEX ON t1(c1);
ANALYZE t1;
EXPLAIN SELECT * FROM t1 WHERE c1=1 ;
                         QUERY PLAN
---------------------------------------------------------------
Index Scan using t1_c1_idx on t1 (cost=0.28..8.29 rows=1 width=8)
  Index Cond: (c1 = 1)

Exemple - parcours de table

UPDATE t1 SET c1=1 ;   /* 1000 lignes identiques */

ANALYZE t1 ;           /* ne pas oublier ! */
EXPLAIN SELECT * FROM t1 WHERE c1=1;
                    QUERY PLAN
------------------------------------------------------
 Seq Scan on t1  (cost=0.00..21.50 rows=1000 width=8)
   Filter: (c1 = 1)

Exemple - parcours d’index forcé

SET enable_seqscan TO off ;

EXPLAIN SELECT * FROM t1 WHERE c1=1;
                         QUERY PLAN
---------------------------------------------------------------
Index Scan using t1_c1_idx on t1 (cost=0.28..57.77 rows=1000 width=8)
  Index Cond: (c1 = 1)
RESET enable_seqscan ;

Qu’est-ce qu’un plan d’exécution ?

  • Représente les différentes opérations pour répondre à la requête
  • Sous forme arborescente
  • Composé des nœuds d’exécution
  • Plusieurs opérations simples mises bout à bout

Nœud d’exécution

  • Nœud
    • opération simple : lectures, jointures, tris, etc.
    • unité de traitement
    • produit et consomme des données
  • Enchaînement des opérations
    • chaque nœud produit les données consommées par le nœud parent
    • le nœud final retourne les données à l’utilisateur

Récupérer un plan d’exécution

  • Commande EXPLAIN
    • suivi de la requête complète
  • Uniquement le plan finalement retenu

Exemple de requête

EXPLAIN SELECT * FROM t1  WHERE c2<10 ORDER BY c1;

Plan pour cette requête

                       QUERY PLAN
---------------------------------------------------------
 Sort  (cost=21.64..21.67 rows=9 width=8)
   Sort Key: c1
   ->  Seq Scan on t1  (cost=0.00..21.50 rows=9 width=8)
         Filter: (c2 < 10)

Informations sur la ligne nœud

->  Seq Scan on t1  (cost=0.00..21.50 rows=9 width=8)
      Filter: (c2 < 10)
  • cost : coûts de récupération
    • de la première ligne
    • de toutes les lignes
  • rows
    • nombre de lignes en sortie du nœud
  • width
    • largeur moyenne d’un enregistrement (octets)

Informations sur les lignes suivantes

Sort  (cost=21.64..21.67 rows=9 width=8)
  Sort Key: c1
Seq Scan on t1  (cost=0.00..21.50 rows=9 width=8)
  Filter: (c2 < 10)
  • Sort
    • Sort Key : clé de tri
  • Seq Scan
    • Filter : filtre (si besoin)
  • Dépend
    • du type de nœud
    • des options de EXPLAIN
    • des paramètres de configuration
    • de la version de PostgreSQL

Option ANALYZE

EXPLAIN (ANALYZE)  /* exécution !! */
SELECT   *   FROM t1   WHERE c2<10   ORDER BY c1;
                        QUERY PLAN
---------------------------------------------------------------
 Sort  (cost=21.64..21.67 rows=9 width=8)
       (actual time=0.493..0.498 rows=9 loops=1)
   Sort Key: c1
   Sort Method: quicksort  Memory: 25kB
   ->  Seq Scan on t1  (cost=0.00..21.50 rows=9 width=8)
               (actual time=0.061..0.469 rows=9 loops=1)
         Filter: (c2 < 10)
         Rows Removed by Filter: 991
 Planning Time: 0.239 ms
 Execution Time: 0.606 ms

Option BUFFERS

EXPLAIN (ANALYZE, BUFFERS)
SELECT   *   FROM t1   WHERE c2<10   ORDER BY c1;
                        QUERY PLAN
---------------------------------------------------------
 Sort  (cost=17.64..17.67 rows=9 width=8)
       (actual time=0.126..0.127 rows=9 loops=1)
   Sort Key: c1
   Sort Method: quicksort  Memory: 25kB
   Buffers: shared hit=3 read=5
   ->  Seq Scan on t1  (cost=0.00..17.50 rows=9 width=8)
                       (actual time=0.017..0.106 rows=9 loops=1)
         Filter: (c2 < 10)
         Rows Removed by Filter: 991
         Buffers: shared read=5

Option SETTINGS

SET enable_seqscan TO off ;
SET work_mem TO '100MB';
EXPLAIN (SETTINGS)
SELECT   *   FROM t1   WHERE c2<10   ORDER BY c1;
                         QUERY PLAN
---------------------------------------------------------------
Index Scan using t1_c1_idx on t1  (cost=0.28..57.77 rows=9 width=8)
  Filter: (c2 < 10)
Settings: enable_seqscan = 'off', work_mem = '100MB'
RESET ALL ;

Option WAL

EXPLAIN (ANALYZE, WAL)
INSERT INTO t1 SELECT i, i FROM generate_series(1,1000) i ;
                      QUERY PLAN
----------------------------------------------------
 Insert on t1  (cost=0.00..10.00 rows=1000 width=8)
          (actual time=8.078..8.079 rows=0 loops=1)
   WAL: records=2017 fpi=3 bytes=162673
   ->  Function Scan on generate_series i
       (cost=0.00..10.00 rows=1000 width=8)
       (actual time=0.222..0.522 rows=1000 loops=1)
 Planning Time: 0.076 ms
 Execution Time: 8.141 ms

Option GENERIC_PLAN

Quel plan générique pour les requêtes préparées ?

EXPLAIN (GENERIC_PLAN)
SELECT * FROM t1 WHERE c1 < $1 ;
  • PostgreSQL 16

Autres options

  • COSTS OFF
    • masquer les coûts
  • TIMING OFF
    • désactiver le chronométrage & des informations vues/calculées par l’optimiseur
  • VERBOSE
    • affichage verbeux : schémas, colonnes, workers
  • SUMMARY
    • affichage du temps de planification et exécution (si applicable)
  • FORMAT
    • sortie en texte, JSON, XML, YAML

Paramètre track_io_timing

SET track_io_timing TO on;
EXPLAIN (ANALYZE, BUFFERS)
SELECT   *   FROM t1   WHERE c2<10   ORDER BY c1 ;
                            QUERY PLAN
---------------------------------------------------------
 Sort  (cost=52.14..52.21 rows=27 width=8) (actual time=1.359..1.366 rows=27 loops=1)

   Buffers: shared hit=3 read=14
   I/O Timings: read=0.388
   ->  Seq Scan on t1  (cost=0.00..51.50 rows=27 width=8) (actual time=0.086..1.233 rows=27 loops=1)
         Filter: (c2 < 10)
         Rows Removed by Filter: 2973
         Buffers: shared read=14
         I/O Timings: read=0.388
 Planning:
   Buffers: shared hit=43 read=14
   I/O Timings: read=0.469
 Planning Time: 1.387 ms
 Execution Time: 1.470 ms

Détecter les problèmes

  • Temps d’exécution de chaque opération
  • Différence entre l’estimation du nombre de lignes et la réalité
  • Boucles
    • appels, même rapides, nombreux
  • Opérations utilisant beaucoup de blocs (BUFFERS)
  • Opérations lentes de lecture/écriture (track_io_timing)

Nœuds d’exécution les plus courants (introduction)

  • Parcours
  • Jointures
  • Agrégats
  • Tri

Parcours

  • Table
    • Seq Scan, Parallel Seq Scan
  • Index
    • Index Scan, Bitmap Scan, Index Only Scan
    • et les variantes parallélisées
  • Autres
    • Function Scan, Values Scan

Jointures

  • Algorithmes
    • Nested Loop
    • Hash Join
    • Merge Join
  • Parallélisation possible
  • Pour EXISTS, IN et certaines jointures externes
    • Semi Join
    • Anti Join

Agrégats

  • Un résultat au total
    • Aggregate
  • Un résultat par regroupement
    • Hash Aggregate
    • Group Aggregate
    • Mixed Aggregate
  • Parallélisation
    • Partial Aggregate
    • Finalize Aggregate

Opérations unitaires

  • Sort
  • Incremental Sort
  • Limit
  • Unique (DISTINCT)
  • Append (UNION ALL), Except, Intersect
  • Gather (parallélisme)
  • Memoize (14+)

Outils graphiques

  • pgAdmin
  • explain.depesz.com
  • explain.dalibo.com

pgAdmin

  • Vision graphique d’un EXPLAIN
  • Une icône par nœud
  • La taille des flèches dépend de la quantité de données
  • Le détail de chaque nœud est affiché en survolant les nœuds

pgAdmin - copie d’écran

EXPLAIN par pgAdmin

explain.depesz.com

  • Site web avec affichage amélioré du EXPLAIN ANALYZE
  • Lignes colorées pour indiquer les problèmes
  • Installable en local

explain.depesz.com - exemple

explain.depesz.com

explain.dalibo.com

  • Reprise de pev d’Alex Tatiyants, par Pierre Giraud (Dalibo)
  • Page web avec affichage graphique d’un EXPLAIN [ANALYZE]
  • Repérage des nœuds longs, lourds…
  • Affichage flexible
  • explain.dalibo.com
  • Installable en local

explain.dalibo.com - exemple

EXPLAIN par pev

Conclusion

  • Un optimiseur très avancé
  • Ne vous croyez pas plus malin que lui
  • Mais il est important de savoir comment il fonctionne

Questions

N’hésitez pas, c’est le moment !

Quiz

Travaux pratiques

Tous les TP se basent sur la configuration par défaut de PostgreSQL, sauf précision contraire.

Manipuler explain

Manipuler explain (base magasin)

Travaux pratiques (solutions)