PostgreSQL Performances

Formation PERF1

Dalibo SCOP

24.12

18 décembre 2024

Sur ce document

Formation Formation PERF1
Titre PostgreSQL Performances
Révision 24.12
ISBN N/A
PDF https://dali.bo/perf1_pdf
EPUB https://dali.bo/perf1_epub
HTML https://dali.bo/perf1_html
Slides https://dali.bo/perf1_slides

Licence Creative Commons CC-BY-NC-SA

Cette formation est sous licence CC-BY-NC-SA. Vous êtes libre de la redistribuer et/ou modifier aux conditions suivantes :

  • Paternité
  • Pas d’utilisation commerciale
  • Partage des conditions initiales à l’identique

Marques déposées

PostgreSQL® Postgres® et le logo Slonik sont des marques déposées par PostgreSQL Community Association of Canada.

Versions de PostgreSQL couvertes

Ce document ne couvre que les versions supportées de PostgreSQL au moment de sa rédaction, soit les versions 13 à 17.

Configuration du système et de l’instance

PostgreSQL

Introduction

  • L’optimisation doit porter sur les différents composants
    • le serveur qui héberge le SGBDR : le matériel, la distribution, le noyau, les systèmes de fichiers
    • le moteur de la base de données : postgresql.conf
    • la base de données : l’organisation des fichiers de PostgreSQL
    • l’application en elle-même : le schéma et les requêtes
  • Quelques considérations générales sur l’optimisation
  • Choix et configuration du matériel
  • Choix et configuration du système d’exploitation
  • Configuration du serveur de bases de données
  • Outils

Considérations générales - 1

  • Deux points déterminants :
    • vision globale du système d’information
    • compréhension de l’utilisation de la base

Considérations générales - 2

  • L’optimisation n’est pas un processus unique
    • il s’agit au contraire d’un processus itératif
  • La base doit être surveillée régulièrement !
    • nécessité d’installer des outils de supervision

Matériel

  • Performances très liées aux possibilités du matériel et de l’OS
  • 4 composants essentiels
    • les processeurs
    • la mémoire
    • les disques
    • le système disque (RAID, SAN)

CPU

  • Trois critères importants
    • nombre de cœurs
    • fréquence
    • cache
  • Privilégier
    • le nombre de cœurs si le nombre de sessions parallèles est important
    • ou la fréquence si les requêtes sont complexes
  • 64 bits

RAM

  • Essentielle pour un serveur de bases de données
  • Plus il y en a, mieux c’est
    • moins d’accès disque
  • Pour le système comme pour PostgreSQL

Disques

Technologie Temps d’accès Débit en lecture
RAM ~ 1 ns ~ 25 Go/s
NVMe ~ 10 µs ~ 10 Go/s
SSD (SATA) ~ 100 µs ~ 550 Mo/s
HDD SAS 15ktpm ~ 1 ms ~ 100 Mo/s
HDD SATA ~ 5 ms ~ 100 Mo/s

RAID

  • Pour un SGBD :
    • RAID 1 : système, journaux de transactions
    • RAID 10 : fichiers de données
  • RAID 5 déconseillé pour les bases de données (écritures)
  • RAID soft déconseillé !
  • Qualité des cartes !
  • Cache :
    • en lecture : toujours
    • en écriture : si batterie présente & supervisée

SAN

  • Pouvoir sélectionner les disques dans un groupe RAID
  • Attention au cache
    • toujours activer le cache en lecture
    • activer le cache en écriture que si batterie présente
  • Attention à la latence réseau !
  • Attention au système de fichiers
    • NFS : risques de corruptions et problèmes de performance

Virtualisation

  • Masque les ressources physiques au système
    • plus difficile d’optimiser les performances
  • Propose généralement des fonctionnalités d’overcommit
    • grandes difficultés à trouver la cause du problème du point de vue de la VM
    • dédier un minimum de ressources aux VM PostgreSQL
  • En pause tant que l’hyperviseur ne dispose pas de l’ensemble des vCPU alloués à la machine virtuelle (steal time)
  • Mutualise les disques = problèmes de performances
    • préférer attachement direct au SAN
    • disques de PostgreSQL en Thick Provisionning

Virtualisation : les bonnes pratiques

  • Éviter le time drift : même source NTP sur les VM et l’ESXi
  • Utiliser les adaptateurs réseau paravirtualisés de type VMXNET3
  • Utiliser l’adaptateur paravirtualisé PVSCSI pour les disques dédiés aux partitions PostgreSQL
  • Si architecture matérielle NUMA :
    • dimensionner la mémoire de chaque VM pour qu’elle ne dépasse pas le volume de mémoire physique au sein d’un groupe NUMA

Système d’exploitation

  • Quel système choisir ?
  • Quelle configuration réaliser ?

Choix du système d’exploitation

  • PostgreSQL fonctionne sur différents systèmes
    • principalement développé et testé sous Linux
    • *BSD, macOS, Windows, Solaris, etc.
  • Windows intéressant pour les postes des développeurs
    • mais moins performant que Linux
    • moins d’outillage

Choix du noyau

  • Choisir la version la plus récente du noyau car
    • plus stable
    • plus compatible avec le matériel
    • plus de fonctionnalités
    • plus de performances
  • Utiliser la version de la distribution Linux
    • ne pas le compiler soi-même

Configuration du noyau

  • À configurer :
    • cache disque système
    • swap
    • overcommit
    • huge pages
    • affinité entre cœurs et mémoire
    • scheduler

Contrôle du cache disque système

  • Lissage de l’écriture des dirty pages
  • Paramètres
    • vm.dirty_ratio et vm.dirty_background_ratio
    • ou : vm.dirty_bytes et vm.dirty_background_bytes
  • Encore utiles malgré les paramètres PostgreSQL *_flush_after

Configuration du swap

La mémoire sert de cache au disque, pas l’inverse !

  • Swap : 2-4 Go
    • pour les processus d’arrière-plan
  • et à décourager, sans l’empêcher
vm.swappiness = 10

Configuration de la surréservation mémoire

Le noyau peut autoriser trop de réservation mémoire.

  • Si saturation :
    • kill -9 du processus par l’OOM killer
    • et donc redémarrage
    • purge du cache
  • Désactiver sur serveur dédié :
vm.overcommit_memory = 2
vm.overcommit_ratio  = ?  # à calculer, souvent 70-80

Huge pages

Pages mémoire de 2 Mo au lieu de 4 ko :

  • Les processus consomment moins de mémoire
  • shared buffers non swappés
  • PostgreSQL :
huge_pages = try  # ou: on / off
  • Noyau :
vm.nr_overcommit_hugepages = ?  # selon shared_buffers +10%
vm.overcommit_ratio        = ?  # à baisser
  • Voir /proc/meminfo

Transparent Huge pages

  • « Huge Pages » dynamiques
  • À désactiver :
echo never > /sys/kernel/mm/transparent_hugepage/enabled
echo never > /sys/kernel/mm/transparent_hugepage/defrag
# grub
transparent_hugepage=never
  • /proc/meminfo/AnonHugePages

Configuration de l’affinité processeur / mémoire

  • Pour architecture NUMA (multisocket)
  • Chaque socket travaille plus efficacement avec une zone mémoire allouée
  • Peut pénaliser le cache disque système
    • vm.zone_reclaim_mode : passer à 0

Configuration de l’ordonnanceur

  • Réduire la propension du kernel à migrer les processus
    • kernel.sched_migration_cost_ns = 5000000 (×10) (si kernel < 5.13)
    • echo 5000000 > /sys/kernel/debug/sched/migration_cost_ns (kernel > 5.13)
  • Désactiver le regroupement par session TTY
    • kernel.sched_autogroup_enabled = 0

Comment les configurer

  • Outil
    • sysctl
  • Fichier de configuration
    • /etc/sysctl.conf
    • /etc/sysctl.d/*conf

Choix du système de fichiers

  • Windows :
    • NTFS
  • Linux :
    • ext4, XFS
    • LVM pour la flexibilité
  • Solaris :
    • ZFS
  • Utiliser celui préconisé par votre système d’exploitation/distribution

Configuration du système de fichiers

  • Quelques options à connaître :
    • noatime, nodiratime
    • dir_index
    • data=writeback
    • nobarrier
  • Permet de gagner un peu en performance

Configuration de l’antivirus

Pas d’antivirus

Serveur de bases de données

  • Version
  • Configuration
  • Emplacement des fichiers

Version

  • Chaque nouvelle version majeure a des améliorations de performance
    • mettre à jour est un bon moyen pour gagner en performances
  • Ne pas compiler

Configuration - mémoire partagée

  • shared_buffers = ...
    • 25 % de la RAM en première intention
      • généralement acceptable
    • max 40 %
    • complémentaire du cache OS
  • wal_buffers

Configuration - mémoire des processus

  • work_mem

    • par processus, voire nœud
    • valeur très dépendante de la charge et des requêtes
    • fichiers temporaires vs saturation RAM
  • × hash_mem_multiplier

  • maintenance_work_mem

Configuration - disques

  • Des paramètres sont liés aux tablespaces
  • io_combine_limit (v17)
    • 128 ko

Configuration - planificateur

  • effective_cache_size
  • random_page_cost

Configuration - parallélisation : principe

  • Par défaut : 1 requête = 1 processus
  • Grosses tables : parallel workers en complément
  • Nombreux nœuds parallélisables

Configuration - parallélisation : paramètres

  • Nombre de parallel workers :
    • max_parallel_workers_per_gather (défaut : 2)
    • max_parallel_workers (8)
    • max_worker_processes (8)
  • Taille minimale des tables/index :
    • min_parallel_table_scan_size (8 Mo)
    • min_parallel_index_scan_size (512 ko)
  • Indexation et VACUUM :
    • max_parallel_maintenance_workers (2)

Rappels sur la journalisation (1)

Principe de la journalisation

Rappels sur la journalisation (2)

  • Write Ahead Logs (WAL)
  • Chaque donnée est écrite 2 fois sur le disque !
  • Avantages :
    • sécurité infaillible (après COMMIT), intégrité, durabilité
    • écriture séquentielle rapide, et un seul sync sur le WAL
    • fichiers de données écrits en asynchrone
    • sauvegarde PITR et réplication fiables

Configuration - WAL

  • fsync (on !)
  • min_wal_size (80 Mo) / max_wal_size (1 Go)
  • checkpoint_timeout (5 min, ou plus)
  • checkpoint_completion_target (passer à 0.9)

Configuration - statistiques

  • track_activities
  • track_counts
  • track_functions, track_io_timing et track_wal_io_timing

Configuration - autovacuum

  • autovacuum

Tablespaces : principe

  • Espace de stockage physique d’objets
    • et non logique !
  • Simple répertoire (hors de PGDATA)
    • lien symbolique depuis pg_tblspc
  • Pour :
    • répartir I/O et volumétrie
    • données froides/chaudes
    • tri sur disque séparé

Tablespaces : mise en place

-- déclaration
CREATE TABLESPACE ssd LOCATION '/mnt/ssd/pg';
-- droit pour un utilisateur
GRANT CREATE ON TABLESPACE ssd TO un_utilisateur ;
-- pour toute une base
CREATE DATABASE nomdb TABLESPACE ssd;
ALTER  DATABASE nomdb SET default_tablespace TO ssd ;
-- pour une table
CREATE TABLE une_table (…) TABLESPACE ssd ;
ALTER  TABLE une_table SET TABLESPACE ssd ;  -- verrou !
-- pour un index (pas automatique)
ALTER INDEX une_table_i_idx SET TABLESPACE ssd ;

Tablespaces : configuration

CREATE TABLESPACE  ssd      LOCATION '/mnt/data_ssd/' ;
CREATE TABLESPACE  ssd_tri1 LOCATION '/mnt/temp1' ;
CREATE TABLESPACE  ssd_tri2 LOCATION '/mnt/temp2' ;
GRANT CREATE ON TABLESPACE  ssd  TO dupont ;
GRANT CREATE ON TABLESPACE  ssd_tri1,ssd_tri2  TO dupont ;
  • default_tablespace
default_tablespace = ssd   # postgresql.conf
ALTER DATABASE/ROLE nomdb SET default_tablespace = ssd ;
  • temp_tablespaces :
    • tri & tables temporaires, en alternance
    • protéger le PGDATA
    ALTER ROLE etl SET temp_tablespaces = ssd_tri1,ssd_tri2;

Tablespaces : performance

  • Temps d’accès
    • seq_page_cost (1)
    • random_page_cost (4)
  • Opérations simultanées sur le disque
    • effective_io_concurrency (1)
    • maintenance_io_concurrency (10)
ALTER TABLESPACE ssd SET ( random_page_cost = 1 );
ALTER TABLESPACE ssd SET ( effective_io_concurrency   = 500,
                           maintenance_io_concurrency = 500 ) ;

Emplacement des journaux de transactions

  • Placer les journaux sur un autre disque
  • Option --wal-dir de l’outil initdb
  • Lien symbolique

Emplacement des fichiers statistiques

  • Avant la v15
    • placer les fichiers statistiques sur un autre disque
    • option stats_temp_directory
  • À partir de la v15
    • cela peut être intéressant pour pg_stat_statements

Outils

  • pgtune
  • postgresqltuner.pl
  • pgbench

Outil pgtune

  • Outil écrit en Python, par Greg Smith
    • repris en Ruby par Alexey Vasiliev
  • Propose quelques meilleures valeurs pour certains paramètres
  • Quelques options pour indiquer des informations système
  • Version web : https://pgtune.leopard.in.ua/
  • Il existe également pgconfig : https://www.pgconfig.org/

Outil postgresqltuner.pl

Outil pgbench

  • Outil pour réaliser rapidement des tests de performance
  • Fourni dans les modules de contrib de PostgreSQL
  • Travaille sur une base de test créée par l’outil…
    • … ou sur une vraie base de données

Types de tests avec pgbench

  • On peut faire varier différents paramètres, tel que :
    • le nombre de clients
    • le nombre de transactions par client
    • faire un test de performance en SELECT only, UPDATE only ou TPC-B
    • faire un test de performance dans son contexte applicatif
    • exécuter le plus de requêtes possible sur une période de temps donné
    • etc.

Environnement de test avec pgbench

  • pgbench est capable de créer son propre environnement de test
  • Environnement adapté pour des tests de type TPC-B
  • Permet de rapidement tester une configuration PostgreSQL
    • en termes de performance
    • en termes de charge
  • Ou pour expérimenter/tester

Environnement réel avec pgbench

  • pgbench est capable de travailler avec une base existante
  • Lecture des requêtes depuis un ou plusieurs fichiers
  • Utilisation possible de variables et commandes

Conclusion

  • PostgreSQL propose de nombreuses voies d’optimisation.

  • Cela passe en priorité par un bon choix des composants matériels et par une configuration pointilleuse.

  • Mais ceci ne peut se faire qu’en connaissance de l’ensemble du système, et notamment des applications utilisant les bases de l’instance.

Questions

N’hésitez pas, c’est le moment !

Quiz

Installation de PostgreSQL depuis les paquets communautaires

Introduction à pgbench

Travaux pratiques

Utilisation de pgbench

Influence de fsync et synchronous_commit

Paramétrage de l’overcommit

Ce TP étant complexe, allez directement suivre la partie Solution.

Travaux pratiques (solutions)

Introduction aux plans d’exécution

PostgreSQL

Introduction

  • Qu’est-ce qu’un plan d’exécution ?
  • Quels outils peuvent aider

Au menu

  • Exécution globale d’une requête
  • Optimiseur
  • EXPLAIN
  • Nœuds d’un plan
  • Outils

Niveau SGBD

Traitement d’une requête SQL

Optimiseur

  • SQL est un langage déclaratif
  • Une requête décrit le résultat à obtenir
    • mais pas la façon pour l’obtenir
  • C’est à l’optimiseur de déduire le moyen de parvenir au résultat demandé : comment ?

Principe de l’optimiseur

Le modèle vise à minimiser un coût :

  • Énumérer tous les plans d’exécution
    • ou presque tous…
  • Statistiques + configuration + règles → coût calculé
  • Coût le plus bas = meilleur plan

Exemple de requête et son résultat

SELECT nom, prenom, num_service
FROM employes
WHERE nom LIKE 'B%'
ORDER BY num_service;
    nom    |  prenom  | num_service
-----------+----------+-------------
 Berlicot  | Jules    |           2
 Brisebard | Sylvie   |           3
 Barnier   | Germaine |           4

Décisions de l’optimiseur

  • Comment accéder aux lignes ?
    • parcours de table, d’index, de fonction, etc.
  • Comment joindre les tables ?
    • ordre
    • type
  • Comment agréger ?
    • brut, tri, hachage…

Mécanisme de calcul de coûts

  • Chaque opération a un coût :
    • lire un bloc selon sa position sur le disque
    • manipuler une ligne
    • appliquer un opérateur
  • et généralement un paramètre associé

Statistiques

  • Connaître le coût de traitement d’une ligne est bien
    • mais combien de lignes à traiter ?
  • Statistiques sur les données
    • mises à jour : ANALYZE
  • Sans bonnes statistiques, pas de bons plans !

Exemple - parcours d’index

CREATE TABLE t1 (c1 integer, c2 integer);
INSERT INTO t1 SELECT i, i FROM generate_series(1, 1000) i;
CREATE INDEX ON t1(c1);
ANALYZE t1;
EXPLAIN SELECT * FROM t1 WHERE c1=1 ;
                         QUERY PLAN
---------------------------------------------------------------
Index Scan using t1_c1_idx on t1 (cost=0.28..8.29 rows=1 width=8)
  Index Cond: (c1 = 1)

Exemple - parcours de table

UPDATE t1 SET c1=1 ;   /* 1000 lignes identiques */

ANALYZE t1 ;           /* ne pas oublier ! */
EXPLAIN SELECT * FROM t1 WHERE c1=1;
                    QUERY PLAN
------------------------------------------------------
 Seq Scan on t1  (cost=0.00..21.50 rows=1000 width=8)
   Filter: (c1 = 1)

Exemple - parcours d’index forcé

SET enable_seqscan TO off ;

EXPLAIN SELECT * FROM t1 WHERE c1=1;
                         QUERY PLAN
---------------------------------------------------------------
Index Scan using t1_c1_idx on t1 (cost=0.28..57.77 rows=1000 width=8)
  Index Cond: (c1 = 1)
RESET enable_seqscan ;

Qu’est-ce qu’un plan d’exécution ?

  • Représente les différentes opérations pour répondre à la requête
  • Sous forme arborescente
  • Composé des nœuds d’exécution
  • Plusieurs opérations simples mises bout à bout

Nœud d’exécution

  • Nœud
    • opération simple : lectures, jointures, tris, etc.
    • unité de traitement
    • produit et consomme des données
  • Enchaînement des opérations
    • chaque nœud produit les données consommées par le nœud parent
    • le nœud final retourne les données à l’utilisateur

Récupérer un plan d’exécution

  • Commande EXPLAIN
    • suivi de la requête complète
  • Uniquement le plan finalement retenu

Exemple de requête

EXPLAIN SELECT * FROM t1  WHERE c2<10 ORDER BY c1;

Plan pour cette requête

                       QUERY PLAN
---------------------------------------------------------
 Sort  (cost=21.64..21.67 rows=9 width=8)
   Sort Key: c1
   ->  Seq Scan on t1  (cost=0.00..21.50 rows=9 width=8)
         Filter: (c2 < 10)

Informations sur la ligne nœud

->  Seq Scan on t1  (cost=0.00..21.50 rows=9 width=8)
      Filter: (c2 < 10)
  • cost : coûts de récupération
    • de la première ligne
    • de toutes les lignes
  • rows
    • nombre de lignes en sortie du nœud
  • width
    • largeur moyenne d’un enregistrement (octets)

Informations sur les lignes suivantes

Sort  (cost=21.64..21.67 rows=9 width=8)
  Sort Key: c1
Seq Scan on t1  (cost=0.00..21.50 rows=9 width=8)
  Filter: (c2 < 10)
  • Sort
    • Sort Key : clé de tri
  • Seq Scan
    • Filter : filtre (si besoin)
  • Dépend
    • du type de nœud
    • des options de EXPLAIN
    • des paramètres de configuration
    • de la version de PostgreSQL

EXPLAIN ( ANALYZE )

EXPLAIN (ANALYZE)  /* exécution !! */
SELECT   *   FROM t1   WHERE c2<10   ORDER BY c1;
                        QUERY PLAN
---------------------------------------------------------------
 Sort  (cost=21.64..21.67 rows=9 width=8)
       (actual time=0.493..0.498 rows=9 loops=1)
   Sort Key: c1
   Sort Method: quicksort  Memory: 25kB
   ->  Seq Scan on t1  (cost=0.00..21.50 rows=9 width=8)
               (actual time=0.061..0.469 rows=9 loops=1)
         Filter: (c2 < 10)
         Rows Removed by Filter: 991
 Planning Time: 0.239 ms
 Execution Time: 0.606 ms

EXPLAIN (ANALYZE, BUFFERS)

EXPLAIN (ANALYZE, BUFFERS)
SELECT   *   FROM t1   WHERE c2<10   ORDER BY c1;
                        QUERY PLAN
---------------------------------------------------------
 Sort  (cost=17.64..17.67 rows=9 width=8)
       (actual time=0.126..0.127 rows=9 loops=1)
   Sort Key: c1
   Sort Method: quicksort  Memory: 25kB
   Buffers: shared hit=3 read=5
   ->  Seq Scan on t1  (cost=0.00..17.50 rows=9 width=8)
                       (actual time=0.017..0.106 rows=9 loops=1)
         Filter: (c2 < 10)
         Rows Removed by Filter: 991
         Buffers: shared read=5

EXPLAIN (ANALYZE, WAL)

EXPLAIN (ANALYZE, WAL)
INSERT INTO t1 SELECT i, i FROM generate_series(1,1000) i ;
                      QUERY PLAN
----------------------------------------------------
 Insert on t1  (cost=0.00..10.00 rows=1000 width=8)
          (actual time=8.078..8.079 rows=0 loops=1)
   WAL: records=2017 fpi=3 bytes=162673
   ->  Function Scan on generate_series i
       (cost=0.00..10.00 rows=1000 width=8)
       (actual time=0.222..0.522 rows=1000 loops=1)
 Planning Time: 0.076 ms
 Execution Time: 8.141 ms

EXPLAIN (ANALYZE, SERIALIZE)

EXPLAIN (ANALYZE,VERBOSE,BUFFERS,SERIALIZE)
SELECT * FROM demotoast ;
                            QUERY PLAN
-----------------------------------------------------------------------
 Seq Scan on public.demotoast  (cost=0.00..177.00 rows=1000 width=1196) (actual time=0.012..0.182 rows=1000 loops=1)
   Output: i, t, png, j
   Buffers: shared hit=167
 Query Identifier: 698565989149231362
 Planning Time: 0.055 ms
 Serialization: time=397.480 ms  output=307084kB  format=text
   Buffers: shared hit=14500
 Execution Time: 397.776 ms
  • PostgreSQL 17

EXPLAIN ( GENERIC_PLAN )

Quel plan générique pour les requêtes préparées ?

EXPLAIN (GENERIC_PLAN)
SELECT * FROM t1 WHERE c1 < $1 ;
  • PostgreSQL 16

EXPLAIN (SETTINGS)

SET enable_seqscan TO off ;
SET work_mem TO '100MB';
EXPLAIN (SETTINGS)
SELECT   *   FROM t1   WHERE c2<10   ORDER BY c1;
                         QUERY PLAN
---------------------------------------------------------------
Index Scan using t1_c1_idx on t1  (cost=0.28..57.77 rows=9 width=8)
  Filter: (c2 < 10)
Settings: enable_seqscan = 'off', work_mem = '100MB'
RESET ALL ;

Autres options

  • VERBOSE
    • affichage verbeux : schémas, colonnes, workers : conseillé
  • MEMORY
    • mémoire utilisée pour le plan (v17)
  • COSTS OFF
    • masquer les coûts
  • TIMING OFF
    • désactiver le chronométrage & des informations vues/calculées par l’optimiseur
  • SUMMARY
    • affichage du temps de planification et exécution (si applicable)
  • FORMAT
    • sortie en texte, JSON, XML, YAML

Paramètre track_io_timing

SET track_io_timing TO on;
EXPLAIN (ANALYZE, BUFFERS)
SELECT   *   FROM t1   WHERE c2<10   ORDER BY c1 ;
                            QUERY PLAN
---------------------------------------------------------
 Sort  (cost=52.14..52.21 rows=27 width=8) (actual time=1.359..1.366 rows=27 loops=1)

   Buffers: shared hit=3 read=14
   I/O Timings: read=0.388
   ->  Seq Scan on t1  (cost=0.00..51.50 rows=27 width=8) (actual time=0.086..1.233 rows=27 loops=1)
         Filter: (c2 < 10)
         Rows Removed by Filter: 2973
         Buffers: shared read=14
         I/O Timings: read=0.388
 Planning:
   Buffers: shared hit=43 read=14
   I/O Timings: read=0.469
 Planning Time: 1.387 ms
 Execution Time: 1.470 ms

Détecter les problèmes

  • Temps d’exécution de chaque opération
  • Différence entre l’estimation du nombre de lignes et la réalité
  • Boucles
    • appels, même rapides, nombreux
  • Opérations utilisant beaucoup de blocs (BUFFERS)
  • Opérations lentes de lecture/écriture (track_io_timing)

Nœuds d’exécution les plus courants (introduction)

  • Parcours
  • Jointures
  • Agrégats
  • Tri

Parcours

  • Table
    • Seq Scan, Parallel Seq Scan
  • Index
    • Index Scan, Bitmap Scan, Index Only Scan
    • et les variantes parallélisées
  • Autres
    • Function Scan, Values Scan

Jointures

  • Algorithmes
    • Nested Loop
    • Hash Join
    • Merge Join
  • Parallélisation possible
  • Pour EXISTS, IN et certaines jointures externes
    • Semi Join
    • Anti Join

Agrégats

  • Un résultat au total
    • Aggregate
  • Un résultat par regroupement
    • Hash Aggregate
    • Group Aggregate
    • Mixed Aggregate
  • Parallélisation
    • Partial Aggregate
    • Finalize Aggregate

Opérations unitaires

  • Sort
  • Incremental Sort
  • Limit
  • Unique (DISTINCT)
  • Append (UNION ALL), Except, Intersect
  • Gather (parallélisme)
  • Memoize (14+)

Outils graphiques

  • pgAdmin
  • explain.depesz.com
  • explain.dalibo.com

pgAdmin

  • Vision graphique d’un EXPLAIN
  • Une icône par nœud
  • La taille des flèches dépend de la quantité de données
  • Le détail de chaque nœud est affiché en survolant les nœuds

pgAdmin - copie d’écran

EXPLAIN par pgAdmin

explain.depesz.com

  • Site web avec affichage amélioré du EXPLAIN ANALYZE
  • Lignes colorées pour indiquer les problèmes
  • Installable en local

explain.depesz.com - exemple

explain.depesz.com

explain.dalibo.com

  • Reprise de pev d’Alex Tatiyants, par Pierre Giraud (Dalibo)
  • Page web avec affichage graphique d’un EXPLAIN [ANALYZE]
  • Repérage des nœuds longs, lourds…
  • Affichage flexible
  • explain.dalibo.com
  • Installable en local

explain.dalibo.com - exemple

EXPLAIN par pev

Conclusion

  • Un optimiseur très avancé
  • Ne vous croyez pas plus malin que lui
  • Mais il est important de savoir comment il fonctionne

Questions

N’hésitez pas, c’est le moment !

Quiz

Travaux pratiques

Tous les TP se basent sur la configuration par défaut de PostgreSQL, sauf précision contraire.

Manipuler explain

Manipuler explain (base magasin)

Travaux pratiques (solutions)

Techniques d’indexation

Un index à l’ancienne

Introduction

  • Qu’est-ce qu’un index ?
  • Comment indexer une base ?
  • Les index B-tree dans PostgreSQL

Objectifs

  • Comprendre ce qu’est un index
  • Maîtriser le processus de création d’index
  • Connaître les différents types d’index B-tree et leurs cas d’usages

Introduction aux index

  • Uniquement destinés à l’optimisation
  • À gérer d’abord par le développeur
    • Markus Winand : SQL Performance Explained

Utilités d’un index

  • Un index permet de :
    • trouver un enregistrement dans une table directement
    • récupérer une série d’enregistrements dans une table
    • voire tout récupérer dans l’index (Index Only Scan)
  • Un index facilite :
    • certains tris
    • certains agrégats
  • Obligatoires et automatique pour clés primaires & unicité
    • conseillé pour clés étrangères (FK)

Index et lectures

Un index améliore les SELECT

  • Sans index :
=# SELECT * FROM test WHERE id = 10000;
Temps : 1760,017 ms
  • Avec index :
=# CREATE INDEX idx_test_id ON test (id);

=# SELECT * FROM test WHERE id = 10000;
Temps : 27,711 ms

Index : inconvénients

  • L’index n’est pas gratuit !
  • Ralentit les écritures
    • maintenance
  • Place disque
  • Compromis à trouver

Index : contraintes pratiques à la création

  • Lourd…
-- bloque les écritures !
CREATE INDEX ON matable ( macolonne ) ;
-- ne bloque pas, peut échouer
CREATE INDEX CONCURRENTLY ON matable ( macolonne ) ;
  • Si fragmentation :
REINDEX INDEX nomindex ;
REINDEX TABLE CONCURRENTLY nomtable ;
  • Paramètres :
    • maintenance_work_mem (sinon : fichier temporaire !)
    • max_parallel_maintenance_workers

Types d’index dans PostgreSQL

  • Défaut : B-tree classique (équilibré)
  • UNIQUE (préférer la contrainte)
  • Mais aussi multicolonne, fonctionnel, partiel, couvrant
  • Index spécialisés : hash, GiST, GIN, BRIN, HNSW….

Fonctionnement d’un index

Un index à l’ancienne

Structure d’un index

  • Structure associant des clés (termes) à des localisations (pages)
  • Structure de données spécialisée, plusieurs types
  • Séparée de la table
  • Analogies :
    • fiches en carton des bibliothèques avant l’informatique (B-tree)
    • index d’un livre technique (GIN)

Un index n’est pas magique

  • Un index ne résout pas tout
  • Importance de la conception du schéma de données
  • Importance de l’écriture de requêtes SQL correctes

Index B-tree

  • Type d’index le plus courant
    • et le plus simple
  • Utilisable pour les contraintes d’unicité
  • Supporte les opérateurs : <, <=, =, >=, >
  • Supporte le tri
  • Ne peut pas indexer des colonnes de plus de 2,6 ko

Exemple de structure d’index

SELECT name FROM ma_table WHERE id = 22

Organisation d’un index B-tree

Index multicolonnes

  • Possibilité d’indexer plusieurs colonnes :
    CREATE INDEX ON ma_table (id, name) ;
  • Ordre des colonnes primordial
    • accès direct aux premières colonnes de l’index
    • pour les autres, PostgreSQL lira tout l’index ou ignorera l’index

Nœuds des index

  • Index Scan
  • Bitmap Scan
  • Index Only Scan
    • idéal pour les performances
  • et les variantes parallélisées

Méthodologie de création d’index

  • On indexe pour une requête
    • ou idéalement une collection de requêtes
  • Et pas « une table »

L’index ? Quel index ?

  • Identifier les requêtes nécessitant un index
  • Créer les index permettant de répondre à ces requêtes
  • Valider le fonctionnement, en rejouant la requête avec :
     EXPLAIN (ANALYZE, BUFFERS)

Index et clés étrangères

  • Indexation des colonnes faisant référence à une autre
  • Performances des DML
  • Performances des jointures

Index inutilisé

C’est souvent tout à fait normal

  • Utiliser l’index est-il rentable ?
  • La requête est-elle compatible ?
  • Bug de l’optimiseur : rare

Index utilisable mais non utilisé

  • L’optimiseur pense qu’il n’est pas rentable
    • sélectivité trop faible
    • meilleur chemin pour remplir d’autres critères
    • index redondant
    • Index Only Scan nécessite un VACUUM fréquent
  • Les estimations de volumétries doivent être assez bonnes !
    • statistiques récentes, précises

Index inutilisable à cause d’une fonction

  • Pas le bon type (CAST plus ou moins explicite)
EXPLAIN SELECT * FROM clients WHERE client_id = 3::numeric;
  • Utilisation de fonctions, comme :
SELECT * FROM ma_table WHERE to_char(ma_date, 'YYYY')='2014' ;

Index inutilisable à cause d’un LIKE ‘…%’

SELECT * FROM fournisseurs WHERE commentaire LIKE 'ipsum%';
  • Solution :
CREATE INDEX idx1 ON ma_table (col_varchar varchar_pattern_ops) ;

Index inutilisable car invalide

  • CREATE INDEX … CONCURRENTLY peut échouer

Indexation B-tree avancée

De nombreuses possibilités d’indexation avancée :

  • Index partiels
  • Index fonctionnels
  • Index couvrants
  • Classes d’opérateur

Index partiels

  • N’indexe qu’une partie des données :
CREATE INDEX on evenements (type) WHERE  traite IS FALSE ;
  • Ne sert que si la clause est logiquement équivalente !
    • ou partie de la clause (inégalités, IN)
  • Intérêt : index beaucoup plus petit

Index partiels : cas d’usage

  • Données chaudes et froides
  • Index dédié à une requête avec une condition fixe

Index partiels : utilisation

  • Éviter les index de type :
CREATE INDEX ON matable ( champ_filtre ) WHERE champ_filtre =
  • Préférer :
CREATE INDEX ON matable ( champ_resultat ) WHERE champ_filtre =

Index fonctionnels : principe

  • Un index sur a est inutilisable pour :
  SELECTWHERE upper(a)='DUPOND'
  • Indexer le résultat de la fonction :
   CREATE INDEX mon_idx ON ma_table (upper(a)) ;

Index fonctionnels : conditions

  • Critère identique à la fonction dans l’index
  • Fonction impérativement IMMUTABLE !
    • délicat avec les conversions de dates/heures
  • Ne pas espérer d’Index Only Scan

Index fonctionnels : maintenance

  • Ne pas oublier ANALYZE après création d’un index fonctionnel
    • les statistiques peuvent même être l’intérêt majeur (<v14)
  • La fonction ne doit jamais tomber en erreur
  • Si modification de la fonction
    • réindexation

Index couvrants : principe

  • But : obtenir un Index Only Scan
CREATE UNIQUE INDEX clients_idx1
ON clients (id_client) INCLUDE (nom_client) ;
  • Répondent à la clause WHERE
  • ET contiennent toutes les colonnes demandées par la requête :
SELECT id_client,nom_client FROM clients WHERE id_client > 100 ;
  • …si l’index n’est pas trop gros
    • à comparer à un index multicolonne

Classes d’opérateurs

  • Un index utilise des opérateurs de comparaison
  • Texte : différentes collations = différents tris… complexes
    • Index inutilisable sur :
    WHERE col_varchar LIKE 'chaine%'
  • Solution : opérateur varchar_pattern_ops :
    • force le tri caractère par caractère, sans la collation
    CREATE INDEX idx1
    ON ma_table (col_varchar varchar_pattern_ops)
  • Plus généralement :
    • nombreux autres opérateurs pour d’autres types d’index

Conclusion

  • Responsabilité de l’indexation
  • Compréhension des mécanismes
  • Différents types d’index, différentes stratégies

Quiz

Travaux pratiques

Index « simples »

Sélectivité

Index partiels

Index fonctionnels

Cas d’index non utilisés

Travaux pratiques (solutions)

Comprendre EXPLAIN

PostgreSQL

Introduction

  • Le matériel, le système et la configuration sont importants pour les performances
  • Mais il est aussi essentiel de se préoccuper des requêtes et de leurs performances

Au menu

  • Exécution globale d’une requête
  • Planificateur : utilité, statistiques et configuration
  • EXPLAIN
  • Nœuds d’un plan
  • Outils

Exécution globale d’une requête

  • L’exécution peut se voir sur deux niveaux
    • niveau système
    • niveau SGBD
  • De toute façon, composée de plusieurs étapes

Niveau système

  • Le client envoie une requête au serveur de bases de données
  • Le serveur l’exécute
  • Puis il renvoie le résultat au client

Traitement d’une requête

Traitement d’une requête SQL

Exceptions

  • Procédures stockées (appelées avec CALL)
  • Requêtes DDL
  • Instructions TRUNCATE et COPY
  • Pas de réécriture, pas de plans d’exécution…
    • une exécution directe

Quelques définitions

  • Prédicat
    • filtre de la clause WHERE
    • conditions de jointure
  • Sélectivité
    • % de lignes retournées après application d’un prédicat
  • Cardinalité
    • nombre de lignes d’une table
    • nombre de lignes retournées après filtrages

Jeu de tests

  • Tables
    • services : 4 lignes
    • services_big : 40 000 lignes
    • employes : 14 lignes
    • employes_big : ~500 000 lignes
  • Index
    • service*.num_service (clés primaires)
    • employes*.matricule (clés primaires)
    • employes*.date_embauche
    • employes_big.num_service (clé étrangère)

Jeu de tests (schéma)

Tables employés & services

Requête étudiée

SELECT matricule, nom, prenom, nom_service, fonction, localisation
FROM   employes emp
JOIN   services ser ON (emp.num_service = ser.num_service)
WHERE  ser.localisation = 'Nantes';

Plan de la requête étudiée

L’objet de ce module est de comprendre son plan d’exécution :

 Hash Join  (cost=1.06..2.28 rows=4 width=48)
   Hash Cond: (emp.num_service = ser.num_service)
   ->  Seq Scan on employes emp  (cost=0.00..1.14 rows=14 width=35)
   ->  Hash  (cost=1.05..1.05 rows=1 width=21)
         ->  Seq Scan on services ser  (cost=0.00..1.05 rows=1 width=21)
               Filter: ((localisation)::text = 'Nantes'::text)

Planificateur

Rappels :

  • SQL est un langage déclaratif
  • Planificateur : trouver le meilleur plan
  • Énumère tous les plans d’exécution possible
    • tous ou presque…
  • Statistiques + configuration + règles → coût
  • Coût le plus bas = meilleur plan

Règles

  • Règle 1 : récupérer le bon résultat

  • Règle 2 : le plus rapidement possible

    • en minimisant les opérations disques
    • en préférant les lectures séquentielles
    • en minimisant la charge CPU
    • en minimisant l’utilisation de la mémoire

Outils de l’optimiseur

  • L’optimiseur s’appuie sur :
    • un mécanisme de calcul de coûts
    • des statistiques sur les données
    • le schéma de la base de données

Optimisations

  • À partir du modèle de données
    • suppression de jointures externes inutiles
  • Transformation des sous-requêtes
    • certaines sous-requêtes transformées en jointures
    • ex : critere IN (SELECT ...)
  • Appliquer les prédicats le plus tôt possible
    • réduit le jeu de données manipulé
  • Intègre le code des fonctions SQL simples (inline)
    • évite un appel de fonction coûteux

Décisions

L’optimiseur doit choisir :

  • Stratégie d’accès aux lignes
    • parcours de table, d’index, fonction, etc.
  • Stratégie d’utilisation des jointures
    • ordre
    • ordre des tables jointes
    • type (Nested Loop, Merge Join, Hash Join…)
  • Stratégie d’agrégation
    • brut, trié, haché
  • En version parallélisée ?
  • Tenir compte de la consommation mémoire

Parallélisation

  • Processus supplémentaires pour certains nœuds
    • parer à la limitation par le CPU
  • En lecture (sauf exceptions)
  • Parcours séquentiel
  • Jointures : Nested Loop / Hash Join / Merge Join
  • Agrégats
  • Parcours d’index (B-Tree uniquement)
  • Création d’index B-Tree
  • Certaines créations de table et vues matérialisées
  • DISTINCT (v15)

Limites actuelles de la parallélisation

  • Lourd à déclencher
  • Pas sur les écritures de données
  • Très peu d’opérations DDL gérées
  • Pas en cas de verrous
  • Pas sur les curseurs
  • En évolution à chaque version

Mécanisme de coûts & statistiques

  • Modèle basé sur les coûts
    • quantifier la charge pour répondre à une requête
  • Chaque opération a un coût :
    • lire un bloc selon sa position sur le disque
    • manipuler une ligne issue d’une lecture de table ou d’index
    • appliquer un opérateur

Coûts unitaires

  • Coûts à connaître :
    • accès au disque séquentiel / non séquentiel
    • traitement d’un enregistrement issu d’une table
    • traitement d’un enregistrement issu d’un index
    • application d’un opérateur
    • traitement d’un enregistrement dans un parcours parallélisé
    • mise en place d’un parcours parallélisé
    • mise en place du JIT, du parallélisme…
  • Chaque coût = un paramètre
    • modifiable dynamiquement avec SET

Statistiques

  • Combien de lignes va-t-on traiter ?
  • Toutes les décisions du planificateur se basent sur les statistiques
    • le choix du parcours
    • comme le choix des jointures
  • Mettre à jour les statistiques sur les données :
    • ANALYZE
  • Sans bonnes statistiques, pas de bons plans !

Utilisation des statistiques

  • Les statistiques indiquent :
    • la cardinalité d’un filtre → stratégie d’accès
    • la cardinalité d’une jointure → algorithme de jointure
    • la cardinalité d’un regroupement → algorithme de regroupement

Statistiques des tables et index

  • Dans pg_class
    • relpages : taille
    • reltuples : lignes

Statistiques : mono-colonne

  • Nombre de valeurs distinctes
  • Nombre d’éléments qui n’ont pas de valeur (NULL)
  • Largeur d’une colonne
  • Distribution des données
    • tableau des valeurs les plus fréquentes
    • histogramme de répartition des valeurs

Stockage des statistiques mono-colonne

  • Stockage dans pg_statistic
    • préférer la vue pg_stats
  • Une table nouvellement créée n’a pas de statistiques
  • Utilisation :
SELECT * FROM pg_stats
  WHERE  schemaname = 'public'
  AND tablename     = 'employes'
  AND attname       = 'date_embauche' \gx

Vue pg_stats

-[ RECORD 1 ]----------+---------------------------------------------------------
schemaname             | public
tablename              | employes
attname                | date_embauche
inherited              | f
null_frac              | 0
avg_width              | 4
n_distinct             | -0.5
most_common_vals       | {2006-03-01,2006-09-01,2000-06-01,2005-03-06,2006-01-01}
most_common_freqs      | {0.214286,0.214286,0.142857,0.142857,0.142857}
histogram_bounds       | {2003-01-01,2006-06-01}
correlation            | 1
most_common_elems      | ¤
most_common_elem_freqs | ¤
elem_count_histogram   | ¤

Statistiques : multicolonnes

  • Pas par défaut
  • CREATE STATISTICS
  • Trois types de statistique
    • nombre de valeurs distinctes
    • dépendances fonctionnelles
    • liste MCV

Statistiques sur les expressions

CREATE STATISTICS employe_big_extract
ON extract('year' FROM date_embauche) FROM employes_big;
  • Résout le problème des statistiques difficiles à estimer
  • Pas créées par défaut
  • Ne pas oublier ANALYZE
  • (Avant v14 : index fonctionnel nécessaire)

Catalogues pour les statistiques étendues

Vues disponibles :

  • pg_stats_ext
  • pg_stats_ext_exprs (pour les expressions, v14)

ANALYZE

  • ANALYZE [ VERBOSE ] [ table [ ( colonne [, ...] ) ] [, ...] ]
    • sans argument : base entière
    • avec argument : table complète ou certaines colonnes
  • Un échantillon de table → statistiques
  • Table vide : conserve les anciennes statistiques
  • Nouvelle table : valeur par défaut

Fréquence d’analyse

  • Dépend principalement de la fréquence des requêtes DML
  • Autovacuum fait l’ANALYZE mais…
    • pas sur les tables temporaires
    • pas assez rapidement parfois
  • Cron
    • psql
    • ou vacuumdb --analyze-only

Échantillon statistique

  • default_statistics_target = 100
    • × 300 → 30 000 lignes au hasard
  • Configurable par colonne
ALTER TABLE matable ALTER COLUMN nomchamp SET STATISTICS 300 ;
  • Configurable par statistique étendue (v13+)
ALTER STATISTICS nom SET STATISTICS valeur ;
  • ANALYZE ensuite
  • Coût : temps de planification

Lecture d’un plan

Lecture d’un plan d’exécution

Rappel des options d’EXPLAIN

  • ANALYZE : exécution (danger !)
    • BUFFERS : blocs read/hit/written/dirtied, shared/local/temp
    • WAL : écritures dans les journaux
    • SERIALIZE : coût de sérialisation (v17)
    • SETTINGS : paramètrage en cours
  • VERBOSE : champs manipulés, workers
  • MEMORY : mémoire consommée par le planificateur (v17)
  • GENERIC_PLAN : plan générique (requête préparée, v16)
  • Désactivables avec OFF :
    • COSTS, TIMING, SUMMARY (dont planification)
  • FORMAT : sortie en texte, XML, JSON, YAML

Statistiques, cardinalités & coûts

  • Détermine à partir des statistiques
    • cardinalité des prédicats
    • cardinalité des jointures
  • Coût d’accès déterminé selon
    • des cardinalités
    • volumétrie des tables

Nœuds d’exécution les plus courants

  • Un plan est composé de nœuds
  • qui produisent des données
  • ou en consomment et en retournent
  • Chaque nœud consomme les données produites par le(s) nœud(s) parent(s)
  • Le nœud final retourne les données à l’utilisateur

Nœuds de type parcours

  • Parcours de table
  • Parcours d’index
  • Autres parcours

Parcours de table

  • Seq Scan
  • Parallel Seq Scan

Parcours de table : Seq Scan

Seq Scan

Parcours de table : paramètres

  • Seq Scan
    • seq_page_cost (défaut : 1)
    • cpu_tuple_cost & cpu_operator_cost
    • enable_seqscan
  • Parallel Seq Scan
    • parallel_tuple_cost, min_parallel_table_scan_size
    • et les autres paramètres de la parallélisation

Parcours d’index

  • Index Scan
  • Index Only Scan
  • Bitmap Index Scan
  • et leurs versions parallélisées (B-Tree)

Index Scan

Index Scan

Index Only Scan : principe

Index Only Scan

Index Only Scan : utilité & limites

  • Très performant
  • Besoin d’un VACUUM récent
    • sinon trop de Heap Fetches
  • Ne fonctionne pas pour les index fonctionnels
    • ajouter une colonne générée ?

Bitmap Scan

Bitmap Scan

Parcours d’index : paramètres importants

  • random_page_cost (4 ou moins ?)
  • cpu_index_tuple_cost
  • effective_cache_size (⅔ de la RAM ?)
  • Selon le disque :
    • effective_io_concurrency
    • maintenance_io_concurrency
  • min_parallel_index_scan_size
  • enable_indexscan, enable_indexonlyscan, enable_bitmapscan

Autres parcours

  • Function Scan
  • Values Scan
  • …et d’autres

Nœuds de jointure

  • PostgreSQL implémente les 3 algorithmes de jointures habituels
    • Nested Loop : boucle imbriquée
    • Hash Join : hachage de la table interne
    • Merge Join : tri-fusion
  • Parallélisation
  • Pour EXISTS, IN et certaines jointures externes
    • Hash Semi Join & Hash Anti Join
  • Paramètres :
    • work_mem ( et hash_mem_multiplier )
    • seq_page_cost & random_page_cost.
    • enable_nestloop, enable_hashjoin, enable_mergejoin

Nœuds de tris et de regroupements

  • Deux nœuds de tri :
    • Sort
    • Incremental Sort
  • Regroupement/agrégation :
    • Aggregate
    • Hash Aggregate
    • Group Aggregate
    • Mixed Aggregate
    • Partial/Finalize Aggregate
  • Paramètres :
    • enable_hashagg
    • work_mem & hash_mem_multiplier

Les autres nœuds

  • Limit
  • Unique (DISTINCT)
  • Append (UNION ALL), Except, Intersect
  • Gather (parallélisme)
  • InitPlan, Subplan, etc.
  • Memoize (14+)

Problèmes les plus courants

  • L’optimiseur se trompe parfois
    • mauvaises statistiques
    • écriture particulière de la requête
    • problèmes connus de l’optimiseur

Statistiques pas à jour

Les statistiques sont-elles à jour ?

  • Traitement lourd
    • faire tout de suite ANALYZE
  • Table trop grosse
    • régler l’échantillonnage
    • régler l’autovacuum sur cette table
  • Retard de mise à jour suite à crash ou restauration

Colonnes corrélées

SELECT * FROM corr1 WHERE c1=1 AND c2=1
  • Si c1 = 1 pour 20 % des lignes
  • et c2 = 1 pour 10 % des lignes
  • Alors le planificateur calcule : 2 % des lignes (20 % × 10 %)
    • Mais en réalité ?
  • Pour corriger :
CREATE STATISTICS corr1_c1_c2 ON c1,c2 FROM corr1 ;

La jointure de trop

  • PostgreSQL choisit l’ordre des jointures
    • uniquement pour les X premières tables
    • où X = join_collapse_limit (défaut : 8)
  • Les jointures supplémentaires sont ajoutées après
  • … d’où plans non optimaux
  • → augmenter join_collapse_limit si nécessaire (12-15)
    • ainsi que from_collapse_limit

Prédicats et statistiques

SELECT *
FROM employes_big
WHERE extract('year' from date_embauche) = 2006 ;
  • L’optimiseur n’a pas de statistiques sur le résultat de la fonction extract
  • Il estime la sélectivité du prédicat à 0,5 % …
  • CREATE STATISTIC (v14)

Problème avec LIKE

SELECT * FROM t1 WHERE c2 LIKE 'x%';
  • PostgreSQL peut utiliser un index dans ce cas
  • MAIS si l’encodage n’est pas C
    • déclarer l’index avec une classe d’opérateur
    • varchar_pattern_ops / text_pattern_ops, etc.
    CREATE INDEX ON matable (champ_texte varchar_pattern_ops);
  • Outils pour LIKE '%mot%' :
    • pg_trgm,
    • Full Text Search

DELETE lent

  • DELETE lent
  • Généralement un problème de clé étrangère
Delete  (actual time=111.251..111.251 rows=0 loops=1)
  ->  Hash Join  (actual time=1.094..21.402 rows=9347 loops=1)
        ->  Seq Scan on lot_a30_descr_lot
            (actual time=0.007..11.248 rows=34934 loops=1)
        ->  Hash  (actual time=0.501..0.501 rows=561 loops=1)
              ->  Bitmap Heap Scan on lot_a10_pdl
                  (actual time=0.121..0.326 rows=561 loops=1)
                    Recheck Cond: (id_fantoir_commune = 320013)
                    ->  Bitmap Index Scan on...
                        (actual time=0.101..0.101 rows=561 loops=1)
                          Index Cond: (id_fantoir_commune = 320013)
Trigger for constraint fk_lotlocal_lota30descrlot:
  time=1010.358 calls=9347
Trigger for constraint fk_nonbatia21descrsuf_lota30descrlot:
  time=2311695.025 calls=9347
Total runtime: 2312835.032 ms

Dédoublonnage

SELECT   DISTINCT t1.*   FROM t1 JOIN t2 ON (t1.id=t2.t1_id);
  • DISTINCT est souvent utilisé pour dédoublonner les lignes
    • souvent utilisé de manière abusive
    • tri !!
    • barrière à l’optimisation
  • Penser à :
    • DISTINCT ON
    • GROUP BY
  • Une clé primaire permet de dédoublonner efficacement

Index inutilisés

  • Statistiques pas à jour/peu précises/oubliées
  • Trop de lignes retournées
  • Ordre des colonnes de l’index (B-tree)
  • Index trop gros
  • Prédicat avec transformation
WHERE col1 + 2 > 5WHERE col1 > 5 - 2
  • Opérateur non supporté par l’index
WHERE col1 <> 'valeur';
  • Paramètres
    • random_page_cost
    • effective_cache_size

Écriture du SQL

  • NOT IN avec une sous-requête
    • remplacer par NOT EXISTS
  • UNION entraîne un tri systématique
    • préférer UNION ALL
  • Sous-requête dans le SELECT
    • utiliser LATERAL

Absence de hints

  • Certains regrettent l’absence de hints
  • C’est la politique du projet :
    • vouloir ne signifie pas avoir besoin
    • PostgreSQL est un projet libre qui a le luxe de se défaire de la pression du marché
    • cela permet d’être plus facilement et rapidement mis au courant des problèmes de l’optimiseur
  • Ne pensez pas être plus intelligent que le planificateur
  • Mais il ne peut faire qu’avec ce qu’il a

Outils d’optimisation

  • auto_explain
  • pg_hint_plan
  • plantuner
  • HypoPG

auto_explain

  • Tracer les plans des requêtes lentes automatiquement
  • Contrib officielle
  • Mise en place globale (traces) :
    • globale :
    shared_preload_libraries='auto_explain'   -- redémarrage !
    ALTER DATABASE erp SET auto_explain.log_min_duration = '3s' ;
    • session :
    LOAD 'auto_explain' ;
    SET auto_explain.log_analyze TO true;

Extension plantuner

  • Pour :
    • interdire certains index
    • forcer à zéro les statistiques d’une table vide
  • Intéressant en développement pour tester les plans
    • pas en production !

Extension pg_plan_hint

  • Pour :
    • forcer l’utilisation d’un nœud entre deux tables
    • imposer une valeur de paramètre
    • appliquer automatiquement ces hints à des requêtes

Extension HypoPG

  • Extension PostgreSQL
  • Création d’index hypothétiques pour tester leur intérêt
    • avant de les créer pour de vrai
  • Limitations : surtout B-Tree, statistiques

Conclusion

  • Planificateur très avancé
  • Ne pensez pas être plus intelligent que lui
  • Il faut bien comprendre son fonctionnement

Questions

N’hésitez pas, c’est le moment !

Quiz

Travaux pratiques

La version en ligne des solutions de ces TP est disponible sur https://dali.bo/j2_solutions.

Préambule

Optimisation d’une requête (partie 1)

Optimisation d’une requête (partie 2)

Requête avec beaucoup de tables

Corrélation entre colonnes

Travaux pratiques (solutions)

Référence sur les nœuds d’exécution

PostgreSQL

Introduction

  • Quatre types de nœuds
    • parcours (de table, d’index, de TID, etc.)
    • jointures (Nested Loop, Sort/Merge Join, Hash Join)
    • opérateurs sur des ensembles (Append, Except, Intersect, etc.)
    • et quelques autres (Sort, Aggregate, Unique, Limit, Materialize)

Parcours

  • Ne prend rien en entrée
  • Mais renvoie un ensemble de données
    • trié ou non, filtré ou non
  • Exemples typiques
    • parcours séquentiel d’une table, avec ou sans filtrage des enregistrements produits
    • parcours par un index, avec ou sans filtrage supplémentaire

Parcours de table

  • Parcours séquentiel de la table (Sequential Scan ou Seq Scan)
    • parallélisation possible (Parallel Seq Scan)
  • Aussi appelé Full table scan par d’autres SGBD
  • La table est lue entièrement
    • même si seulement quelques lignes satisfont la requête
    • sauf pour LIMIT sans ORDER BY
  • Séquentiellement, par bloc de 8 ko
  • Optimisation : synchronize_seqscans

Parcours d’index

  • Parcours aléatoire de l’index
  • Pour chaque enregistrement correspondant à la recherche
    • parcours non séquentiel de la table (pour vérifier la visibilité de la ligne)
  • Gros gain en performance si filtre très sélectif
  • Les lignes renvoyées sont triées
  • Parallélisation possible
    • B-Tree uniquement
  • Sur d’autres SGBD : INDEX RANGE SCAN + TABLE ACCESS BY INDEX ROWID

Parcours d’index bitmap

  • Bitmap Index Scan / Bitmap Heap Scan
  • Réduire les allers-retours index <-> table
    • trouver les blocs de l’index
    • lecture des blocs intéressantde la table
  • Combiner plusieurs index en mémoire
    • nœud BitmapAnd
    • nœud BitmapOr
  • Coût de démarrage généralement important (pas intéressant avec LIMIT)
  • Parallélisation possible
  • B-Tree uniquement
  • Sensible à :
    • effective_io_concurrency

Parcours d’index seul

SELECT c1 FROM t1 WHERE c1<10
  • Avant 9.2 : PostgreSQL devait lire l’index + la table
  • À présent : le planificateur utilise la Visibility Map
    • nœud Index Only Scan
    • index B-Tree
    • index SP-GiST
    • index GiST => Types : point, box, inet, range

Parcours : autres

  • TID Scan
  • Function Scan
  • Values
  • Result

Jointures

  • Prend 2 ensembles de données en entrée
    • inner (interne)
    • outer (externe)
  • Et renvoie un seul ensemble de données
  • Exemples typiques :
    • Nested Loop, Merge Join, Hash Join

Nested Loops

Boucles imbriquées

  • Pour chaque ligne de la relation externe
    • pour chaque ligne de la relation interne
      • si la condition de jointure est avérée : émettre la ligne en résultat
  • L’ensemble externe n’est parcouru qu’une fois
  • L’ensemble interne est parcouru pour chaque ligne de l’ensemble externe
    • un index utilisable sur l’ensemble interne augmente fortement les performances !

Merge Join

Jointure d’ensembles triés

  • Trier l’ensemble interne
  • Trier l’ensemble externe
  • Tant qu’il reste des lignes dans un des ensembles
    • lire les deux ensembles en parallèle
    • si la condition de jointure est avérée : émettre la ligne
  • Parcourir les deux ensembles triés (d’où Sort-Merge Join)
  • Ne gère que les conditions avec égalité
  • Produit un ensemble résultat trié
  • Le plus rapide sur de gros ensembles de données

Hash Join

Jointure par hachage

  • Calculer le hachage de chaque ligne de l’ensemble interne
  • Tant qu’il reste des lignes dans l’ensemble externe
    • hacher la ligne lue
    • comparer ce hachage aux lignes hachées de l’ensemble interne
    • si une correspondance est trouvée : émettre la ligne
  • Ne gère que les conditions avec égalité
  • Idéal pour joindre une grande table à une petite table
  • Coût de démarrage important à cause du hachage de la table

Suppression d’une jointure

SELECT pg_class.relname, pg_class.reltuples
FROM pg_class
LEFT JOIN pg_namespace
       ON pg_class.relnamespace=pg_namespace.oid;
  • Un index unique existe sur la colonne oid de pg_namespace
  • Jointure inutile
    • sa présence ne change pas le résultat

Ordre de jointure

  • Trouver le bon ordre de jointure est un point clé dans la recherche de performances
  • Nombre de possibilités en augmentation factorielle avec le nombre de tables
  • Si petit nombre, recherche exhaustive
  • Sinon, utilisation d’heuristiques et de GEQO (geqo_threshold)
    • limite le temps de planification et l’utilisation de mémoire
    • join_collapse_limit, from_collapse_limit : limites de 8 tables

Opérations ensemblistes

  • Prend un ou plusieurs ensembles de données en entrée
  • Et renvoie un ensemble de données
  • Concernent principalement les requêtes sur des tables partitionnées ou héritées
  • Exemples typiques
    • Append
    • Intersect
    • Except

Append

  • Prend plusieurs ensembles de données
  • Sortie non triée
  • Utilisation :
    • tables héritées (dont partitionnement)
    • UNION ALL et des UNION
    • NB : UNION sans ALL élimine les doublons (tri !)
  • Opération parallélisable (v11)

MergeAppend

  • Append avec optimisation
  • Sortie triée
  • Utilisation :
    • UNION ALL , partitionnement/héritage
    • avec parcours triés
    • idéal avec LIMIT

Autres nœuds

  • Nœud HashSetOp Except
    • EXCEPT et EXCEPT ALL
  • Nœud HashSetOp Intersect
    • INTERSECT et INTERSECT ALL

Divers

  • Prend un ensemble de données en entrée
  • Et renvoie un ensemble de données
  • Exemples typiques
    • Sort
    • Aggregate
    • Unique
    • Limit
    • InitPlan, SubPlan

Tris

  • Sort
  • Incremental Sort

Sort

  • Utilisé pour le ORDER BY
    • Mais aussi DISTINCT, GROUP BY, UNION
    • Les jointures de type Merge Join
  • Gros délai de démarrage
  • Trois types de tri
    • en mémoire, tri quicksort
    • en mémoire, tri top-N heapsort (si LIMIT)
    • sur disque

Incremental Sort

  • Utilisé lorsqu’un index existe sur les premières colonnes du tri
    • ORDER BY, DISTINCT, GROUP BY, UNION
    • Les jointures de type Merge Join
  • Délai de démarrage réduit

Aggregate

  • Agrégat complet
  • Pour un seul résultat

HashAggregate

  • Hachage de chaque n-uplet de regroupement (GROUP BY)
  • Accès direct à chaque n-uplet pour appliquer fonction d’agrégat
  • Intéressant si l’ensemble des valeurs distinctes tient en mémoire, dangereux sinon

GroupAggregate

  • Reçoit des données déjà triées
  • Parcours des données
    • regroupement du groupe précédent arrivé à une donnée différente

Unique

  • Reçoit des données déjà triées
  • Parcours des données
    • renvoi de la donnée précédente une fois arrivé à une donnée différente
  • Résultat trié

Limit

  • Limiter le nombre de résultats renvoyés
  • Utilisation :
    • LIMIT et OFFSET dans une requête SELECT
    • fonctions min() et max() quand il n’y a pas de clause WHERE et qu’il y a un index
  • Le nœud précédent sera de préférence un nœud dont le coût de démarrage est peu élevé (Seq Scan, Nested Loop)

Memoize

  • Apparu en version 14
  • Cache de résultat
  • Utilisable par la table interne des Nested Loop
  • Utile si :
    • peu de valeurs distinctes dans l’ensemble interne
    • beaucoup de valeurs dans l’ensemble externe
    • peu de correspondance entre les deux ensembles
  • Paramètres : work_mem hash_mem_multiplier

Analyses et diagnostics

PostgreSQL

Introduction

  • Deux types de supervision
    • occasionnelle
    • automatique
  • Superviser le matériel et le système
  • Superviser PostgreSQL et ses statistiques
  • Utiliser les bons outils
  • Supervision occasionnelle système
    • Linux
    • Windows
  • Supervision occasionnelle PostgreSQL
  • Outils

Supervision occasionnelle sous Unix

  • Nombreux outils
  • Les tester pour les sélectionner

Unix - ps

  • ps est l’outil de base pour les processus
  • Exemples
    • ps aux
    • ps f -f -u postgres

Unix - top

  • Principal intérêt : %CPU et %MEM
  • Intérêts secondaires
    • charge CPU
    • consommation mémoire
  • Autres outils
    • atop, htop

Unix - iotop

  • Principal intérêt : %IO
  • Accès root nécessaire

Unix - vmstat

  • Outil le plus fréquemment utilisé
  • Principal intérêt
    • lecture et écriture disque
    • iowait
  • Intérêts secondaires
    • nombre de processus en attente

Unix - iostat

  • Une ligne par partition
  • Intéressant pour connaître la partition la plus concernée par
    • les lectures
    • ou les écritures

Unix - sysstat

  • Outil le plus ancien
  • Récupère des statistiques de façon périodique
  • Permet de lire les statistiques datant de plusieurs heures, jours, etc.

Unix - free

  • Principal intérêt : connaître la répartition de la mémoire

Supervision occasionnelle sous Windows

  • Là aussi, nombreux outils
  • Les tester pour les sélectionner

Windows - tasklist

  • ps et grep en une commande

Windows - Process Monitor

Windows - Process Explorer

Windows - Outils Performances

  • Semblable à sysstat
  • Mais avec plus d’informations
  • Et des graphes immédiats

Surveiller l’activité de PostgreSQL

  • Plusieurs aspects à surveiller :
    • activité de la base
    • activité sur les tables
    • requêtes SQL
    • écritures

Vue pg_stat_database

  • Des informations globales à chaque base
  • Nombre de sessions
  • Nombre de transactions validées/annulées
  • Nombre d’accès blocs
  • Nombre d’accès enregistrements
  • Taille et nombre de fichiers temporaires
  • Erreurs de checksums
  • Temps d’entrées/sorties

Gérer les connexions

  • qui est connecté ?
  • qui fait quoi ?
  • qui est bloqué ?
  • qui bloque les autres ?
  • comment arrêter une requête ?

Vue pg_stat_activity

  • Liste des processus
    • sessions (backends)
    • processus en tâche de fond
  • Requête en cours/dernière exécutée
    • query_id
  • idle in transaction : attention !
  • Sessions en attente : wait_events

Arrêter une requête ou une session

  • Annuler une requête
    • pg_cancel_backend (pid int)
    • pg_ctl kill INT pid (éviter)
    • kill -SIGINT pid, kill -2 pid (éviter)
  • Fermer une connexion
    • pg_terminate_backend(pid int, timeout bigint)
    • pg_ctl kill TERM pid (éviter)
    • kill -SIGTERM pid, kill -15 pid (éviter)
  • Jamais kill -9 ou kill -SIGKILL !!

pg_stat_ssl

Quand le SSL est activé sur le serveur, cette vue indique pour chaque connexion cliente les informations suivantes :

  • SSL activé ou non
  • Version SSL
  • Suite de chiffrement
  • Nombre de bits pour algorithme de chiffrement
  • Compression activée ou non
  • Distinguished Name (DN) du certificat client

Verrous

  • Visualisation des verrous en place
  • Tous types de verrous sur objets
  • Complexe à interpréter

Trace des attentes de verrous

  • Message dans les traces
    • uniquement pour les attentes de plus d’une seconde
    • paramètre log_lock_waits à on
    • rapport pgBadger disponible

Trace des connexions

  • Message dans les traces
    • à chaque connexion/déconnexion
    • paramètre log_connections et log_disconnections
    • rapport pgBadger disponible

Surveiller l’activité sur les tables

  • Quelle taille font mes objets ?
  • Quel est leur taux de fragmentation ?
  • Comment sont-ils accédés ?

Obtenir la taille des objets

  • Pour une table :

    • pg_relation_size : heap
    • pg_table_size : + TOAST + divers
  • Index : pg_indexes_size

  • Table + index : pg_total_relation_size

  • Plus lisibles avec pg_size_pretty

Mesurer la fragmentation des objets

  • Fragmentation induite par MVCC
    • tables et index
  • Mesure précise de la fragmentation :
    • extension pgstattuple
  • Estimer la fragmentation :

Vue pg_stat_user_tables

  • Statistiques niveau «ligne»
  • Nombre de lignes insérées/mises à jour/supprimées
  • Type et nombre d’accès
  • Opérations de maintenance
  • Détection des tables mal indexées ou très accédées

Vue pg_stat_user_indexes

  • Vue par index
  • Nombre d’accès et efficacité

Vues pg_statio_user_tables & pg_statio_user_indexes

  • Opérations au niveau bloc
  • Demandés au système ou trouvés dans le cache de PostgreSQL
  • Pour calculer des hit ratios :
   idx_blks_hit::float / (idx_blks_read + idx_blks_hit)

Vue pg_stat_io

Vue synthétique des opérations disques selon :

  • le type de backend
    • backend, autovacuum, checkpointer…
  • le type d’objet
    • table ou table temporaire
  • le contexte
    • normal, vacuum, bulkread/bulkwrite…

Penser à activer track_io_timing

Surveiller l’activité SQL

  • Quelles sont les requêtes lentes ?
  • Quelles sont les requêtes les plus fréquentes ?
  • Quelles requêtes génèrent des fichiers temporaires ?
  • Quelles sont les requêtes bloquées ?
    • et par qui ?
  • Progression d’une requête

Trace des requêtes exécutées

  • log_min_duration_statements = <temps minimal d’exécution>
    • 0 permet de tracer toutes les requêtes
    • trace des paramètres
    • traces exploitables par des outils tiers
    • pas d’informations sur les accès, ni des plans d’exécution
  • log_min_duration_sample = <temps minimal d’exécution>
    • log_statement_sample_rate et/ou log_transaction_sample_rate
    • trace d’un ratio des requêtes
  • D’autres paramètres existent mais sont peu intéressants

Trace des fichiers temporaires

  • log_temp_files = <taille minimale>
    • 0 trace tous les fichiers temporaires
    • associe les requêtes SQL qui les génèrent
    • traces exploitable par des outils tiers

pg_stat_statements

  • Ajoute la vue statistique pg_stat_statements
  • Les requêtes sont normalisées
  • Indique les requêtes exécutées
    • avec la durée d’exécution, l’utilisation du cache, etc.

Vue pg_stat_statements - métriques 1/5

Métriques intéressantes :

  • Durée d’exécution :
    • total_exec_time
    • min_exec_time/max_exec_time
    • stddev_exec_time
    • mean_exec_time
  • Avant la version 13, les colonnes n’avaient pas _exec dans leur nom
  • Nombre de lignes retournées : rows

Vue pg_stat_statements - métriques 2/5

  • Durée d’optimisation (v13+) :
    • total_plan_time
    • min_plan_time/max_plan_time
    • stddev_plan_time
    • mean_plan_time

Vue pg_stat_statements - métriques 3/5

  • Accès à la mémoire partagée
    • shared_blks_hit/read/dirtied/written
  • Accès à la mémoire de la session (tables temporaires…)
    • local_blks_hit/read/dirtied/written
  • Lecture/écriture de fichiers temporaires
    • temp_blks_read/written
  • Temps d’accès en entrée/sortie
    • blk_read_time/blk_write_time

Vue pg_stat_statements - métriques 4/5

  • Journaux de transactions (v13+) :
    • wal_records
    • wal_fpi
    • wal_bytes

Vue pg_stat_statements - métriques 5/5

  • JIT (v15+)
    • jit_functions
    • jit_generation_time
    • etc

Requêtes bloquées

  • Vue pg_stat_activity
    • colonnes wait_event et wait_event_type
  • Vue pg_locks
    • colonne granted
    • colonne waitstart (v14+)
  • Fonction pg_blocking_pids

Progression de certaines commandes

Opération Vue de suivi PostgreSQL
VACUUM pg_stat_progress_vacuum 9.6
ANALYZE pg_stat_progress_analyze 13
CLUSTER pg_stat_progress_cluster 12
VACUUM FULL pg_stat_progress_cluster 12
CREATE INDEX pg_stat_progress_create_index 12
BASE BACKUP pg_stat_progress_basebackup 13
COPY pg_stat_progress_copy 14

Progression d’une requête

  • Hélas, non

Surveiller les écritures

  • Quelle quantité de données sont écrites ?
  • Quel canal d’écriture est utilisé ?

Trace des checkpoints

  • log_checkpoints = on
  • Affiche des informations à chaque checkpoint :
    • mode de déclenchement
    • volume de données écrits
    • durée du checkpoint
  • Trace exploitable par des outils tiers

Vues pg_stat_bgwriter & pg_stat_checkpointer

  • pg_stat_bgwriter

  • pg_stat_checkpointer (v17)

  • Activité des écritures dans les fichiers de données

  • Visualisation du volume d’allocations et d’écritures

Surveiller l’archivage et la réplication

  • Sauvegarde PITR & log shipping :
    • pg_stat_archiver
  • Réplication :
    • pg_stat_replication
    • pg_stat_database_conflicts

pg_stat_archiver

  • Bon fonctionnement de l’archivage
  • Quand et combien d’erreurs d’archivages se sont produites

pg_stat_replication & pg_stat_database_conflicts

  • pg_stat_replication :
    • État des serveurs secondaires (streaming)
    • Mesure du lag
  • pg_stat_database_conflicts :
    • nombre de conflits de réplication
    • par type

Outils d’analyse

  • Différents outils existent autour de PostgreSQL
  • Outils d’analyse occasionnel :
    • pg_activity
  • Outils d’analyse des traces :
    • pgBadger
  • Outils d’analyse des statistiques :
    • pgCluu, pg_stat_statements, PoWA

pg_activity

pgBadger

  • Script Perl
  • Traite les journaux applicatifs
  • Recherche des informations sur les requêtes
  • Génération d’un rapport HTML très détaillé
  • https://pgbadger.darold.net/

pgCluu

  • Outils de collectes de métriques de performances
  • Différents aspects mesurés :
    • informations sur le système
    • consommation des ressources CPU, RAM, I/O
    • utilisation de la base de données

PostgreSQL Workload Analyzer

  • Objectif : identifier les requêtes coûteuses
    • sans devoir accéder aux logs
    • quasi en temps-réel
  • Background worker
    • dépendant de pg_stat_statements
  • https://github.com/powa-team

Conclusion

  • Un système est pérenne s’il est bien supervisé
  • Les systèmes de supervision automatique ont souvent besoin d’être complétés
  • PostgreSQL fourni énormément d’indicateurs utiles à la supervision
  • Les outils de supervision ponctuels sont utiles pour rapidement diagnostiquer l’état d’un serveur

Questions

N’hésitez pas, c’est le moment !

Quiz

Travaux Pratiques : analyse de traces avec pgBadger

Installation

Générer et étudier des rapports pgBadger

Travaux Pratiques : analyse de traces avec pgBadger (solution)