Skip to main content

Documentation Index

Fetch the complete documentation index at: https://docs.snakysec.com/llms.txt

Use this file to discover all available pages before exploring further.

Runbook 10 — Failover sur seconde région (note V1)

1. Statut V1

Failover automatique multi-région NON implémenté en V1. Cette page documente la procédure manuelle de bascule sur un VPS dans une autre région OVH (ou Scaleway en pivot extrême) pour le scénario “datacenter détruit” type Strasbourg 2021. V1 : RTO acceptable 8-12h pour ce scénario (rare statistiquement, force majeure défendable contractuellement). Phase 2-3 : possible évolution vers réplica chaud + failover automatique.

2. Quand activer

ScénarioActiver ?
Datacenter OVH GRA (Gravelines) totalement HS, retour annoncé > 6hOUI
Région OVH GRA partiellement dégradée mais accessibleNON (attendre rétablissement)
Compte OVH suspendu (litige facturation, abus signalé)OUI vers Scaleway
Test annuel exercice incident complet (Q4)OUI mode contrôlé

3. Objectifs

  • RPO : 24h (snapshots quotidiens dans repo Scaleway hors région OVH)
  • RTO cible : 8-12 heures (procédure manuelle 4h + propagation DNS + validation 4-8h)
  • WRT : 2 heures

4. Architecture cible failover

PRIMARY HORS SERVICE                      SECONDARY (this runbook)
┌─────────────────────────┐               ┌────────────────────────┐
│  OVH GRA (HS)           │       ────►   │  OVH RBX/SBG ou        │
│  VPS snakysec           │               │  Scaleway PAR          │
│  HS                     │               │  Reconstruction        │
└─────────────────────────┘               └────────────────────────┘
        │                                           │
        ▼                                           ▼
   ┌───────────┐                             ┌───────────┐
   │ OVH bucket│ HS                          │ Scaleway  │ ✓ accessible
   │ HS        │ (potentiellement)           │ bucket    │
   └───────────┘                             └───────────┘

5. Procédure

5.1 Préparation (T+0 → T+30min)

1. Confirmer le périmètre de la panne via :
   - status.ovhcloud.com
   - Twitter @OVHcloud
   - Communiqué OVH (si majeur)
2. Décider de la région cible :
   - Plan A : autre région OVH (RBX, SBG, BHS) → continuité contractuelle simple
   - Plan B : Scaleway PAR → si OVH multi-région impossible
3. Vérifier que les credentials Scaleway S3 sont valides (test rclone lsd :scw:mssp-backup-scw)

5.2 Provisioning région secondaire (T+30min → T+1h30)

Plan A — autre région OVH :
1. OVH Manager → Order new VPS
2. Région : RBX (Roubaix), SBG (Strasbourg) ou BHS (Beauharnois, Canada)
3. Spec identique au primary (Comfort 8/16/160)
4. Suivre 03-rebuild-vps-from-zero.md à partir de §5.2
Plan B — Scaleway PAR (cas OVH totalement HS) :
1. Scaleway Console → Instances → Create
2. Image : Debian 12, type DEV1-L (4 CPU / 8 GB / 80 GB)
3. Région : fr-par-1
4. Bootstrap système identique à 03 §5.2
5. Restore depuis Scaleway bucket (déjà accessible) :
   - Vault snapshot : --repo=scaleway
   - Postgres pgbackrest : PGBACKREST_REPO=2
   - Artifacts restic : --repo=scaleway

5.3 Restauration (T+1h30 → T+5h)

Identique à 03-rebuild-vps-from-zero.md §5.5-5.8.

5.4 Bascule DNS (T+5h → T+6h)

1. OVH Manager → snakysec.com → DNS Zone
2. Modifier records A (et AAAA) snakysec.com + *.snakysec.com vers nouvelle IP
3. TTL était de 300s, propagation rapide
4. Si OVH DNS aussi HS : pivot DNS provisoire vers Cloudflare DNS (gratuit)
   - Création account Cloudflare → Add site snakysec.com
   - Cloudflare propose les nameservers à mettre en glue records côté registrar
   - Ce dernier est rarement OVH lui-même (Gandi, Namecheap...) donc accessible

5.5 Validation + communication (T+6h → T+8h)

Identique à 03 §5.10. Mention spécifique dans la communication client :
Suite à un incident d'infrastructure majeur sur le datacenter [OVH GRA],
nous avons activé notre plan de continuité et basculé sur une infrastructure
de secours [région OVH RBX / Scaleway PAR].

Cette opération a duré 8 heures, conforme à notre RTO contractuel pour les
scénarios de force majeure régionale.

Vos données sont intègres. La bascule retour vers l'infra primaire sera
planifiée avec annonce préalable une fois OVH GRA rétabli.

5.6 Bascule retour vers PRIMARY (J+N quand OVH revient)

Pas urgent, peut attendre quelques jours/semaines. Procédure :
1. Annonce client : "maintenance planifiée pour bascule retour"
2. Sync delta Postgres : pgbackrest backup --type=full sur le secondary
3. Restore sur primary depuis ce backup frais
4. Bascule DNS retour
5. Validation
6. Désactivation du secondary (économie ressource)

6. Coût additionnel exercice

PosteCoût
VPS Scaleway DEV1-L (~30j de pivot)~30 € prorata
VPS OVH backup région (~30j)~50 € prorata
Travail Nicolas (8h)Coût d’opportunité
Test annuel Q4 (sur env de test)Inclus dans le plan

7. Hors-périmètre V1

  • Failover automatique (DNS + santé probes) : Phase 2 si MRR justifie ~50€/mois VPS chaud permanent
  • Réplica Postgres streaming vers seconde région : Phase 2-3
  • Multi-région active-active : non envisagé V1-V2 (overkill solo MSSP)
VersionDateAuteur
1.02026-04-26Nicolas Schiffgens