Le backtest est un outil puissant mais dangereux. Sans discipline méthodologique, il est trivial de créer une stratégie qui affiche 200% de CAGR en backtest mais qui s'effondre en live. L'overfit — quand un modèle « apprend le bruit » plutôt que le signal — est l'ennemi numéro 1 du trading systématique.
1 Analyse d'opportunités & Identification des signaux
Chaque stratégie naît d'une hypothèse de marché claire et testable, pas d'une exploration aveugle de paramètres.
- Génération du dataset — Création d'un fichier
opportunities.csvcontenant tous les signaux candidats avec leurs forward returns réels à 5j, 10j, et 20j. Ce dataset sert de vérité terrain. - Cluster Analysis — Identification de 3 profils d'opportunités :
- SHORT (≤ 5 jours) : Scalps et day trades
- MEDIUM (10-60 jours) : Swing trades
- LONG : Runners qui capturent les tendances majeures
- Discriminant Identification — Pour chaque feature (Score, RSI, VolRatio, ATRPct, DistMA20, Momentum), calcul du lift par rapport au baseline. Seules les features avec un lift significatif (> 1.5x) sont retenues.
- Filtres par régime — Adaptation des critères d'entrée selon le régime de marché :
- RiskOn → Momentum, breakouts
- Recovery → Mean reversion, dips
- RiskOff → RSI oversold, qualité uniquement
- Config YAML — Tous les paramètres sont externalisés dans un fichier de configuration. Zéro hardcoding.
2 Le Principe du « Plateau de Montagne »
La règle d'or de l'optimisation : ne JAMAIS choisir le pic de performance. Toujours choisir le centre du plateau.
Règles d'optimisation
- Sweeps un-par-un : Optimiser chaque paramètre individuellement, jamais en cascade. Un paramètre à la fois.
- Voisins ±1 step : Les paramètres voisins (±1 step) doivent afficher < 15% de variation de performance. Sinon = cliff.
- Consistance cross-période : Le paramètre optimal doit être similaire entre 2021-2023 et 2024-2026.
- Pas de cliff (> 50% de chute) : Si un petit changement de paramètre détruit les résultats, le paramètre est fragile.
Ordre d'impact des paramètres
Les paramètres sont optimisés dans l'ordre de leur impact sur la performance :
| Priorité | Paramètre | Impact | Exemple |
|---|---|---|---|
| 1 | Position Sizing | Critique | % du capital par position |
| 2 | Stop Management | Critique | ATR multiplier, trailing % |
| 3 | Timeout | Élevé | Durée max de détention |
| 4 | Max Positions | Élevé | Concentration du portfolio |
| 5 | Scanner Filters | Modéré | RSI, Score, VolRatio |
| 6 | Pyramiding | Faible | Ajout à une position gagnante |
Perturbation Test (±15%)
Principe : Tous les paramètres sont perturbés aléatoirement de ±15%. La stratégie doit maintenir un score ≥ 60.
Critère de réussite : La performance ne doit pas varier de plus de 30% par rapport à la baseline après perturbation.
Stress Test
Principe : Performance pendant les périodes de haute volatilité : bear market 2022, crash COVID mars 2020, taper tantrum.
Critère de réussite : Drawdown max ne doit pas dépasser 2x le drawdown moyen. La stratégie doit survivre.
Bull Test
Principe : En marché haussier, la stratégie ne doit pas sous-performer le buy & hold de plus de 50%.
Critère de réussite : Si le SPY fait +30%, la stratégie doit faire au minimum +15% (50% du benchmark).
Monkey Test
Principe : Comparer la stratégie à des entrées aléatoires (bruit blanc) avec les mêmes règles de sortie.
Critère de réussite : La stratégie doit battre le monkey par > 2x. Sinon, les entrées n'ont pas de valeur ajoutée.
Cross-Period Validation
Principe : Les paramètres optimaux doivent être similaires entre la période 2021-2023 et 2024-2026.
Critère de réussite : Les paramètres ne doivent pas varier de plus de 20% entre les sous-périodes.
Cliff Detection
Principe : Identification des paramètres « binaires » où un petit changement détruit les résultats (> 50% de chute).
Critère de réussite : Aucun paramètre ne doit montrer un cliff. Sinon, le paramètre est remplacé par un range plus stable.
4 Seuils de validation
Toute stratégie doit atteindre ces métriques minimales pour être publiée :
| Métrique | Minimum | Nos stratégies | Commentaire |
|---|---|---|---|
| CAGR | ≥ 40% | 45% – 124% | Toutes les stratégies publiées dépassent largement |
| Max Drawdown | ≤ 30% | 1.9% – 36% | highvol-breakout dépasse (36%) mais compensé par le CAGR |
| R² | ≥ 0.8 | 0.82 – 0.97 | Courbes d'equity régulières, peu de variance |
| Win Rate | ≥ 35% | 42% – 74% | Crypto-rotation à 74% grâce au trend-following |
| Sharpe Ratio | ≥ 1.0 | 1.2 – 2.49 | Forex-momentum leader avec 2.49 |
5 De la théorie à la pratique
Le backtest est nécessaire mais pas suffisant. Le forward testing révèle les écarts entre le modèle et la réalité.
- Déploiement en paper trading — Exécution en temps réel sans capital réel. Vérification que les signaux se déclenchent comme prévu.
- Petites positions live — Capital limité (1-5% du portfolio) pour mesurer le slippage réel, la latence d'exécution, et les coûts de transaction.
- Comparaison backtest vs live — Tracking de l'écart entre les résultats attendus et réels. Acceptable : < 15% d'écart.
- Monitoring continu — Alertes automatiques si drawdown > 1.5x le max historique ou si le win rate dévie de > 10% du backtest.
- Durée minimum — 3 mois de forward testing réussi avant publication et déploiement en capital complet.
- Slippage : La différence entre le prix théorique et le prix d'exécution réel. Critique sur les small caps illiquides.
- Fills partiels : Un ordre peut ne pas être entièrement exécuté, surtout en dehors des heures principales.
- Coûts de transaction : Commissions, spreads bid-ask, frais de change. Peuvent éroder 5-15% du CAGR.
- Market impact : Sur les small caps (< 50M$ de market cap), nos ordres peuvent influencer le prix.
Grille de scoring
Chaque stratégie reçoit un score composite basé sur les 6 tests. Score minimum pour publication : 60/100.
| Score | Verdict | Action |
|---|---|---|
| 80+ | EXCELLENT | Publication autorisée — Tier 1 ou Tier 2 |
| 60–79 | GOOD | Publication avec mention « robuste » — Tier 2 ou Tier 3 |
| 40–59 | FAIR | Publication avec avertissement — Optimisation supplémentaire requise |
| 20–39 | POOR | Non publié — Expérimental uniquement |
| < 20 | FAIL | Rejeté — Probable overfit ou problème structurel |
Les erreurs les plus courantes en trading systématique. Si vous reconnaissez l'une de ces pratiques, votre stratégie est probablement overfit.
Changer 3 paramètres simultanément rend impossible l'attribution de l'amélioration. Impossible de savoir quel changement a eu un impact.
Changer un seul paramètre, mesurer l'impact, valider, puis passer au suivant. Processus itératif et traçable.
Le paramètre qui donne 250% de CAGR est probablement overfit. Un léger décalage et tout s'effondre.
Le paramètre au centre d'une zone stable (150-180% CAGR sur une plage large) est robuste en conditions réelles.
Un paramètre optimal en 2021-2023 mais différent en 2024-2026 signifie que la stratégie s'adapte au passé, pas au signal.
Le même paramètre doit fonctionner sur 2021-2023 ET 2024-2026. C'est le test le plus simple et le plus puissant.
20 paramètres = 20 degrés de liberté = overfit garanti. Plus il y a de paramètres, plus il est facile de « coller » au passé.
Nos stratégies utilisent 5-8 paramètres max. Chaque paramètre supplémentaire doit prouver sa valeur ajoutée.
Tester 100 combinaisons de paramètres et ne publier que la meilleure. C'est de la sélection par le hasard, pas de la découverte.
Partir d'une hypothèse de marché claire, la tester, puis l'améliorer itérativement. Pas de « pêche au hasard ».
- Chaque stratégie publiée a été stress-testée sur des périodes de crise
- Les paramètres sont robustes (±15% de variation ne détruit pas les résultats)
- Les performances ne sont pas dues au hasard (monkey test > 2x)
- Les résultats sont reproductibles sur différentes périodes (cross-period)
- Chaque stratégie passe par un forward testing de 3 mois minimum