Backtest Overfitting als Kernrisiko
DRL-Trading kann in Backtests gut aussehen, scheitert aber oft an Overfitting. Dieses Paper macht Robustheit zum Prüfobjekt.
Aus den Hermes-Search- und Firecrawl-Extraktionstests als ansehnliche Hauptseite aufbereitet: Evidenz, Risiken, Papers und nächste Forschungsrichtungen.
Jede Karte lässt sich vergrößern und zeigt Quelle, Kernaussage und Bewertung. Die komplette Markdown-Analyse steht weiter unten im Volltext.
DRL-Trading kann in Backtests gut aussehen, scheitert aber oft an Overfitting. Dieses Paper macht Robustheit zum Prüfobjekt.
RL entscheidet Timing und Positionsgröße für BTC-GBP/BTC-EUR Pair-Trading auf 1-Minuten-Daten.
LSTM erkennt technische Chartmuster deutlich besser als getestete CNN-Varianten, aber Profitabilität bleibt separat zu beweisen.
Architektur-Lead für erklärbare, agentische Marktanalyse statt rein numerischer Blackbox.
GNNs nutzen Transfergraphen, um MEV-Patterns wartungsärmer und mit höherem Recall zu erkennen.
Taxonomie mit 7 Kategorien/24 Subtypen und gelabeltes Human/Bot-Dataset für Ethereum-Adressen.
Unterscheidet Displacement, Insertion und Suppression statt Front-running als Einheitsklasse zu behandeln.
Cascade aus SVM/RBF und Graph Attention Network, stark auf Gas- und Verhaltenfeatures fokussiert.
Die größte Erkenntnis: Modellkomplexität ist nicht automatisch Evidenz. Robustheit, Kosten und Datenqualität entscheiden.
Ein belastbares System trennt Research, Daten, Modelle, Evaluation und Safety.
Paper-Suche, PDF-Extraktion, strukturierte Paper-Karten mit Daten, Modellen, Metriken und Schwächen.
OHLCV, Orderbuch, Funding/Open Interest, Sentiment, On-chain Flows und MEV-Graphdaten.
Baselines zuerst; danach LSTM/Transformer, RL/DRL, Vision-Modelle und GNN/GAT für On-chain Detection.
Walk-forward, Out-of-Sample, Kosten-/Slippage-Sensitivität, Drawdown, Turnover und Backtest-Overfitting-Prüfung.
MEV nur defensiv: Detection, Monitoring, Risk Scoring und Marktintegritätsanalyse.
Der Originaltext ist direkt eingebettet und kann hier durchsucht/kopiert werden.
# Meta-Analyse: KI/AI in Verbindung mit Trading, technischer Analyse und MEV **Stand:** 2026-05-09T04:40:24Z **Kontext:** Hermes Web-/Crawler-Test nach Firecrawl-Umstellung **Search-Backend:** SearXNG **Extract-/Crawler-Backend:** Self-hosted Firecrawl (`http://127.0.0.1:3002`) **Testdomäne:** KI/Künstliche Intelligenz + Trading, Crypto-Daytrading, Chart Patterns, Front-running/MEV --- ## 1. Kurzfazit Die Recherche zeigt drei klar unterscheidbare Forschungs- und Anwendungslinien: 1. **KI/Deep Reinforcement Learning für Crypto- und Algorithmic Trading** - Relevante Papers zeigen, dass RL/DRL in Backtests traditionelle Regeln schlagen kann. - Die stärkste methodische Warnung ist Backtest-Overfitting: Roh-PnL alleine ist kein belastbarer Evidenzmaßstab. 2. **KI für Chart Patterns / technische Analyse** - Deep-Learning-Modelle, insbesondere LSTM und neuere Agenten-/LLM-Ansätze, können chartbasierte Muster erkennen. - Der praktische Wert hängt stark von Labelqualität, Out-of-Sample-Tests und Vergleich gegen einfache OHLCV-Baselines ab. 3. **KI/ML für MEV, Front-running, Sandwich-Attacken und Bot-Erkennung** - ML/GNN-Ansätze sind besonders plausibel für defensive Erkennung, Monitoring und Risikoanalyse. - Die Forschungsrichtung ist weniger „Trading-Signal“ und stärker „Marktintegrität / Security / On-chain Analytics“. **Meta-Bewertung:** KI ist in allen drei Bereichen nützlich, aber der Evidenzgrad ist unterschiedlich. Für produktive Trading-Strategien ist die größte Gefahr nicht, dass Modelle keine Muster finden, sondern dass sie historische Muster überfitten, Kosten/Slippage unterschätzen oder auf Regimewechseln scheitern. Für MEV-/Bot-Erkennung ist der Nutzen robuster, weil die Aufgabe stärker als Klassifikation/Anomalieerkennung formuliert ist. --- ## 2. Test- und Rechercheparameter Die wiederkehrenden Hermes-Testparameter aus den Erinnerungen waren: - **Thema A:** AI/KI + Crypto Daytrading / Algorithmic Trading - **Thema B:** AI/KI + Chart Patterns / Technical Analysis - **Thema C:** AI/KI + Front-running / MEV / Ethereum Bots - **Quellentypen:** allgemeine Websuche plus wissenschaftliche Papers, bevorzugt arXiv/PDF - **Zusatztest:** Validierung, ob Search, PDF-Extraktion und Crawl nach der Firecrawl-Umstellung funktionieren Durchgeführte technische Tests: - Websuche über SearXNG: **PASS** - HTML-/PDF-Extraktion über Firecrawl: **PASS** - Crawl über Hermes/Firecrawl: **PASS** - Test-PDF `arXiv:2407.16103`: extrahiert; enthält erwarteten Titel `Reinforcement Learning Pair Trading` - Crawl auf `https://arxiv.org/abs/2407.16103`: 8 Ergebnisse, ohne Fehler --- ## 3. Evidenzbasis: zentrale Papers und Leads ### 3.1 KI/DRL für Crypto-Trading und Algorithmic Trading #### Paper: Deep Reinforcement Learning for Cryptocurrency Trading: Practical Approach to Address Backtest Overfitting - **arXiv:** `2209.05559` - **URL:** https://arxiv.org/abs/2209.05559 - **Feld:** DRL, Crypto-Trading, Backtest-Overfitting - **Kernbeitrag:** Formuliert die Erkennung von Backtest-Overfitting als Hypothesentest und verwirft überfitte DRL-Agenten. - **Wichtiges Ergebnis:** Weniger überfitte Agenten erzielten im Testzeitraum bessere Ergebnisse als stärker überfitte Agenten, Equal-Weight-Strategie und ein Marktbenchmark. - **Meta-Relevanz:** Sehr wichtig, weil dieses Paper direkt das zentrale Problem von KI-Trading adressiert: scheinbar gute Backtests können False Positives sein. #### Paper: Reinforcement Learning Pair Trading: A Dynamic Scaling Approach - **arXiv:** `2407.16103` - **URL:** https://arxiv.org/abs/2407.16103 - **PDF:** https://arxiv.org/pdf/2407.16103 - **Feld:** RL, Pair Trading, Crypto, dynamische Positionsgrößen - **Datenset:** BTC-GBP und BTC-EUR, 1-Minuten-Daten, `n = 263,520` - **Reported Results:** - traditionelle Pair-Trading-Baseline: **8.33%** annualisierte Profitangabe - RL-basierte Varianten: **9.94% bis 31.53%** - **Kernbeitrag:** RL entscheidet nicht nur Entry/Exit, sondern auch Positionsgröße. - **Meta-Relevanz:** Zeigt Potenzial von RL in volatilen Märkten, aber Performance ist stark modell- und kostenabhängig. #### Weitere Leads - **Algorithmic Trading Using Continuous Action Space Deep Reinforcement Learning** (`arXiv:2210.03469`) - **A comparative study of Bitcoin and Ripple cryptocurrencies trading using Deep Reinforcement Learning algorithms** - **Reinforcement Learning-Based Cryptocurrency Portfolio Management Using SAC/DDPG** Diese Leads sind nützlich für eine spätere Vertiefung, wurden aber in diesem Test nicht gleich stark ausgewertet wie die Hauptpapers. --- ### 3.2 KI für Chart Patterns und technische Analyse #### Paper: Stock Chart Pattern Recognition with Deep Learning - **arXiv:** `1808.00418` - **URL:** https://arxiv.org/abs/1808.00418 - **PDF:** https://arxiv.org/pdf/1808.00418 - **Feld:** Deep Learning, Chart Pattern Recognition, LSTM, CNN - **Zentrale Ergebnisse aus der Extraktion:** - LSTM: ungefähr **96.8–97% Recall** - 2D-CNN: ungefähr **71–73% Recall** - 1D-CNN: ungefähr **64% Recall** - False-Positive-Rate im berichteten Validierungstest: **0.13%** bei LSTM - **Kernbeitrag:** LSTM kann starre, heuristische Pattern-Labels teilweise generalisieren. - **Meta-Relevanz:** Stark als Mustererkennungsbeleg, schwächer als direkter Profitabilitätsbeleg. Pattern-Erkennung ist nicht automatisch eine rentable Trading-Strategie. #### Paper: Integrating Traditional Technical Analysis with AI: A Multi-Agent LLM-Based Approach to Stock Market Forecasting - **arXiv:** `2506.16813` - **URL:** https://arxiv.org/abs/2506.16813 - **Feld:** Multi-Agent-Systeme, LLM, RAG, DRL, Elliott-Wellen, technische Analyse - **Kernbeitrag:** Kombiniert klassische technische Analyse mit LLM-/Agenten-Workflows. - **Meta-Relevanz:** Interessant als Architektur-/Agentenansatz, aber aus der Abstract-Extraktion kamen keine harten numerischen Metriken. Eher als Forschungslead und Systemdesign-Idee behandeln. #### Praktische Einordnung KI-Chartanalyse sollte nicht als „Muster gefunden = Trade“ interpretiert werden. Sinnvoller ist die Einordnung als: - Regime-Klassifikation - Signal-Feature in einem größeren Modell - visuelle/zeitreihenbasierte Pattern-Erkennung - Alerting- oder Screening-Komponente Für echten Trading-Einsatz müssen Pattern-Signale gegen einfache technische Indikatoren, Random-/Naive-Baselines und Kostenmodelle getestet werden. --- ### 3.3 KI/ML für MEV, Front-running und Bot-Erkennung #### Paper: Unraveling the MEV Enigma: ABI-Free Detection Model using Graph Neural Networks - **arXiv:** `2305.05952` - **URL:** https://arxiv.org/abs/2305.05952 - **PDF:** https://arxiv.org/pdf/2305.05952 - **Feld:** MEV Detection, Graph Neural Networks, Ethereum, ABI-free Detection - **Kernbeitrag:** ArbiNet, ein GNN-basierter MEV-Detektor, der ohne ABI-/Contract-Code-Wissen arbeiten soll. - **Problem, das gelöst wird:** Klassische MEV-Erkennung ist oft ABI-abhängig, wartungsintensiv und hat niedrigen Recall. - **Meta-Relevanz:** Sehr stark für defensive On-chain-Analytics, Marktintegrität und MEV-Quantifizierung. #### Paper: Detecting Financial Bots on the Ethereum Blockchain - **arXiv:** `2403.19530` - **URL:** https://arxiv.org/abs/2403.19530 - **Feld:** Ethereum Bots, ML-Klassifikation, Taxonomie - **Kernbeitrag:** Taxonomie von Finanzbots mit **7 Kategorien / 24 Subkategorien** und gelabeltes Dataset mit **133 Human-** und **137 Bot-Adressen**. - **Reported Results:** - Gaussian Mixture Model: **82.6%** Cluster-Purity - Random Forest: **83%** Accuracy - **Meta-Relevanz:** Gute Basis für Bot-/MEV-Monitoring und Feature Engineering. #### Paper: FRAD — Front-Running Attacks Detection on Ethereum using Ternary Classification Model - **arXiv:** `2311.14514` - **URL:** https://arxiv.org/abs/2311.14514 - **Feld:** Front-running Detection, Ethereum, Klassifikation - **Kernbeitrag:** Ternäre Klassifikation von Front-running-Angriffen: - Displacement - Insertion - Suppression - **Reported Results:** - MLP Accuracy: **84.59%** - F1: **84.60%** - **Meta-Relevanz:** Nützlich, weil es Front-running nicht als monolithisches Problem behandelt, sondern Subtypen trennt. #### Paper: GasTrace — Detecting Sandwich Attack Malicious Accounts in Ethereum - **arXiv:** `2405.19971` - **URL:** https://arxiv.org/abs/2405.19971 - **Feld:** Sandwich Attacks, Gas Features, SVM, GAT - **Kernbeitrag:** Cascade-Framework aus SVM/RBF-Vorstufe und Graph Attention Network. - **Reported Results:** - Accuracy: **96.73%** - F1: **95.71%** - **Meta-Relevanz:** Starker Lead für account-level Sandwich-Erkennung. Die sehr hohen Werte sollten später auf Datenleckage, Labeling und Generalisierung geprüft werden. --- ## 4. Vergleichende Bewertung ### 4.1 Evidenzstärke nach Anwendungsfeld - **MEV/Bot-Erkennung:** hoch für defensive Klassifikation Gründe: klarere Labels, beobachtbare On-chain-Features, Klassifikationsmetriken, graphbasierte Strukturen. - **Chart Pattern Recognition:** mittel Gründe: gute Mustererkennungsmetriken möglich, aber Labelqualität und Profitabilitätsbezug sind kritisch. - **KI/DRL-Trading:** mittel bis spekulativ Gründe: relevante positive Backtests, aber extrem anfällig für Overfitting, Kosten, Slippage, Regimewechsel und Daten-Snooping. ### 4.2 Wichtigste methodische Risiken 1. **Backtest-Overfitting** Besonders kritisch bei DRL-Trading. Viele Strategien finden historische Zufallsmuster. 2. **Transaction Costs / Slippage / Fees** Gerade High-Frequency-, Daytrading- und Crypto-Strategien können durch Kosten vollständig kippen. 3. **Regimewechsel** Modelle, die in einem Crash, Bull-Market oder Sideways-Market funktionieren, können in anderem Regime versagen. 4. **Labelqualität** Chart-Pattern-Modelle und MEV-Detektoren sind nur so gut wie ihre Label-Definitionen. 5. **Datenleckage** Besonders bei Finanzzeitreihen gefährlich: zufällige Splits, überlappende Fenster und nachträglich optimierte Hyperparameter können Ergebnisse verfälschen. 6. **Deployability** Gute Offline-Metriken bedeuten nicht automatisch Live-Nutzbarkeit. Latenz, Börsen-API, Liquidität, Order-Ausführung und Ausfallrisiken fehlen oft in Papers. --- ## 5. Ableitungen für ein praktisches Forschungs-/Agentensystem Ein belastbares KI-Trading-Research-System sollte nicht direkt mit „Trade-Ausführung“ beginnen, sondern gestuft aufgebaut werden: ### Stufe 1: Research & Evidence Layer - Paper-Suche über SearXNG/arXiv/Semantic Scholar - PDF-Extraktion über Firecrawl - strukturierte Paper-Karten mit: - Ziel - Daten - Modelle - Metriken - Kostenannahmen - Out-of-Sample-Setup - Schwächen ### Stufe 2: Data & Feature Layer - OHLCV - Orderbuchdaten - Funding/Open Interest - News/Social/Sentiment - On-chain Flows - Ethereum/DEX/MEV-Features für defensive Detektion ### Stufe 3: Model Layer - Baselines zuerst: - Buy-and-hold - Equal-weight - einfache technische Indikatoren - einfache ML-Modelle - Dann komplexere Modelle: - LSTM/Transformer für Zeitreihen - RL/DRL nur mit strenger Walk-forward-Validierung - CNN/Vision Transformer für Chart-Regime - GNN/GAT für On-chain-/MEV-Graphen ### Stufe 4: Evaluation Layer Pflichtmetriken: - Out-of-sample Return - Max Drawdown - Sharpe/Sortino - Turnover - Kosten/Slippage-Sensitivität - Walk-forward Performance - Regime-spezifische Performance - Probability of Backtest Overfitting / ähnliche Robustheitsmetriken ### Stufe 5: Safety Layer - Kein Bau oder Deployment von Front-running-/Sandwich-Bots - MEV-Komponente nur defensiv: - Detection - Monitoring - Risk Scoring - Marktintegritätsanalyse --- ## 6. Backend-/Tooling-Meta-Analyse Der Test war nicht nur fachlich, sondern auch ein Hermes-Web-Backend-Test. ### Was funktioniert hat - **SearXNG Search:** gute Treffer für alle drei Themenbereiche. - **Firecrawl PDF Extract:** arXiv-PDFs wurden erfolgreich verarbeitet. - **Firecrawl Crawl:** arXiv-Abstract-Seite wurde gecrawlt und lieferte mehrere Ergebnisse. - **Hermes-Konfiguration:** nach Restart weiterhin korrekt. ### Beobachtete Qualität - Search-Snippets waren ausreichend für Discovery. - Firecrawl lieferte bei PDFs verwendbare Zusammenfassungen/Markdown-Inhalte. - Einige Extraktionen sind zusammenfassend/trunkiert; für exakte Zitate oder vollständige Tabellen sollte bei Bedarf zusätzlich das Original-PDF gezielt lokal verarbeitet werden. ### Empfohlene nächste Tooling-Verbesserungen 1. Research-Dokumente automatisch versionieren, z. B. `research/YYYY-MM-DD-topic.md`. 2. Für jede Paper-Extraktion zusätzlich Metadaten erfassen: - arXiv-ID - Version - DOI - Kategorien - PDF-URL - Extraktionszeitpunkt 3. Wenn Semantic Scholar nicht rate-limitiert ist, Citation Counts ergänzen. 4. Für wichtige Papers Volltext-PDF lokal speichern und reproduzierbar parsen. --- ## 7. Priorisierte nächste Vertiefungen ### Priorität 1: Backtest-Robustheit Vertiefe `arXiv:2209.05559`, weil es direkt die größte Schwachstelle von KI-Trading adressiert. Fragestellungen: - Wie wird Probability of Backtest Overfitting konkret berechnet? - Wie gut ist die Hypothesentest-Methode reproduzierbar? - Kann man sie in eine eigene Trading-Research-Pipeline integrieren? ### Priorität 2: RL Pair Trading reproduzieren Vertiefe `arXiv:2407.16103`. Fragestellungen: - Welche RL-Algorithmen performen unter welchen Gebührenannahmen? - Wie stabil sind Ergebnisse bei anderen Paaren und Zeiträumen? - Wie empfindlich ist Dynamic Scaling gegen Slippage? ### Priorität 3: Defensive MEV-Erkennung Vertiefe: - `arXiv:2305.05952` ArbiNet - `arXiv:2311.14514` FRAD - `arXiv:2405.19971` GasTrace - `arXiv:2403.19530` Financial Bots Fragestellungen: - Welche Features sind ohne Archive Node praktikabel? - Wie lassen sich GNN-/GAT-Ansätze mit öffentlichen Daten reproduzieren? - Welche Labels/Datasets sind offen verfügbar? --- ## 8. Gesamtschlussfolgerung Die Recherche bestätigt: KI und Trading sind ein relevantes und ergiebiges Feld, aber nicht homogen. - **Für echte Trading-Strategien** ist das größte Forschungsproblem Robustheit, nicht Modellkomplexität. - **Für Chartanalyse** ist KI nützlich als Pattern-/Regime-Erkennung, aber Profitabilität muss separat bewiesen werden. - **Für MEV/Bot-Erkennung** ist ML/GNN besonders stark, solange die Anwendung defensiv bleibt. Die aktuelle Hermes-Konfiguration mit **SearXNG für Search** und **Firecrawl für Extract/Crawl** ist für diese Art Recherche geeignet und hat im Test funktioniert.