← Alle Projekte

Mid-Cap Fintech

SRE-Plattform für ein Echtzeit-Trading-System

SLO-Framework, Observability-Stack und Chaos-Engineering-Praxis aufgebaut — Mean Time to Recovery von 47 auf 6 Minuten gesenkt.

Auf einen Blick

Kunde
Mid-Cap Fintech
Branche
Finanzdienstleistungen
Leistung
Engineering
Projektdauer
6 Monate + laufender Betrieb
Team
2 SRE, 1 Engineer

Ausgangslage & Ziel

Ein mittelständisches Fintech betreibt ein Echtzeit-Trading-System, bei dem jede Minute Ausfall unmittelbar Geld kostet. Incidents wurden reaktiv und ad hoc behandelt — ohne klare Messgrößen und ohne belastbare Alarmierung.

Herausforderungen

  • Mean Time to Recovery von 47 Minuten bei kritischen Incidents
  • Kein gemeinsames Verständnis von Verfügbarkeit: SLOs fehlten
  • Alert-Fatigue durch Hunderte unpriorisierte Alarme
  • Hohe Lastspitzen zur Markteröffnung

Umsetzung

Wir haben ein SLO-Framework etabliert, das Verfügbarkeit messbar macht, und einen Observability-Stack aufgebaut, der Ursachen statt Symptome zeigt. Runbooks, On-Call-Prozesse und regelmäßige Chaos-Engineering-Übungen machen das Team handlungsfähig — bevor der Ernstfall eintritt.

Tech-Stack

Infrastruktur

  • Kubernetes
  • Terraform

DevOps & Observability

  • Prometheus
  • Grafana
  • Loki
  • PagerDuty

Sprachen & Frameworks

  • Go
  • TypeScript

Ergebnisse

01

Mean Time to Recovery von 47 auf 6 Minuten reduziert

02

99,98 % Verfügbarkeit im ersten Betriebsjahr

03

Alert-Volumen um 80 % gesenkt