Mid-Cap Fintech

SRE-Plattform für ein Echtzeit-Trading-System

SLO-Framework, Observability-Stack und Chaos-Engineering-Praxis aufgebaut — Mean Time to Recovery von 47 auf 6 Minuten gesenkt.

Auf einen Blick

Kunde: Mid-Cap Fintech
Branche: Finanzdienstleistungen
Leistung: Engineering
Projektdauer: 6 Monate + laufender Betrieb
Team: 2 SRE, 1 Engineer

Ausgangslage & Ziel

Ein mittelständisches Fintech betreibt ein Echtzeit-Trading-System, bei dem jede Minute Ausfall unmittelbar Geld kostet. Incidents wurden reaktiv und ad hoc behandelt — ohne klare Messgrößen und ohne belastbare Alarmierung.

Herausforderungen

Mean Time to Recovery von 47 Minuten bei kritischen Incidents
Kein gemeinsames Verständnis von Verfügbarkeit: SLOs fehlten
Alert-Fatigue durch Hunderte unpriorisierte Alarme
Hohe Lastspitzen zur Markteröffnung

Umsetzung

Wir haben ein SLO-Framework etabliert, das Verfügbarkeit messbar macht, und einen Observability-Stack aufgebaut, der Ursachen statt Symptome zeigt. Runbooks, On-Call-Prozesse und regelmäßige Chaos-Engineering-Übungen machen das Team handlungsfähig — bevor der Ernstfall eintritt.

Tech-Stack

Infrastruktur

Kubernetes
Terraform

DevOps & Observability

Prometheus
Grafana
Loki
PagerDuty

Sprachen & Frameworks

Go
TypeScript

Ergebnisse

Mean Time to Recovery von 47 auf 6 Minuten reduziert

99,98 % Verfügbarkeit im ersten Betriebsjahr

Alert-Volumen um 80 % gesenkt

Ähnliches Projekt geplant? Sprechen wir darüber.

Kontakt aufnehmen