1.000+ Microservices auf einer standardisierten AWS/EKS-Plattform — Grundlage für Anwendungen von zweistelligen Millionen Endkunden.
Wo das Projekt
angefangen hat.
Ein europäischer Telekommunikationskonzern mit zweistelliger Millionen-Kundenbasis betrieb seine kundenwirksamen Anwendungen auf einer gewachsenen AWS-Landschaft ohne einheitliche Plattform-Governance. Jedes Team baute EKS-Cluster, Monitoring und Deployment-Logik selbst — mit allen Inkonsistenzen, Kostenüberraschungen und Security-Lücken, die das mit sich bringt. Ziel war eine konzernweite Plattform, die Teams 'ready-to-deploy' EKS-Pakete liefert, alle Workloads sauber observiert und eine einheitliche DevSecOps-Governance durchsetzt — ohne Entwicklerfreiheit abzuwürgen.
Was wir
getan haben.
- 01
Teil des Center of Excellence
Als Teil des konzernweiten Cloud & CI/CD Center of Excellence mitverantwortet für Architektur, Automatisierung und skalierbares Betriebsdesign der Plattform — über mehrere Geschäftsbereiche hinweg.
- 02
Standardisierte EKS-Packages
Mitentwicklung einer internen Kubernetes-Management-Lösung, die 'ready-to-deploy' EKS-Packages über mehrere AWS-Accounts verteilt — mit Fokus auf Wiederverwendbarkeit und Governance.
- 03
Karpenter statt Cluster-Autoscaler
Umstellung auf Karpenter-basiertes Node-Autoscaling mit aggressiver Spot-Instance-Strategie. Deutliche Reduktion von Compute-Kosten ohne Verfügbarkeitseinbußen.
- 04
OpenTelemetry-Migration
Aufbau eines unternehmensweiten OpenTelemetry-Stacks für EKS- und Non-EKS-Workloads. Vollständige Ablösung der bestehenden Datadog-Monitoringlösung — mit messbarer Kostenreduktion.
- 05
Couchbase Data Layer
Betrieb des Couchbase Operators für den gesamten Cluster-Lifecycle inkl. XDCR-Replikation, High Availability und Observability. Integration mit Entra ID für SAML-basiertes SSO und rollenbasierten Zugriff.
- 06
GitOps über alle Teams
ArgoCD als zentrales Steuerungstool für Applikationsbereitstellung — teamübergreifend standardisiert. Ein einheitliches Deployment-Modell für 1.000+ Services.
- AWS EKS mit Karpenter für Node-Autoscaling (hoher Spot-Anteil), mehrere produktive Accounts mit strukturiertem Staging-Setup
- Terraform + Terragrunt für die gesamte Plattform-Infrastruktur, Integration mit GitHub Actions und Azure DevOps
- Istio als Service Mesh für mTLS, Traffic-Splitting und Canary Releases; Cilium als CNI
- ArgoCD für Application Delivery, Helm-Charts aus JFrog Artifactory; Container Images in Amazon ECR
- OpenTelemetry-Collector-Stack mit Prometheus/Grafana als Backend (Ablösung Datadog)
- Couchbase auf Kubernetes via offiziellen Operator, XDCR-Replikation, Entra-ID-SSO mit RBAC
- Eigene Kubernetes-Management-Lösung zur konzernweiten Verteilung von 'ready-to-deploy' EKS-Packages
Was dabei
herausgekommen ist.
Nach 3 Jahren Plattform-Engagement betrieben alle Business-Bereiche ihre kundenwirksamen Workloads auf der gleichen AWS/EKS-Grundlage. Die Umstellung auf Karpenter reduzierte Compute-Kosten signifikant durch intelligenten Spot-Use. Die OpenTelemetry-Migration ersetzte Datadog vollständig. Teams deployten eigenständig — aber innerhalb der Plattform-Guardrails. DevSecOps-Kontrollen wanderten aus Audit-Checklisten in Code (Terraform-Module, OPA-Policies, Signed Images).
Die Plattform macht Entwicklern nicht das Leben schwer — sie nimmt ihnen die Arbeit ab, die sie nie machen wollten. Deployments, Observability, Security. Alles da, alles konsistent.
Ähnliche Herausforderung bei Ihnen?
30 Minuten Erstgespräch — unverbindlich, kostenfrei, schriftliche Nachfassung.