Telekommunikations-Konzern · Telekommunikation · DACH · zweistellige Mio. Endkunden · 2022–2025

    1.000+ Microservices auf einer standardisierten AWS/EKS-Plattform — Grundlage für Anwendungen von zweistelligen Millionen Endkunden.

    1.000+
    Microservices in Produktion
    10Mio+
    Endkunden auf der Plattform
    100%
    Datadog-Ablösung via OpenTelemetry
    Kontext

    Wo das Projekt
    angefangen hat.

    Ein europäischer Telekommunikationskonzern mit zweistelliger Millionen-Kundenbasis betrieb seine kundenwirksamen Anwendungen auf einer gewachsenen AWS-Landschaft ohne einheitliche Plattform-Governance. Jedes Team baute EKS-Cluster, Monitoring und Deployment-Logik selbst — mit allen Inkonsistenzen, Kostenüberraschungen und Security-Lücken, die das mit sich bringt. Ziel war eine konzernweite Plattform, die Teams 'ready-to-deploy' EKS-Pakete liefert, alle Workloads sauber observiert und eine einheitliche DevSecOps-Governance durchsetzt — ohne Entwicklerfreiheit abzuwürgen.

    Vorgehen

    Was wir
    getan haben.

    1. 01

      Teil des Center of Excellence

      Als Teil des konzernweiten Cloud & CI/CD Center of Excellence mitverantwortet für Architektur, Automatisierung und skalierbares Betriebsdesign der Plattform — über mehrere Geschäftsbereiche hinweg.

    2. 02

      Standardisierte EKS-Packages

      Mitentwicklung einer internen Kubernetes-Management-Lösung, die 'ready-to-deploy' EKS-Packages über mehrere AWS-Accounts verteilt — mit Fokus auf Wiederverwendbarkeit und Governance.

    3. 03

      Karpenter statt Cluster-Autoscaler

      Umstellung auf Karpenter-basiertes Node-Autoscaling mit aggressiver Spot-Instance-Strategie. Deutliche Reduktion von Compute-Kosten ohne Verfügbarkeitseinbußen.

    4. 04

      OpenTelemetry-Migration

      Aufbau eines unternehmensweiten OpenTelemetry-Stacks für EKS- und Non-EKS-Workloads. Vollständige Ablösung der bestehenden Datadog-Monitoringlösung — mit messbarer Kostenreduktion.

    5. 05

      Couchbase Data Layer

      Betrieb des Couchbase Operators für den gesamten Cluster-Lifecycle inkl. XDCR-Replikation, High Availability und Observability. Integration mit Entra ID für SAML-basiertes SSO und rollenbasierten Zugriff.

    6. 06

      GitOps über alle Teams

      ArgoCD als zentrales Steuerungstool für Applikationsbereitstellung — teamübergreifend standardisiert. Ein einheitliches Deployment-Modell für 1.000+ Services.

    Tech-Detail
    • AWS EKS mit Karpenter für Node-Autoscaling (hoher Spot-Anteil), mehrere produktive Accounts mit strukturiertem Staging-Setup
    • Terraform + Terragrunt für die gesamte Plattform-Infrastruktur, Integration mit GitHub Actions und Azure DevOps
    • Istio als Service Mesh für mTLS, Traffic-Splitting und Canary Releases; Cilium als CNI
    • ArgoCD für Application Delivery, Helm-Charts aus JFrog Artifactory; Container Images in Amazon ECR
    • OpenTelemetry-Collector-Stack mit Prometheus/Grafana als Backend (Ablösung Datadog)
    • Couchbase auf Kubernetes via offiziellen Operator, XDCR-Replikation, Entra-ID-SSO mit RBAC
    • Eigene Kubernetes-Management-Lösung zur konzernweiten Verteilung von 'ready-to-deploy' EKS-Packages
    Ergebnis

    Was dabei
    herausgekommen ist.

    Nach 3 Jahren Plattform-Engagement betrieben alle Business-Bereiche ihre kundenwirksamen Workloads auf der gleichen AWS/EKS-Grundlage. Die Umstellung auf Karpenter reduzierte Compute-Kosten signifikant durch intelligenten Spot-Use. Die OpenTelemetry-Migration ersetzte Datadog vollständig. Teams deployten eigenständig — aber innerhalb der Plattform-Guardrails. DevSecOps-Kontrollen wanderten aus Audit-Checklisten in Code (Terraform-Module, OPA-Policies, Signed Images).

    Die Plattform macht Entwicklern nicht das Leben schwer — sie nimmt ihnen die Arbeit ab, die sie nie machen wollten. Deployments, Observability, Security. Alles da, alles konsistent.
    Platform Lead·Telekommunikations-Konzern

    Ähnliche Herausforderung bei Ihnen?

    30 Minuten Erstgespräch — unverbindlich, kostenfrei, schriftliche Nachfassung.