FinOps Kubernetes

FinOps Kubernetes que los platform teams adoptan de verdad.

La mayoría de las herramientas de costos Kubernetes ignoran una nube, exigen un Helm chart que no querés mantener, o se quedan en totales por cluster. Lumicost unifica GKE y EKS en una sola vista de allocation, traemos telemetría de pods desde CloudWatch Container Insights y GCP Monitoring (sin DaemonSet), y trae un motor de tag intelligence que puntúa tu policy de tagging y señala el gasto sin asignar del que culpan al platform team.

GKE + EKS
Allocation unificada, una sola query
0 agentes
Sin DaemonSet, sin scrape de kube-state-metrics
Tag score
% de cobertura por tag requerido, por cluster

Los equipos de platform engineering son dueños del gasto Kubernetes les guste o no. Cuando la factura del cluster sube, los engineering managers culpan al platform team; cuando el 30% del costo por namespace aparece como 'untagged', finance culpa al platform team. Lumicost se construyó para ese rol: descubrimos clusters GKE vía GcpKubernetesAdapter y clusters EKS vía EksKubernetesAdapter con credenciales read-only, traemos la telemetría de workloads desde la superficie de métricas managed de cada nube (Container Insights en AWS, Cloud Monitoring en GCP), y corremos un motor de políticas TagIntelligence que publica un score de cobertura, una lista de issues, y sugerencias de remediación PR-ready. El resultado: un solo dashboard donde el platform team responde 'quién paga qué, por qué, y está el tagging suficientemente limpio para defenderlo'.

Cómo Lumicost entrega FinOps Kubernetes

GKE y EKS unificados, no dos productos separados

GcpKubernetesAdapter consulta la API de GKE Cluster + Cloud Monitoring; EksKubernetesAdapter consulta la API de EKS + CloudWatch Container Insights. Ambos alimentan el mismo port KubernetesProvider y producen filas KubernetesResourceResponse homogéneas — mismo modelo de allocation, mismo logic de rightsizing, mismas vistas de chargeback. Una query, ambas nubes. AKS está en el roadmap pero todavía no shippeado — te lo decimos en el Honesty Banner, no te sorprendemos a mitad de trimestre.

Rightsizing por pod sin agente in-cluster

Utilización p95 de CPU y memoria por pod vs requests sobre lookback de 14 días, expuesta vía métricas managed de cada cloud — sin DaemonSet, sin Prometheus exporter, sin scrape de kube-state-metrics, sin tokens que inyectar. El platform team evita ser dueño de otra dependencia cluster-side, e InfoSec revisa exactamente un IAM role / service account read-only por nube.

Chargeback por namespace y label, con rollups cross-cluster

El costo del cluster se aloca a namespaces y labels ponderando el precio on-demand o RI/Savings Plan/CUD del nodo por el uso observado de CPU y memoria de cada pod. Rollup en todos los clusters GKE + EKS de la org, filtro por team label, export CSV/JSON al sistema de finanzas. La misma allocation alimenta la vista de engineering ('cuánto cuesta mi namespace?') y la vista de finance ('cuánto debe este equipo?').

Tag intelligence — el 30% que le escondés a finance

Definí required tags (team, env, cost-center, owner) y allowed values por key. TagIntelligenceController publica un score por tenant, una lista de issues (tag faltante, valor no permitido, drift de normalización) y sugerencias PR-ready por issue. GET/PUT /api/v1/tag-intelligence/policy permite versionar la policy en código. El gasto untagged deja de ser un fire drill trimestral.

Read-only por construcción — pasa la review de InfoSec del platform team

GCP vía Workload Identity Federation (sin service-account keys), AWS vía IAM Role + external-id por tenant (sin access keys estáticas). Las IAM policies están publicadas textualmente — eks:ListClusters, eks:DescribeCluster, container.clusters.list/get en GCP, monitoring read en ambas. Sin APIs de mutación en el código SDK, sin cliente kubectl, sin Terraform apply. El RBAC cluster-admin estándar del platform team no se requiere ni se pide.

Preguntas frecuentes

Ya corremos Kubecost / OpenCost — ¿por qué sumar Lumicost arriba?+

Tres diferencias. (1) Multi-cloud unificado — Kubecost requiere un install separado por cluster y se queda en el boundary del cluster; Lumicost rollupea GKE + EKS en una sola vista de tenant. (2) Sin agente — sin Helm chart en cada cluster, sin Prometheus que mantener, sin tokens que rotar. (3) Tag intelligence — Kubecost puntúa costo; nosotros puntuamos la policy de tagging que determina si ese costo es alocable de entrada. Muchos platform teams corren ambos: OpenCost para la audiencia in-cluster operator, Lumicost para la audiencia cross-cluster finance + platform.

¿Qué tan precisa es la allocation cuando un nodo corre muchos namespaces?+

Ponderamos el precio horario efectivo del nodo (on-demand o RI/Savings Plan/CUD amortizado) por el uso observado de CPU y memoria p95 de cada pod sobre la ventana de lookback, después agregamos a namespace, label y team. La misma allocation alimenta el reporte de chargeback y la vista de engineering, así los números reconcilian por construcción. Exponemos la ventana de lookback y la base de ponderación en el Honesty Banner para que el platform team pueda defender la matemática frente a finance.

¿Soporta Fargate, Karpenter, GKE Autopilot?+

Fargate y Karpenter en EKS — sí. CloudWatch Container Insights publica métricas a nivel de pod para ambos, y etiquetamos la recomendación con el compute backend para que decidas si rightsize-ar requests, ajustar consolidación de Karpenter, o mover un workload fuera de Fargate. GKE Autopilot — soportado para allocation; las recomendaciones de rightsizing son limitadas porque Autopilot maneja los requests él mismo, y lo decimos explícitamente en lugar de mostrar ahorros fabricados.

¿Qué hace concretamente tag intelligence por un platform team?+

Convierte 'deberíamos tagear las cosas' en una policy versionada con enforcement medible. Declarás requiredTags (ej. team, env, cost-center) y allowedValues por key vía PUT /api/v1/tag-intelligence/policy. El motor entonces puntúa cobertura por tag requerido, lista issues (faltante, no permitido, drift) y emite sugerencias por issue que podés pegar en un PR de Terraform. Se acabó el bucket 'unallocated' del 30% que finance no puede reconciliar — el platform team es dueño del score y de la tendencia.

¿Listo para empezar a ahorrar?

Conecta credenciales solo lectura y obtén tus primeros insights en 24 horas.