Back to Blog

Cluster 24/7, costos -60%: qué hicimos diferente

La pregunta correcta en el momento correcto

Este no es un blog sobre Kubernetes. Es sobre hacerse la pregunta correcta en el momento correcto.

Nico, Cloud Engineer en Renaiss, se preguntó: "¿Por qué este cluster sigue corriendo 24/7?" Y esa simple pregunta terminó ahorrándole a Autoptic aproximadamente un 60% en costos operativos de su cluster de Kubernetes en AWS. Pero como en toda buena historia de infraestructura, el camino entre la pregunta y la solución tuvo sus vueltas. Acá te contamos qué pasó, qué se rompió (o casi se rompe), y qué aprendió Nico en el proceso.

El problema: cuando "siempre estuvo así" deja de tener sentido

Autoptic tenía un cluster de Kubernetes corriendo 24/7 en AWS (EKS). Al principio, tenía todo el sentido del mundo. "Estaba bueno para tener idea de cómo funcionaba el sistema del cliente constantemente", cuenta Nico. Cuando estás empezando con un cliente nuevo, querés ver todo: cómo se comporta el sistema en distintos momentos del día, qué patrones de uso tiene, dónde aparecen los cuellos de botella.

Pero el tiempo pasó. El cluster creció. Lo que había empezado como un ambiente de pruebas con pocos servicios ahora corría una gran variedad de recursos. Y seguía prendido 24 horas al día, 7 días a la semana. "Con el rápido crecimiento se notaba que en algún momento iba a haber que hacer algo con respecto a los gastos", explica Nico.

El problema era evidente: ya no había información relevante que justificara mantener todo corriendo constantemente.

El impacto: cuando el problema es interno pero igual duele

A diferencia de muchos incidentes de infraestructura, este no afectaba directamente a los usuarios finales. Todo funcionaba perfectamente desde su perspectiva. El impacto era interno: costos operativos que crecían sin necesidad. Recursos de AWS que se consumían fuera de horarios laborales, cuando nadie realmente los necesitaba.

"Es interno, con respecto a usuarios nada", aclara Nico. "Pero en servicios y negocio aportó ahorros significativos." Además, estaba la oportunidad de mejorar la arquitectura. La solución anterior era simple: un nodo grande corriendo todo el tiempo. Pasar a varios nodos administrados por Karpenter iba a dar "un pantallazo de cómo es una solución más 'real'", más preparada para escalar y adaptarse a demanda real.

La solución: Karpenter

La idea era clara: implementar una manera inteligente de eliminar recursos fuera de horarios laborales. Nico implementó Karpenter dentro del cluster con jobs que escalan y desescalan recursos según horarios. Básicamente, pasar de "un nodo grande siempre activo" a "varios nodos que Karpenter administra según demanda real".

"Implementamos Karpenter dentro del cluster con jobs que corren tanto para escalar como para desescalar recursos fuera de horarios laborales", explica. Karpenter es un auto-scaler de código abierto diseñado específicamente para Kubernetes en AWS. A diferencia de otras soluciones, Karpenter puede tomar decisiones más granulares sobre qué tipo de instancias usar y cuándo, optimizando costos y performance al mismo tiempo.

El resultado fue contundente: aproximadamente 60% de reducción en los costos de operación del cluster de Autoptic. Pero como todo en infraestructura, la solución trajo sus propios desafíos y aprendizajes.

Lo que se rompió (o casi)

"¿Se rompió algo después?", le preguntamos a Nico. "Por suerte no", responde. "Pero hay un problema bastante común con Karpenter que es importante conocer." El problema es casi filosófico en su ironía: Karpenter corre un controlador que maneja los nodos de tu cluster. Y ese controlador también corre dentro de tu cluster.

"En el caso de que Karpenter elimine el nodo donde está el controlador por alguna razón, es como que Karpenter se auto-elimina y tu cluster va a quedar como está", explica Nico. Es el equivalente en infraestructura de cortarte la rama del árbol sobre la que estás sentado. El sistema que decide qué nodos eliminar puede, en teoría, eliminarse a sí mismo. ¿Le pasó a Nico? No. Pero saber que puede pasar cambia cómo diseñás e implementás la solución. Como dice Werner Vogels, CTO de AWS: "En el mundo del desarrollo, todo se rompe todo el tiempo." La diferencia está en estar preparado.

El aprendizaje: implementar de a partes, siempre

Si hay algo que Nico se llevó de este proyecto, es una filosofía de implementación que ahora aplica en todo. "Aprendí a implementar cosas de a partes que vayan funcionando, en vez de armar todo de una", cuenta. "Una vez que tenés partes andando, es más fácil ver qué se rompe cuando vas agregando algo nuevo." Además: probar en escala más chica antes de implementar. No arrancar con todo el cluster en producción. Empezar con un ambiente controlado, verificar que funcione, y después escalar.

La decisión constante: ¿que funcione o que quede perfecto?

Le preguntamos a Nico si en algún momento tuvo que decidir entre "que quede perfecto" vs "que funcione". "Sí", responde sin dudar. "Como se iban implementando de a partes, fue más que nada hacer cosas que funcionen hasta que quede bien." Esa tensión entre velocidad y perfección es constante en infraestructura. Y la respuesta de Nico es pragmática: primero que funcione, después que quede perfecto. Pero siempre con la mirada puesta en mejorar. Porque en infraestructura cloud, las cosas se rompen. La diferencia está en estar preparado, implementar de a partes, y aprender en el camino.

¿Querés optimizar tu infraestructura cloud?

En Renaiss ayudamos a empresas a resolver problemas reales de negocio a través de tecnología. Desde optimización de costos hasta arquitectura cloud escalable.

Si tenés un cluster corriendo 24/7 y te preguntás si realmente tiene sentido, hablemos. Podemos hacer una evaluación de tu infraestructura actual y encontrar oportunidades de optimización.

November 25, 2020

Latest Articles

Mauro Abbatemarco

Why Argentina Beats the Typical Nearshore Bet

Engineering
April 30, 2026
Joaquin Colombo

Migrar a cloud en una fintech argentina no es lo mismo que migrar a cloud

Engineering
April 24, 2026
Maximiliano Aguirre

Sistemas legacy en banca: cuándo migrar, cuándo encapsular y cuándo no tocar nada

Engineering
April 24, 2026
Nicola Petetta

Cluster 24/7, costos -60%: qué hicimos diferente

Engineering
April 24, 2026

Modern Data Architecture for Real Estate Analytics: How We Built a Scalable Platform

April 24, 2026
Rodrigo Azziani

DevPod vs GitHub Codespaces: A Technical Comparison for Engineering Teams

Engineering
April 24, 2026

Demystifying cloud infrastructure: a simple guide for business leaders.

April 24, 2026

The Benefits of Custom Software Development

April 10, 2025
Maximiliano Aguirre

Transform Your Business with Renaiss' Consulting Services

Engineering
April 10, 2025
Mauro Abbatemarco

Introduction to DevOps: Bridging the Gap Between Development and Operations

Engineering
April 24, 2026
Maximiliano Aguirre

Building scalable software architectures

Engineering
April 10, 2025
Mauro Abbatemarco

Why We Implement CI/CD on Every Project: Lessons from the Field

April 24, 2026
Rodrigo Azziani

Best Practices in Agile Software Development

Engineering
April 10, 2025
Mauro Abbatemarco

The Role of Advisory Services in Strategic IT Planning

Engineering
April 24, 2026
Joaquin Colombo

Cloud Cost Efficiency: What We've Learned Managing Infrastructure at Scale

April 24, 2026
Rodrigo Azziani

AWS Managed Services: What Actually Reduces Costs and What Doesn't

April 24, 2026
Joaquin Colombo

Comprehensive guide to cloud migration services

April 24, 2026
Joaquin Colombo

Cybersecurity in the Cloud: Best practices for protection

Engineering
April 24, 2026
Rodrigo Azziani

The Benefits of Nearshoring with Renaiss

Engineering
April 28, 2026
Mauro Abbatemarco

Demystifying cloud infrastructure: a simple guide for business leaders.

Engineering
April 10, 2025
Rolando Cabrera

What is AWS Certification?

Engineering
April 24, 2026
Mauro Abbatemarco

Essential certifications for a cloud engineer

Engineering
April 24, 2026
Rodrigo Azziani

Global Talent Search: The Growing Integration of Argentine Professionals in 2023

Engineering
April 10, 2025
Mauro Abbatemarco

Argentine Engineers in Global Teams: What the Market Looks Like in 2026

Web Development
April 24, 2026
Rolando Cabrera

Navigating the Shift: The Surge of IT Professionals Changing Jobs in Argentina in 2023

Engineering
April 10, 2025
Mauro Abbatemarco

LATAM Tech Talent Surge in US Companies

Tech
April 24, 2026
Joaquin Colombo

Key Tech Certifications in 2024: Advancing IT Careers

Engineering
April 24, 2026
Rolando Cabrera

In-Demand IT Roles in 2024: Opportunities and Challenges

Web Development
April 24, 2026
Renaiss © Code | Designed by us with love
Renaissance Software LLC