Las soluciones HPC en la nube, si bien no son tan eficaces debido a las limitaciones de la nube, proporcionan un entorno flexible y rentable.
Clúster de HPC en AWS
AWS, Terraform, Slurm
La explosión de IA y ML cambió la economía de la infraestructura de investigación de un día para el otro. Una empresa FAANG necesitaba escalar capacidad de GPU rápidamente — más investigadores, más cómputo, más experimentos corriendo en paralelo — pero los clusters HPC on-premises no podían seguir el ritmo.
La infraestructura on-premises tiene ventajas reales: personalización, rendimiento, seguridad y control. Pero también tiene desventajas serias: inversión inicial masiva, ciclos de ROI largos, años de construcción, y hardware que queda obsoleto antes de amortizarse. Cuando la demanda de investigación en IA se acelera, esperar años para expandir capacidad no es una opción.
El HPC en cloud ofrecía un trade-off distinto: más flexibilidad, provisioning más rápido y eficiencia de costos para capacidad de overflow y testing de hardware de última generación. El desafío era que las ofertas de HPC en cloud tienen funcionalidades nativas limitadas y son notoriamente difíciles de adoptar a escala enterprise. La integración con servicios internos era un requisito inamovible.
Renaiss diseñó e implementó un cluster HPC Slurm listo para producción en AWS usando AWS ParallelCluster como base, con customizaciones profundas para cumplir los requisitos enterprise.
La arquitectura fue mucho más allá de un deployment estándar de ParallelCluster. Las capacidades construidas sobre la capa base incluyeron acceso seguro para usuarios internos, gestión de usuarios Unix, autenticación de dos factores, pipelines de datos en S3, soporte para múltiples configuraciones de FSx for Lustre, particiones y límites de Slurm, contabilidad de Slurm, observabilidad de hardware, frameworks de testing de hardware, login nodes y soporte multi-tenant en distintas cuentas de AWS. También se implementaron directorios $HOME persistentes, políticas de eviction de Lustre y herramientas de capacity planning para soportar flujos de trabajo de investigación a escala.
Se construyeron salvaguardas personalizadas para servicios de AWS para prevenir costos descontrolados y aplicar gobernanza. Con el tiempo, se agregó un cluster de Azure usando Cycle Cloud, expandiendo la solución a un entorno multi-cloud real.
Stack completo: Terraform, Packer, AWS (EC2, EFA, FSx, EFS, S3, SES, SNS, SQS, Step Functions, Cognito, DynamoDB, CloudWatch), PyTorch, NCCL, DUO.
La plataforma escaló para soportar más de 500 investigadores en más de 20 clusters, distribuidos en más de 5 cuentas y tenants. En su punto máximo, la infraestructura gestionaba más de 6.000 GPUs activas y múltiples petabytes de datos en S3 y FSx.
El engagement tuvo impacto más allá del cliente: AWS ParallelCluster incorporó varias ideas desarrolladas durante este proyecto en su roadmap, un reconocimiento de la profundidad técnica y la novedad del trabajo que Renaiss aportó.
El resultado fue una infraestructura de investigación que podía escalar con la demanda de IA — provisionando nuevos clusters en horas en lugar de años, soportando cientos de investigadores simultáneamente e integrándose de forma transparente con los sistemas internos de la empresa.
