¿Cuánto cuesta de verdad un cloud privado?
Desglose de CAPEX vs OPEX, licencias, soporte y el coste oculto del egress. La cifra del presupuesto rara vez es la cifra real: aquí está el cálculo completo.
Entrenar e inferir modelos de IA se ha convertido en una de las partidas que más rápido crece, y más descontrolada va, en muchos presupuestos de IT. La nube de los hiperescalares hace que empezar sea trivial: levantas una instancia con GPU en minutos y pagas por hora. El problema llega en la factura del mes tres, cuando descubres que una carga que corre sin parar en alquiler cuesta varias veces lo que costaría en hardware propio.
Este artículo compara, sin marketing, las dos vías para correr IA con GPU: bare-metal con GPU dedicada frente a GPU en hiperescalar. Spoiler honesto: no hay ganador absoluto. El punto de cruce depende de cuánto uses la GPU.
Toda la comparativa se reduce a un patrón de uso, igual que en el debate general de cloud privado vs público:
La GPU en la nube está pensada para escalar a cero entre usos. Si tu GPU no baja nunca de cierta utilización, estás pagando la prima de la elasticidad sin usar la elasticidad.
No voy a dar precios de catálogo porque cambian, pero sí la mecánica que casi nadie hace bien. Una GPU de gama alta para IA en hiperescalar se alquila por hora. Multiplica esa hora por uso sostenido:
| Patrón de uso | Horas/mes | Quién gana claramente |
|---|---|---|
| Experimentos sueltos | < 100 h | Hiperescalar |
| Proyecto intensivo temporal | 100-300 h | Depende (calcula) |
| Inferencia / entrenamiento continuo | > 500 h (casi 24/7) | Bare-metal dedicado |
La regla práctica: cuando una GPU pasa de funcionar más de la mitad del mes, el alquiler empieza a salir más caro que tener hardware dedicado amortizado a 2-3 años. A utilización casi continua, el bare-metal puede costar una fracción del alquiler equivalente.
La hora de GPU es solo el titular. Súmale:
Para ser justos, el dedicado tampoco es gratis:
Más allá del coste, hay una diferencia técnica a favor del bare-metal que importa en IA:
Para entrenamiento sostenido o inferencia de baja latencia, esa previsibilidad se traduce en throughput real, no solo en cifras de pico.
Hiperescalar si:
Bare-metal con GPU dedicada si:
Como en casi todo, lo más sensato no suele ser absoluto. Un patrón muy razonable: el cómputo base sostenido (inferencia en producción, entrenamiento recurrente) en servidores con GPU dedicada, y los picos puntuales o experimentos cortos en hiperescalar. Lo estable y caro de alquilar, en propio; lo elástico y esporádico, en la nube. Así no pagas la prima de elasticidad por lo que no es elástico.
Alquilar GPU en la nube es excelente para empezar y para picos; es ruinoso para cargas que no paran. El bare-metal dedicado gana en coste a partir de un uso sostenido y casi siempre en rendimiento predecible. La única forma de decidir bien es hacer el cálculo con tu utilización real (horas/mes, tamaño de datasets, egress) y no con la intuición ni el titular de la calculadora del proveedor.
Si nos cuentas tu carga de IA real, montamos el TCO completo a tres años de las dos vías, con egress y operación incluidos, y te decimos honestamente dónde encaja. Empieza por nuestros servidores con GPU.