Conceptos

RTO y RPO explicados: cómo dimensionar tu Disaster Recovery

· 9 min de lectura

Dos siglas resumen toda una estrategia de continuidad, y casi todo el mundo las confunde o las usa mal. RTO y RPO son las dos preguntas que definen tu plan de recuperación ante desastres, y entenderlas bien es la diferencia entre un DR proporcionado y uno que cuesta el triple de lo necesario, o que no te salva cuando hace falta.

Vamos a explicarlas sin abstracciones y, sobre todo, a enseñarte a calcular las tuyas. Porque pedir “RTO y RPO a cero” para todo, que es la reacción instintiva, es una de las decisiones más caras y peor pensadas que se ven en infraestructura.

Las dos preguntas, en una frase cada una

  • RPO (Recovery Point Objective): ¿cuántos datos puedo permitirme perder? Se mide en tiempo hacia atrás desde el desastre. Un RPO de 1 hora significa que, en el peor caso, pierdo como mucho la última hora de cambios.
  • RTO (Recovery Time Objective): ¿cuánto puedo estar caído? Se mide en tiempo hacia delante desde el desastre. Un RTO de 4 horas significa que el servicio debe estar operativo de nuevo en 4 horas como máximo.

Una imagen que lo fija: imagina una línea de tiempo con el desastre en el centro. El RPO mira a la izquierda (cuántos datos perdidos antes del incidente). El RTO mira a la derecha (cuánto tiempo hasta recuperar después). No son lo mismo y se diseñan con tecnologías distintas.

Por qué confundirlos sale caro

Un RPO bajo se consigue con replicación frecuente de datos: copias cada minuto, o replicación síncrona para RPO cero. Eso cuesta en almacenamiento, red y, sobre todo, en ancho de banda entre sitios.

Un RTO bajo se consigue con infraestructura lista para arrancar: nodos en espera, orquestación de failover, recursos reservados en el sitio secundario. Eso cuesta en hardware que está ahí “por si acaso”.

Son dos facturas distintas. Puedes querer RPO casi cero pero tolerar un RTO de unas horas (no pierdo datos, pero tardo en levantar todo), o al revés. Tratarlos como una sola cosa, o pedir ambos a cero indiscriminadamente, multiplica el coste sin necesidad.

La regla de oro: dimensiona por carga, no por empresa

El error más común es definir un único RTO/RPO para toda la organización. No todas las cargas valen lo mismo. El ERP que factura no es el servidor de pruebas. Clasifica:

CargaRTO razonableRPO razonableMecanismo
ERP / facturación críticaMinutosCasi 0Replicación síncrona + failover automático
Aplicaciones de negocio1-4 horas15-60 minReplicación asíncrona + DR orquestado
Servicios internos4-24 horasVarias horasBackup + restauración planificada
Entornos de pruebaDíasÚltimo backupBackup estándar

Asignar a cada carga el nivel que de verdad necesita es lo que hace que un DR sea sostenible. Pagar replicación síncrona para el servidor de pruebas es tirar dinero; tolerar 24 horas de caída en el ERP puede cerrar la empresa.

Cómo calcular el tuyo: pregúntale al negocio

RTO y RPO no son decisiones técnicas, son decisiones de negocio que luego se implementan con tecnología. Las preguntas que hay que hacer, carga por carga:

  1. Si esta carga cae, ¿qué deja de funcionar? (Facturación, atención al cliente, producción…)
  2. ¿Cuánto cuesta cada hora de caída? En euros, en clientes, en reputación.
  3. ¿Cuántos datos podemos rehacer manualmente? Si pierdo la última hora de pedidos, ¿puedo reconstruirlos? ¿A qué coste?
  4. ¿Hay obligaciones legales o contractuales? SLAs con clientes, requisitos de NIS2 sobre continuidad.

Cuando cruzas el coste de la caída con el coste de la protección, el RTO/RPO correcto aparece casi solo. Es un ejercicio de proporcionalidad, no de aspiración.

Las palancas técnicas, de menos a más

  • Backup y restauración. El más barato. RPO = frecuencia del backup; RTO = tiempo de restaurar. Suficiente para cargas no críticas. Refuérzalo con copias inmutables 3-2-1.
  • Replicación asíncrona. Copias periódicas al sitio secundario (cada X minutos). RPO de minutos, RTO de minutos a horas según orquestación.
  • Replicación síncrona. Cada escritura se confirma en dos sitios a la vez. RPO = 0. Requiere baja latencia entre datacenters y más ancho de banda. Es la base del almacenamiento síncrono y la alta disponibilidad.
  • DR orquestado (DRaaS). Failover automatizado y probado, con runbooks. Es lo que baja el RTO de verdad, porque levantar a mano siempre tarda más de lo previsto.

El detalle que casi todos olvidan: probarlo

Un RTO sobre el papel no vale nada hasta que lo cronometras en un simulacro real. El día del desastre siempre aparecen sorpresas: dependencias no documentadas, un orden de arranque equivocado, una credencial caducada. Un plan de DR que nunca se ha ensayado es un RTO teórico, no real. Ensaya, mide el tiempo de verdad y ajusta.

Para dimensionarlo bien

RTO y RPO no son jerga: son las dos preguntas que definen cuánto puedes perder y cuánto puedes esperar. Defínelos por carga, calcúlalos cruzando coste de caída con coste de protección, y luego, esto es lo importante, pruébalos. Pedir todo a cero es caro e innecesario; no medirlo es jugársela.

Si quieres dimensionar tu DR con cabeza (el nivel justo para cada carga, ni de más ni de menos) y operarlo y probarlo periódicamente, eso es exactamente lo que hacemos en Disaster Recovery. Partimos de tus cargas reales, no de un catálogo.