05-Gestión de La Continuidad de Servicios TI
05-Gestión de La Continuidad de Servicios TI
05-Gestión de La Continuidad de Servicios TI
Continuiuau ue Seivicios TI
1
Gestin de la Continuidad de Servicios TI
Visin general
La Gestin de la Continuidad del Servicio se preocupa de impedir que una imprevista y grave
interrupcin de los servicios TI, debido a desastres naturales u otras fuerzas de causa mayor,
tenga consecuencias catastrficas para el negocio.
La estrategia de la Gestin de la Continuidad del Servicio (ITSCM) debe combinar equilibradamente
procedimientos:
Proactivos: que buscan impedir o minimizar las consecuencias de una grave interrupcin del
servicio.
Reactivos: cuyo propsito es reanudar el servicio tan pronto como sea posible (y
recomendable) tras el desastre.
La ITSCM requiere una implicacin especial de los agentes involucrados pues sus beneficios slo se
perciben a largo plazo, es costosa y carece de rentabilidad directa. Implementar la ITSCM es como
contratar un seguro mdico: cuesta dinero, parece intil mientras uno est sano y desearamos
nunca tener que utilizarlo, pero tarde o temprano nos alegramos de haber sido previsores.
Introduccin y Objetivos
Los objetivos principales de la Gestin de la Continuidad de los Servicios TI (ITSCM) se
resumen en:
Biseo ue los Seivicios TI Pioceso: uestion ue la
Continuiuau ue Seivicios TI
2
Garantizar la pronta recuperacin de los servicios (crticos) TI tras un desastre.
Establecer polticas y procedimientos que eviten, en la medida de lo posible, las perniciosas
consecuencias de un desastre o causa de fuerza mayor.
Aunque, a priori, las polticas proactivas que prevean y limiten los efectos de un desastre sobre los
servicios TI son preferibles a las exclusivamente reactivas, es importante valorar los costes
relativos y la incidencia real en la continuidad del negocio para decantarse por una de ellas o por
una sabia combinacin de ambas.
Una correcta ITSCM debe formar parte integrante de la Gestin de Continuidad del Negocio (BCM)
y debe estar a su servicio. Los servicios TI no son sino una parte, aunque a menudo muy
importante, del negocio en su conjunto y no tiene mayor sentido que, por ejemplo, un sistema de
pedidos online siga funcionando a la perfeccin tras un desastre si nos resulta imposible
suministrar la mercanca a nuestros clientes.
Es importante diferenciar entre desastres "de toda la vida", tales como incendios, inundaciones,
etctera, y desastres "puramente informticos", tales como los producidos por ataques distribuidos
de denegacin de servicio (DDOS), virus informticos, etctera. Aunque es responsabilidad de la
ITSCM prever los riesgos asociados en ambos casos y restaurar el servicio TI con prontitud, es
evidente que recae sobre la ITSCM una responsabilidad especial en el ltimo caso pues:
Slo afectan directamente a los servicios TI pero paralizan a toda la organizacin.
Son ms previsibles y ms habituales.
La percepcin del cliente es diferente: los desastres naturales son ms asumibles y no se
asocian a actitudes negligentes, aunque esto no sea siempre cierto.
Los principales beneficios de una correcta Gestin de la Continuidad del Servicio se resumen en:
Se gestionan adecuadamente los riesgos.
Se reduce el periodo de interrupcin del servicio por causas de fuerza mayor.
Se mejora la confianza en la calidad del servicio entre clientes y usuarios.
Sirve de apoyo al proceso de Gestin de la Continuidad del Negocio (BCM).
Las principales dificultades a la hora de implementar la Gestin de la Continuidad del Servicio se
resumen en:
Puede haber resistencia a realizar inversiones cuya rentabilidad no es inmediata.
No se presupuestan correctamente los costes asociados.
No se asignan los recursos suficientes.
No existe el compromiso suficiente con el proceso dentro de la organizacin y las tareas y
actividades correspondientes se demoran perpetuamente para hacer frente a "actividades
ms urgentes".
No se realiza un correcto anlisis de riesgos y se obvian amenazas y vulnerabilidades reales.
El personal no esta familiarizado con las acciones y procedimientos a tomar en caso de
interrupcin grave de los servicios.
Falta de coordinacin con la BCM.
Proceso
Las principales actividades de la Gestin de la Continuidad de los Servicios TI se resumen en:
Biseo ue los Seivicios TI Pioceso: uestion ue la
Continuiuau ue Seivicios TI
S
Establecer las polticas y alcance de la ITSCM.
Evaluar el impacto en el negocio de una interrupcin de los servicios TI.
Analizar y prever los riesgos a los que esta expuesto la infraestructura TI.
Establecer las estrategias de continuidad del servicio TI.
Adoptar medidas proactivas de prevencin del riesgo.
Desarrollar los planes de contingencia.
Poner a prueba dichos planes.
Formar al personal sobre los procedimientos necesarios para la pronta recuperacin del
servicio.
Revisar peridicamente los planes para adaptarlos a las necesidades reales del negocio.
Proceso
Poltica y Alcance
El primer paso necesario para desarrollar una Gestin de la Continuidad del Servicio coherente
es establecer claramente sus objetivos generales, su alcance y el compromiso de la organizacin
TI: su poltica.
La gestin de la empresa debe demostrar su implicacin con el proceso desde un primer momento
pues la implantacin de la ITSCM puede resultar compleja y costosa sin la contrapartida de un
retorno obvio a la inversin.
Es imprescindible establecer el alcance de la ITSCM en funcin de:
Los planes generales de Continuidad del Negocio.
Los servicios TI estratgicos.
Los estndares de calidad adoptados.
El histrico de interrupciones graves de los servicios TI.
Las expectativas de negocio.
La disponibilidad de recursos.
Biseo ue los Seivicios TI Pioceso: uestion ue la
Continuiuau ue Seivicios TI
4
La Gestin de la Continuidad del Servicio est abocada al fracaso sino se destina una cantidad de
recursos suficientes, tanto en el plano humano como de equipamiento (software y hardware). Su
dimensin depende de su alcance y sera absurdo y contraproducente instaurar una poltica
demasiado ambiciosa que no dispusiera de los recursos correspondientes.
Una importante parte del esfuerzo debe destinarse a la formacin del personal. ste debe
interiorizar su papel en momentos de crisis y conocer perfectamente las tareas que se espera
desempee: una emergencia no es el mejor momento para estudiar documentacin y manuales.
Anlisis de Impacto
Una correcta Gestin de la Continuidad del Servicio requiere en primer lugar determinar el
impacto que una interrupcin de los servicios TI pueden tener en el negocio.
En la actualidad casi todas las empresas, grandes y pequeas, dependen en mayor o menor
medida de los servicios informticos, por lo que cabe esperar que un "apagn" de los servicios TI
afecte a prcticamente todos los aspectos del negocio. Sin embargo, es evidente que hay servicios
TI estratgicos de cuya continuidad puede depender la supervivencia del negocio y otros que
"simplemente" aumentan la productividad de la fuerza comercial y de trabajo.
Cuanto mayor sea el impacto asociado a la interrupcin de un determinado servicio mayor habr
de ser el esfuerzo realizado en actividades de prevencin. En aquellos casos en que la "solucin
puede esperar" se puede optar exclusivamente por planes de recuperacin.
Los servicios TI han de ser analizados por la ITSCM en funcin de diversos parmetros:
Consecuencias de la interrupcin del servicio en el negocio:
o Prdida de rentabilidad.
o Prdida de cuota de mercado.
o Mala imagen de marca.
o Otros efectos secundarios.
Cunto se puede esperar a restaurar el servicio sin que tenga un alto
impacto en los procesos de negocio.
Compromisos adquiridos a travs de los SLAs.
Dependiendo de estos factores se buscar un balance entre las actividades de prevencin y
recuperacin teniendo en cuenta sus respectivos costes financieros.
Evaluacin de Riesgos
Sin conocer cules son los riesgos reales a los que se enfrenta la infraestructura TI es imposible
realizar una poltica de prevencin y recuperacin ante desastre mnimamente eficaz.
La Gestin de la Continuidad del Servicio debe enumerar y evaluar, dependiendo de su
probabilidad e impacto, los diferentes riesgos factores de riesgo. Para ello la ITSCM debe:
Biseo ue los Seivicios TI Pioceso: uestion ue la
Continuiuau ue Seivicios TI
S
Conocer en profundidad la infraestructura TI y cuales son los elementos de
configuracin (CIs) involucrados en la prestacin de cada servicio,
especialmente los servicios TI crticos y estratgicos.
Analizar las posibles amenazas y estimar su probabilidad.
Detectar los puntos ms vulnerables de la infraestructura TI.
Gracias a los resultados de este detallado anlisis se dispondr de informacin suficiente para
proponer diferentes medidas de prevencin y recuperacin que se adapten a las necesidades reales
del negocio.
La prevencin frente a riesgos genricos y poco probables puede ser muy cara y no estar siempre
justificada, sin embargo, las medidas preventivas o de recuperacin frente a riesgos especficos
pueden resultar sencillas, de rpida implementacin y relativamente baratas.
Por ejemplo, si el riesgo de perdida de alimentacin elctrica es elevado debido, por ejemplo, a la
localizacin geogrfica se puede optar por deslocalizar ciertos servicios TI a travs de ISPs que
dispongan de sistemas de generadores redundantes o adquirir generadores que proporcionen la
energa mnima necesaria para alimentar los CIs de los que dependen los servicios ms crticos,
etctera.
Estrategias de Continuidad
La continuidad de los servicios TI puede conseguirse bien mediante medidas preventivas, que
eviten la interrupcin de los servicios, o medidas reactivas, que recuperen unos niveles aceptables
de servicio en el menor tiempo posible.
Es responsabilidad de la Gestin de la Continuidad del Servicio disear actividades de prevencin y
recuperacin que ofrezcan las garantas necesarias a unos costes razonables.
Actividades preventivas
Las medidas preventivas requieren un detallado anlisis previo de riesgos y vulnerabilidades.
Algunos de ellos sern de carcter general: incendios, desastres naturales, etctera, mientras que
Biseo ue los Seivicios TI Pioceso: uestion ue la
Continuiuau ue Seivicios TI
6
otros tendrn un carcter estrictamente informtico: fallo de sistemas de almacenamiento, ataques
de hackers, virus informticos, etctera.
La adecuada prevencin de los riesgos de carcter general dependen de una estrecha colaboracin
con la Gestin de la Continuidad del Negocio (BCM) y requieren medidas que implican a la
infraestructura "fsica" de la organizacin.
La prevencin de riesgos y vulnerabilidades "lgicas" o de hardware requieren especial atencin de
la ITSCM. En este aspecto es esencial la estrecha colaboracin con la Gestin de la Seguridad.
Los sistemas de proteccin habituales son los de "Fortaleza" que ofrecen proteccin perimetral a la
infraestructura TI. Aunque imprescindibles no se hallan exentos de sus propias dificultades pues
aumentan la complejidad de la infraestructura TI y pueden ser a su vez fuente de nuevas
vulnerabilidades.
Actividades de recuperacin
Tarde o temprano, por muy eficientes que seamos en nuestras actividades de prevencin, ser
necesario poner en marcha procedimientos de recuperacin.
En lneas generales existen tres opciones de recuperacin del servicio:
Cold standby: que requiere un emplazamiento alternativo en el que
podamos reproducir en pocos das nuestro entorno de produccin y servicio.
Esta opcin es la adecuada si los planes de recuperacin estiman que la
organizacin puede mantener sus niveles de servicio durante este periodo
sin el apoyo de la infraestructura TI.
Warm standby: que requiere un emplazamiento alternativo con sistemas
activos diseados para recuperar los servicios crticos en un plazo de entre
24 y 72 horas.
Hot standby: que requiere un emplazamiento alternativo con una replicacin
continua de datos y con todos los sistemas activos preparados para la
inmediata sustitucin de la estructura de produccin. sta es evidentemente
la opcin mas costosa y debe emplearse slo en el caso de que la
interrupcin del servicio TI tuviera inmediatas repercusiones comerciales.
Por supuesto, existe otra alternativa que consiste en hacer "poco o nada" y esperar que las aguas
vuelvan naturalmente a su cauce: una alternativa poco recomendable para alguien que est
hojeando este curso sobre ITIL y del que suponemos que los servicios TI jugarn un papel
importante en su organizacin :-)
Organizacin y Planificacin
Una vez determinado el alcance de la ITSCM, analizados los riesgos y vulnerabilidades y definidas
unas estrategias de prevencin y recuperacin es necesario asignar y organizar los recursos
necesarios. Con ese objetivo la Gestin de la Continuidad del Servicio debe elaborar una serie
de documentos entre los que se incluyen:
Biseo ue los Seivicios TI Pioceso: uestion ue la
Continuiuau ue Seivicios TI
7
Plan de prevencin de riesgos.
Plan de gestin de emergencias.
Plan de recuperacin.
Plan de prevencin de riesgos
Cuyo objetivo principal es el de evitar o minimizar el impacto de un desastre en la infraestructura
TI.
Entre las medidas habituales se encuentran:
Almacenamiento de datos distribuidos.
Sistemas de alimentacin elctrica de soporte.
Polticas de back-ups.
Duplicacin de sistemas crticos.
Sistemas de seguridad pasivos.
Plan de gestin de emergencias
Las crisis suelen provocar "reacciones de pnico" que pueden ser contraproducentes y a veces
incluso ms dainas que las provocadas por el incidente que las caus. Por ello es imprescindible
que en caso de situacin de emergencia estn claramente determinadas las responsabilidades y
funciones del personal as como los protocolos de accin correspondientes.
En principio los planes de gestin de emergencias deben tomar en cuenta aspectos tales como:
Evaluacin del impacto de la contingencia en la infraestructura TI.
Asignacin de funciones de emergencia al personal del servicio TI.
Comunicacin a los usuarios y clientes de una grave interrupcin o
degradacin del servicio.
Procedimientos de contacto y colaboracin con los proveedores involucrados.
Protocolos para la puesta en marcha del plan de recuperacin
correspondiente.
Plan de recuperacin
Cuando la interrupcin del servicio es inevitable, llega el momento de poner en marcha los
procedimientos de recuperacin.
El plan de recuperacin debe incluir todo lo necesario para:
Reorganizar al personal involucrado.
Reestablecer los sistemas de hardware y software necesarios.
Recuperar los datos y reiniciar el servicio TI.
Biseo ue los Seivicios TI Pioceso: uestion ue la
Continuiuau ue Seivicios TI
8
Los procedimientos de recuperacin pueden depender de la importancia de la contingencia y de la
opcin de recuperacin asociada ("cold o hot stand-by"), pero en general involucran:
Asignacin de personal y recursos.
Instalaciones y hardware alternativos.
Planes de seguridad que garanticen la integridad de los datos.
Procedimientos de recuperacin de datos.
Contratos de colaboracin con otras organizaciones.
Protocolos de comunicacin con los clientes.
Cuando se pone en marcha un plan de recuperacin no hay espacio para la improvisacin,
cualquier decisin puede tener graves consecuencias tanto en la percepcin que de nosotros
tengan nuestros clientes como en los costes asociados al proceso.
Aunque pueda resultar paradjico, un "desastre" puede ser una buena oportunidad para demostrar
a nuestros clientes la solidez de nuestra organizacin TI y por tanto, incrementar la confianza que
tiene depositada en nosotros. Ya conocen el dicho: "No hay mal que por bien no venga".
Supervisin de la Continuidad
Una vez establecidas las polticas, estrategias y planes de prevencin y recuperacin, es
indispensable que stos no queden en papel mojado y que la organizacin TI est preparada para
su correcta implementacin.
Ello depende de dos factores clave: la correcta formacin del personal involucrado y la continua
monitorizacin y evaluacin de los planes para su adecuacin a las necesidades reales del negocio.
Formacin
Es intil disponer de unos completos planes de prevencin y recuperacin si las personas que
eventualmente deben llevarlos a cabo no estn familiarizadas con los mismos.
Es indispensable que la ITSCM:
D a conocer al conjunto de la organizacin TI los planes de prevencin y
recuperacin.
Ofrezca formacin especfica sobre los diferentes procedimientos de
prevencin y recuperacin.
Realice peridicamente simulacros para diferentes tipos de desastres con el
fin de asegurar la capacitacin del personal involucrado.
Facilite el acceso permanente a toda la informacin necesaria, por ejemplo,
a travs de la Intranet o portal B2E de la empresa.
Actualizacin y auditoras
Tanto las polticas, estrategias y planes han de ser actualizados peridicamente para asegurar que
responden a los requisitos de la organizacin en su conjunto.
Biseo ue los Seivicios TI Pioceso: uestion ue la
Continuiuau ue Seivicios TI
9
Cualquier cambio en la infraestructura TI o en los planes de negocio puede requerir de una
profunda revisin de los planes en vigor y una consecuente auditora que evale su adecuacin a la
nueva situacin.
En ocasiones en que el dinamismo del negocio y los servicios TI lo haga recomendable, estos
procesos de actualizacin y auditora pueden establecerse de forma peridica.
La Gestin de Cambios juega un papel esencial a la hora de asegurar que los planes de
recuperacin y prevencin estn actualizados, manteniendo informada a la ITSCM de los cambios
realizados o previstos.
Control del proceso
La Gestin de la Continuidad del Servicio debe elaborar peridicamente informes sobre su
gestin que incluyan informacin relevante para el resto de la organizacin TI.
Estos informes deben incluir:
Anlisis sobre nuevos riesgos y evaluacin de su impacto.
Evaluacin de los simulacros de desastre realizados.
Actividades de prevencin y recuperacin realizadas.
Costes asociados a los planes de prevencin y recuperacin.
Preparacin y capacitacin del personal TI respecto a los planes y procedimientos de
prevencin y recuperacin.
Uno de los factores clave para el xito de la Gestin de la Continuidad del Servicio es mantener la
"concentracin". Tras largos periodos en los que la prevencin o, simple y llanamente, la suerte
han impedido la existencia de graves interrupciones del servicio, se puede caer en un relajamiento
que puede acarrear graves consecuencias.
Por esto es imprescindible llevar controles rigurosos que impidan que la inversin y compromiso
inicial se diluyan y la ITSCM no est a la altura de la situacin cuando sus servicios sean vitales
para evitar que "un desastre se convierta en una catstrofe".
Pero si el control del proceso es importante en condiciones normales, ste se vuelve crtico durante
las situaciones de crisis. La ITSCM debe garantizar:
La puesta en marcha de los planes preestablecidos.
La supervisin de los mismos.
La coordinacin con la Gestin de Continuidad del Negocio.
La asignacin de recursos necesarios.