Tiempo de inactividad, interrupciones y fallas: comprensión de sus costos reales (2023)

Tiempo de inactividad, interrupciones y fallas: comprensión de sus costos reales

Acerca de

Este contenido es presentado por Evolven. Evolven Change Analytics es una solución AIOps única que rastrea y analiza todos los cambios reales llevados a cabo en el entorno de la nube empresarial. Evolven ayuda a las empresas líderes a reducir la cantidad de incidentes, reducir el tiempo de resolución de problemas y eliminar los cambios no autorizados.Aprende más

Cuando se trata de aplicaciones de misión crítica o calidad de rendimiento del centro de datos, las empresas están dispuestas a realizar grandes inversiones. Desafortunadamente, estas inversiones no siempre se entregan por completo.

Enfrentando el tiempo de inactividad del sistema

A pesar de los esfuerzos invertidos en la solidez de la infraestructura, muchas organizaciones de TI continúan lidiando con incidentes de tiempo de inactividad de la base de datos, el hardware y el software que duran desde unos pocos minutos hasta varios días, lo que incapacita completamente a la empresa y causa enormes pérdidas.

Tiempo de inactividad esperado

El mundo de las fallas de TI a veces puede parecer incómodo.

A pesar de la variedad de soluciones avanzadas y la creciente cantidad de datos recopilados por los principales proveedores de software empresarial y los departamentos de TI (desde ERP hasta CRM y más), las interrupciones siguen siendo una amenaza válida y aterradora para la industria.

Por otro lado, las fallas de TI se han convertido de alguna manera en una parte inherentemente aceptada, incluso esperada, de la vida empresarial.

Esto es contrario a la intuición…

Revisión del tiempo de inactividad de TI

Mientras que los profesionales de TI se enfrentan a tiempos de inactividad de vez en cuando, y luego se centran por completo en tratar de superarlos, la organización empresarial en su conjunto sufre los efectos del "dolor financiero", que tienden a ser muy significativos.

En el pasado, analizamos en profundidad las múltiples formas en que el tiempo de inactividad de TI puede afectar los resultados de las empresas (puede leer más sobre esto aquí:Costo y alcance de las interrupciones no planificadas). Analizamos diferentes aspectos, desde la pérdida directa de ingresos a través del daño a la reputación hasta los efectos indirectos, como la disminución de la productividad.

Ahora, deseo revisar el problema y examinar cómo las organizaciones deben abordar y evaluar las amenazas a sus operaciones de TI, incluidos los sistemas, las aplicaciones y los datos, mediante el análisis de puntos de referencia sólidos (y establecidos) que representan los costos potenciales detrás del tiempo de inactividad y las interrupciones.

Downtime, Outages and Failures - Understanding Their True Costs (3)Cortes del sistema:
Midiendo los fracasos de las grandes marcas

¿Cuándo debería la industria comenzar a medir el impacto financiero de las interrupciones de las grandes marcas, como la que se produjo recientemente?Facebook, eluno que afectó a cientos de miles de clientes de Lloyds Bank, o elInterrupción de Jetstarque resultó en cientos de retrasos en los vuelos?

En otras palabras, ¿en qué punto una interrupción es "lo suficientemente significativa" para que un análisis de costos se vuelva valioso para la industria a fin de aprender de él y predecir el impacto de futuros incidentes de interrupción?

Bueno, aparentemente, en algún momento, la interrupción crea un impacto que no se puede ignorar, en cuanto a relaciones públicas. Ese es el punto de no retorno, al que siguen las estimaciones del impacto financiero.

(Video) GESTION DE FLOTA - EMPRESA TRANSPORTE CARGA - COMO REDUCIR COSTOS DE FLOTA -

Los costos de tiempo de inactividad varían significativamente entre las industrias. El tamaño de la empresa afectada es obviamente un factor crítico, pero no es el único importante. El papel de los sistemas de TI en el negocio también es clave.

Downtime, Outages and Failures - Understanding Their True Costs (4)

Establecer un valor numérico detrás de una interrupción de TI significa predefinir sus implicaciones en múltiples aspectos empresariales y organizativos, de modo que toda la industria pueda aprender y optimizar en consecuencia.

Una falla de una aplicación crítica puede conducir a dos tipos distintos de pérdidas:

  • Pérdida del servicio de la aplicación: el impacto del tiempo de inactividad varía según la aplicación y el negocio;
  • Pérdida de datos: la posible pérdida de datos debido a una interrupción del sistema puede tener importantes implicaciones legales y financieras.

Ahora, estoy seguro de que estará de acuerdo en que los centros de datos de hoy nunca deben dejar de funcionar; las aplicaciones deben permanecer disponibles las 24 horas del día, los 7 días de la semana, y los usuarios finales internos (por no hablar de los externos) de todo el mundo deben poder confiar en la disponibilidad de los centros de datos (para datos críticos y disponibilidad de aplicaciones) en todo momento.

Bueno, la realidad muerde. En el back office (es decir, dentro del centro de datos) este no es el caso. Ninguna organización disfruta del 100 % de tiempo de actividad. ¿Debe aspirar a alcanzar el 100%? Seguro. Pero también debe desarrollar una comprensión profunda de las implicaciones del tiempo de inactividad y las formas de minimizarlo.

¿La peor pesadilla de apagón de la historia? Probablemente el que te pasó a ti...

Downtime, Outages and Failures - Understanding Their True Costs (5)Algunos incidentes de apagones pasados ​​se convirtieron en catástrofes de relaciones públicas, como la debacle mitológica de Virgin Blue de 2010, o la reciente que afectó a Facebook.

¿Por qué? El impacto masivo probablemente tuvo algo que ver con eso.

Como recordatorio, la interrupción de Virgin Blue impidió que los pasajeros abordaran vuelos durante 11 días (!!), lo que resultó en prensa negativa, reputación dañada y pérdida de millones de dólares.

Para ser más precisos: la empresa de gestión de reservas de Virgin Blue, Navitaire, terminó compensando a Virgin Blue por más de $ 20 millones (La falla de reserva de Navitaire le da a Virgin $ 20 millones en Compo).

Hay muchos otros incidentes que aún logran captar la atención de los medios. Aquí hay solo uno recienteartículo de USA Today sobre el apagón de Wells Fargoque impidió que los clientes accedieran a sus cuentas durante muchas horas.

Puedo decir con seguridad que cualquier persona en la industria de TI estaría de acuerdo en que las interrupciones o los tiempos de inactividad son MUY malos para los negocios. No son deseados, son muy perjudiciales desde el punto de vista financiero y deben combatirse utilizando todos los recursos disponibles.

Las configuraciones incorrectas son clave

El Manual de operaciones visibles del Instituto de procesos de TI informó en el pasado que "el 80% de las interrupciones no planificadas se deben a cambios mal planificados realizados por administradores ("personal de operaciones") o desarrolladores" (operaciones visibles).

La Enterprise Management Association informó que el 60 % de los errores de disponibilidad y rendimiento son el resultado de configuraciones incorrectas.

¿Cuál es el costo?

El tiempo de inactividad puede costar a las empresas $ 5600 por minuto y hasta $ 300 000 por hora en el tiempo de inactividad de la aplicación web (según unAnálisis de Gartner de 2014).

El costo promedio por hora del tiempo de inactividad del servidor empresarial, en todo el mundo, 2017-2018:

(Video) Qué es la crisis de los contenedores y cómo afecta al comercio mundial y a tu bolsillo | BBC Mundo

Downtime, Outages and Failures - Understanding Their True Costs (6)

Fuente:Estadista

Los costos de mantenimiento de aplicaciones están aumentando a una tasa anual del 20%. Pero eso no puede resolver todos sus problemas. Una encuesta anterior de la industria reveló que al menos una cuarta parte del tiempo de inactividad sondeado fue causado por errores de configuración. (¿Cuánto gastará en el tiempo de inactividad de la aplicación este año?).

¿Qué tan comunes son los tiempos de inactividad o interrupciones?

Ok, el tiempo de inactividad puede ser una pesadilla financiera. Esa parte está clara. Pero si desea estimar adecuadamente el riesgo potencial de las interrupciones de su negocio, la pregunta inmediata debería ser "¿qué probabilidad hay de que suceda?"

Downtime, Outages and Failures - Understanding Their True Costs (7)

Fuente:Conocimiento del centro de datos

Ok, las interrupciones son demasiado comunes como para ignorarlas pensando "No es probable que experimente una interrupción importante". Ahora viene la cuestión de cómo calcular su riesgo específico para su negocio.

Costos de tiempos de inactividad de producción y aplicación aclarados

Las interrupciones no planificadas dependen del departamento de TI para resolverlas. Sin embargo, y como ya mencioné, al final del día estos cortes impactan a toda la organización.

Una parte importante de un proceso completo de evaluación del riesgo de interrupción es estimar cuánto dinero perderá por hora (o minuto, o cualquier otro incremento de tiempo de su elección) en el incidente de tiempo de inactividad.

Para las empresas que dependen únicamente de la capacidad de los centros de datos para brindar servicios de TI y redes a los clientes, como proveedores de servicios de telecomunicaciones o empresas de comercio electrónico, el tiempo de inactividad puede ser particularmente costoso, con el costo más alto de un solo evento que supera el millón de dólares (más de $11.000 por minuto) según estimaciones de expertos.

Downtime, Outages and Failures - Understanding Their True Costs (8)

En una encuesta de USA Today de 200 administradores de centros de datos, más del 80 % informó que sus costos de tiempo de inactividad superaban los $ 50,000 por hora. Más del 25% informó costos de tiempo de inactividad de más de $ 500,000 por hora (!!).

Según otra encuesta, si bien las empresas no pueden lograr un tiempo de inactividad cero, una de cada 10 empresas dijo que su disponibilidad debe ser superior al 99,999%.

Downtime, Outages and Failures - Understanding Their True Costs (9)

Fuente:Searchcio Techtarget

Para obtener una comprensión firme de las implicaciones del tiempo de inactividad de producción y lanzamiento, echemos un vistazo a cómo se manifiestan las consecuencias del tiempo de inactividad.

Costo del tiempo de inactividad: ¿por año o por incidente?

Aestudio 2017reveló que de 400 tomadores de decisiones de TI, el 46 % experimentó más de cuatro horas de tiempo de inactividad relacionado con TI durante 12 meses; El 23% dijo que incurrió en costos que van desde $ 12,000 hasta más de $ 1 millón por hora.

(Video) Diagrama de Pareto en Excel

Más del 35% admitió que no está seguro del costo de una interrupción de su negocio.

Si le pregunta a Delta Airlines, que tuvo que cancelar 280 vuelos debido a un apagón en 2017, las pérdidas de un solo incidente de apagónpuede llegar a más de $ 150 millones.

Hace un par de años, Dun & Bradstreet informó que el 59 % de las empresas de Fortune 500 experimentan un mínimo de 1,6 horas de inactividad por semana.

Si toma la compañía promedio de Fortune 500 (o una compañía que emplea al menos 10,000 empleados) y asume que paga a los miembros del equipo de TI un promedio de $ 56 por hora, entonces (suponiendo que toda la TI está ocupada resolviendo el tiempo de inactividad) solo la mano de obra parte del tiempo de inactividad para una organización de este tamaño alcanzaría los $896 000 por semana, lo que se traduciría en más de $46 millones por año (Evaluación del impacto financiero del tiempo de inactividad).

Por supuesto, la realidad es más complicada, ya que debe tener en cuenta muchos parámetros, como la hora del evento (¿entre semana o fin de semana? ¿Día o noche?) y más. Aún así, comprender los costos de las interrupciones ayudará significativamente a estimar su riesgo potencial y el retorno de la inversión de las herramientas que pueden ayudar a minimizar el efecto de los incidentes de tiempo de inactividad.

¿Ha logrado la industria aprender del pasado y minimizar los daños colaterales durante una interrupción?

¿Cómo han cambiado las cosas desde el pasado?

Por lo tanto, ya sabemos que los tiempos de inactividad y los incidentes de interrupción todavía ocurren hoy, y la industria aún tiene que abolir con éxito. Pero, ¿cómo ha cambiado su costo con el tiempo? ¿Son estos incidentes menos dañinos hoy?

En 2010,una investigación de Coleman Parkesdescubrió que los incidentes de tiempo de inactividad de TI cuestan colectivamente a las empresas más de 127 millones de horas-hombre por año, un promedio de 545 horas-hombre por empresa, en productividad de los empleados.

En 2009, se informó que los costos promedio del tiempo de inactividad varían considerablemente entre las industrias, desde aproximadamente $90,000 por hora en el sector de los medios hasta alrededor de $6,48 millones por hora para las grandes agencias de corretaje en línea (Cómo cuantificar el tiempo de inactividad).

Según una encuesta de gerentes de TI realizada durante esos años, las empresas son cada vez más conscientes de los costos financieros directos del tiempo de inactividad de las computadoras. La encuesta reveló que una de cada cinco empresas pierde $ 12,000 por hora debido al tiempo de inactividad de los sistemas (Cómo cuantificar el tiempo de inactividad).

Como se mencionó anteriormente, un análisis posterior realizado en 2014 por Gartner informó un costo promedio de $ 5,600 por minuto y más de $ 300,000 por hora.

Ya en 2004, una estimación conservadora de Gartner fijó el costo por hora del tiempo de inactividad de las redes informáticas en $ 42,000. En consecuencia, una empresa que sufre un tiempo de inactividad peor que el promedio de 175 horas por año puede perder más de $ 7 millones al año. Sin embargo, el costo de cada interrupción afecta a cada empresa de manera diferente, por lo que es importante saber cómo calcular el impacto financiero preciso (Cómo cuantificar el tiempo de inactividad).

Tiene sentido creer que el costo de la interrupción solo aumenta con el tiempo (ya que hoy en día todos nos apoyamos más en los sistemas de datos). Por lo tanto, puede comprender por qué los datos del pasado pueden multiplicarse por un número significativo para reflejar la realidad actual...

cada minuto cuenta

Hace más de diez años, el costo promedio del tiempo de inactividad de un centro de datos en todas las industrias se valoraba en aproximadamente $ 5,600 por minuto (Las interrupciones de TI no planificadas cuestan más de $ 5,000 por minuto), figura que, segúnGartner, se mantuvo igual hasta 2014. El estudio anterior antes mencionado del Ponemon Institute calculó el costo mínimo, mediano, medio y máximo por minuto de las interrupciones no planificadas, según la información de 41 centros de datos. Se encontró que el mayor costo de una interrupción no planificada superaba los $11,000 por minuto.

En promedio, es probable que el costo de una interrupción no planificada exceda los $5,000 por minuto.

Solo se vuelve más significativo

Aestudio de 2013vio un aumento de más del 41 % con respecto a los promedios anteriores descritos anteriormente, y un costo promedio de más de $7900 por minuto.

UnEncuesta ITIC de 2015mostró claramente que el costo por hora (en comparación con los datos de 2008) ha aumentado entre un 25% y un 30%.

(Video) Desarrollando eXpertos - ¿Cómo calculo ahora mis costos?

Impacto del tiempo de inactividad por año

Un análisis anterior de Gartner calculó que los incidentes de tiempo de inactividad pueden alcanzar las 87 horas por año, en promedio. Obviamente, esa es la suma de muchas interrupciones, desde unos pocos minutos hasta varias horas (La corporación grande promedio experimenta 87 horas de inactividad de la red al año).

¿Cómo han cambiado las cosas?

Despuésinvestigación de 2011reveló que aunque la industria ha logrado combatir con éxito la epidemia de tiempo de inactividad y disminuir su ocurrencia, todavía estamos viendo horas de inactividad significativas y enormes pérdidas de ingresos (Fuente:condujo a más de 3 millones (aparentemente usuarios de Whatsapp) que migraron a Telegram)

El impacto en la reputación y la lealtad

¿Cuánto vale la reputación de tu negocio? Esto puede ser extremadamente difícil de evaluar, así como el efecto a largo plazo de una reputación dañada y su impacto en los ingresos y la rentabilidad.

En este caso, los costos del tiempo de inactividad incluyen la pérdida de clientes (tanto a corto como a largo plazo) y otros elementos tangibles que reflejan los costos del deterioro de la reputación, como caídas de existencias, horas de marketing (gestión de crisis y recuperación de marca) y el presupuesto de medios requerido para reiniciar y pulir. el perfil de una organización.

¿Qué parámetros deberían afectar su cálculo?

Downtime, Outages and Failures - Understanding Their True Costs (10)Al tratar de estimar el costo de los tiempos de inactividad, existen costos directos obvios (como la pérdida de negocios durante el tiempo de inactividad). Sin embargo, también se deben calcular muchos costos indirectos, como los gastos generales de los empleados o los problemas de reputación mencionados anteriormente.

Los gastos generales de la fuerza laboral se derivan del costo de quemar tareas de "cuarto de guerra" que se enfocan en hacer que los sistemas de TI vuelvan a estar en funcionamiento, el costo de retrasarse con todas las demás tareas planificadas, el costo de los gastos de horas extra de los empleados (si corresponde) y más. Luego está el valor de la pérdida de datos, las tarifas de mantenimiento de emergencia (particularmente si la interrupción ocurre fuera del horario laboral) y los costos de reparación adicionales que pueden continuar mucho después de que se haya restablecido el servicio.

No hace falta decir que debe calcular estos costos cuando calcule la implicación del tiempo de inactividad, ya que suelen ser muy significativos; pero incluso una estimación aproximada puede resultar extremadamente beneficiosa para comprender los riesgos y decidir el nivel de tecnología requerido en el que debe apoyarse para combatirlo.

También está el impacto de la pérdida de ventas. Para tener una evaluación precisa del total de ventas perdidas, el porcentaje de impacto debe incrementarse para reflejar el valor real de por vida de los clientes que se pasan permanentemente a un competidor. Por ejemplo, la interrupción de Facebook (y Whatsapp) que mencioné anteriormenteCosto inconsciente: negar el verdadero costo del tiempo de inactividad de la red. ¿Cuál es la pérdida de ingresos derivada del hecho de que estos usuarios presentarán impresiones de anuncios menos facturables?

Las acciones cayeron un 25%

Downtime, Outages and Failures - Understanding Their True Costs (11)Aunque es difícil poner un número a tantos parámetros, siguen siendo sustanciales y significativos. Por ejemplo, cuando Amazon.com se desconectó durante varias horas durante sus primeros días, sus acciones cayeron un 25 % en un solo día (Costo inconsciente: negar el verdadero costo del tiempo de inactividad de la red)!

En estoInterrupción de la nube de AmazonPor ejemplo, la empresa siguió luchando para que sus servicios en la nube volvieran a estar en línea. Como resultado, muchos clientes cuestionaron la confiabilidad de su nube y la comunicación de Amazon en torno a la interrupción. Otros clientes pensaron que deberían recibir una compensación por el tiempo de inactividad como parte de su SLA.

Sé que tiene curiosidad: en cuanto al SLA, a pesar de la interrupción de casi cuatro días, el EC2 SLA de Amazon no se violó (Siete lecciones para aprender de la interrupción de Amazon).

El costo del tiempo de inactividad: calcularlo usted mismo

¿Cuánto está destinado a perder por un tiempo de inactividad inesperado de sus servidores o aplicaciones comerciales?

Según múltiples fuentes, la forma más sencilla de calcular las posibles pérdidas de ingresos durante una interrupción es mediante esta ecuación:

PÉRDIDA DE INGRESOS=(GR/TH) x I x H
GRAMO=ingresos brutos anuales
JU=total de horas de trabajo anuales
I=impacto porcentual
H=número de horas de interrupción

¿Cómo minimizar el riesgo de interrupción y tiempo de inactividad?

El tiempo de inactividad y las interrupciones son catastróficos, pero no tienen por qué ser tan impactantes. Al utilizar soluciones que se enfocan en llegar a la raíz del problema, se pueden prevenir las interrupciones incluso antes de que ocurran.

Análisis de cambios de Evolvendesarrolló una solución AIOps única que se centra en los cambios, la verdadera causa raíz de los incidentes de rendimiento. Evolven ayuda a los equipos empresariales de TI y operaciones en la nube a prevenir y solucionar incidentes antes de que comiencen.

Contáctenospara ver cómo ayudamos a las empresas líderes a reducir drásticamente la cantidad de incidentes y el MTTR.

(Video) Cadena de suministros: ¿cómo crear ventaja y eficiencia de costos?

FAQs

¿Qué son los tiempos de inactividad? ›

¿Qué es el tiempo de inactividad? Es un período en que los equipos de producción están fuera de línea o no se encuentran disponibles para el proceso de producción, debido a que necesitan tareas de mantenimiento o están dañados.

¿Qué son los costos por inactividad? ›

El costo del tiempo de inactividad

La cantidad cuantificable de ingresos perdidos durante el período en que fallan los sistemas críticos de la misión se denomina costo del tiempo de inactividad.

¿Cómo se calcula el tiempo de inactividad? ›

Para obtener un cálculo rápido de los posibles costes del tiempo de inactividad de tu empresa, utiliza la siguiente fórmula, basada en el tamaño de tu empresa y el número de minutos que duró el último incidente registrado: Coste del tiempo de inactividad = minutos del tiempo de inactividad × coste por minuto.

Videos

1. Network Taps✔️
(Genesis IT Lab)
2. KPIs para la Gestión del Mantenimiento - 1era Clase
(Proactive Engineering)
3. WEBINAR - ¿Por qué es importante contar con un Sistema de Gestión de Continuidad del Negocio?
(Global Lynx México)
4. FIIX El futuro del mantenimiento: Cómo la Inteligencia Artificial está cambiando a las empresas
(GRUPO ABSA)
5. What is an RPO and RTO? and why you NEED to understand them as a Solutions Architect
(LearnCantrill)
6. ¿Cómo están sus equipos?
(ModularMining)
Top Articles
Latest Posts
Article information

Author: Domingo Moore

Last Updated: 07/08/2023

Views: 5935

Rating: 4.2 / 5 (73 voted)

Reviews: 80% of readers found this page helpful

Author information

Name: Domingo Moore

Birthday: 1997-05-20

Address: 6485 Kohler Route, Antonioton, VT 77375-0299

Phone: +3213869077934

Job: Sales Analyst

Hobby: Kayaking, Roller skating, Cabaret, Rugby, Homebrewing, Creative writing, amateur radio

Introduction: My name is Domingo Moore, I am a attractive, gorgeous, funny, jolly, spotless, nice, fantastic person who loves writing and wants to share my knowledge and understanding with you.