El tiempo de inactividad de los datos casi se duplica a medida que los profesionales luchan con problemas de calidad

Por venturebeat.com

/ mayo 15, 2023

en La Revista

Los datos y tiempo son críticos para todos los negocios, pero cuando el volumen de la información y la complejidad de las canalizaciones crecen, ¡las cosas están destinadas a fallar!

Según una nueva encuesta de 200 profesionales de datos que trabajan en los EEUU, los casos de tiempo de inactividad de datos (períodos en los que faltan datos empresariales, son inexactos o son inaccesibles) casi se han duplicado año tras año; dado el aumento en la cantidad de incidentes de calidad y la extinción de incendios. tiempo empleado por los equipos.

La encuesta, encargada por la empresa de observabilidad de datos Monte Carlo y realizada por Wakefield Research en marzo de 2023, destaca una brecha crítica que debe abordarse a medida que las organizaciones compiten para obtener la mayor cantidad de activos de datos que puedan para crear aplicaciones de análisis e IA posteriores para las empresas. -Funciones críticas y toma de decisiones.

“Más datos más complejidad equivalen a más oportunidades para que los datos se rompan. También se detecta una mayor proporción de incidentes de datos a medida que los datos se vuelven más integrales para las operaciones de generación de ingresos de las organizaciones. Esto significa que es más probable que los usuarios comerciales y los consumidores de datos detecten incidentes que los equipos de datos pasan por alto”, dice Lior Gavish, cofundador y CTO de Monte Carlo , a VentureBeat.

Los impulsores del tiempo de inactividad de los datos

Básicamente, la encuesta atribuye el aumento del tiempo de inactividad de los datos a tres factores clave: un número creciente de incidentes, más tiempo para detectarlos y más tiempo para resolver los problemas.

De los 200 encuestados, el 51 % dijo que presencia entre 1 y 20 incidentes de datos en un mes típico; el 20 % informó de 20 a 99 incidentes y el 27 % dijo que ve al menos 100 incidentes de datos cada mes. Esto es consistentemente más alto que las cifras del año pasado, con el número promedio de incidentes mensuales presenciados por una organización creciendo a 67 este año desde 59 en 2022.

A medida que aumentan los casos de datos incorrectos, los equipos también se toman más tiempo para encontrar y solucionar los problemas. El año pasado, el 62 % de los encuestados dijeron que normalmente tardaban cuatro horas o más en promedio en detectar un incidente de datos, mientras que este año la cifra aumentó al 68 %.

Del mismo modo, para resolver los incidentes después del descubrimiento, el 63 % dijo que normalmente toma cuatro horas o más, frente al 47 % del año pasado. Aquí, el tiempo promedio de resolución de un incidente de datos ha pasado de 9 horas a 15 horas año tras año.

También puedes leer: ChatGPT está a punto de revolucionar la ciberseguridad

Los enfoques manuales son los culpables, no los ingenieros

Si bien es bastante fácil culpar a los ingenieros de datos por no garantizar la calidad y tomar demasiado tiempo para arreglar las cosas; es importante comprender que el problema no es el talento sino la tarea en cuestión. Como señala Gavish, los ingenieros se enfrentan no solo a grandes cantidades de datos que se mueven rápidamente; sino también a enfoques en constante cambio sobre cómo las fuentes los emiten y la organización los consume, lo que no siempre se puede controlar.

“El error más común que cometen los equipos en ese sentido es confiar exclusivamente en pruebas manuales de datos estáticos. Es la herramienta equivocada para el trabajo. Ese tipo de enfoque requiere que su equipo anticipe y escriba una prueba para todas las formas en que los datos pueden dañarse en cada conjunto de datos, lo que lleva mucho tiempo y no ayuda con la resolución”, explica.

En lugar de estas pruebas, dijo el CTO, los equipos deberían considerar la automatización de la calidad de los datos mediante la implementación de monitores de aprendizaje automático para detectar problemas de actualización, volumen, esquema y distribución de datos dondequiera que ocurran en la tubería.

Esto puede brindar a los analistas de datos empresariales una visión holística de la confiabilidad de los datos para casos de uso de productos de datos y negocios críticos casi en tiempo real. Además, cuando algo sale mal, los monitores pueden enviar alertas, lo que permite a los equipos abordar el problema no solo rápidamente sino mucho antes de que deje un impacto significativo en el negocio.

Cumplir con lo básico sigue siendo importante para datos y tiempo

Además de los monitores basados en ML, los equipos también deben apegarse a ciertos conceptos básicos para evitar el tiempo de inactividad de los datos, comenzando con el enfoque y la priorización.

“Los datos generalmente siguen el principio de Pareto; el 20 % de los conjuntos de datos proporcionan el 80 % del valor comercial y el 20 % de esos conjuntos de datos (no necesariamente los mismos) causan el 80 % de los problemas de calidad de los datos. Asegúrese de poder identificar esos conjuntos de datos problemáticos y de alto valor y ser consciente de cuándo cambian con el tiempo”, dijo Gavish.

Además, tácticas como la creación de SLA (acuerdos de nivel de servicio) de datos; el establecimiento de líneas claras de propiedad, la redacción de documentación y la realización de autopsias también pueden ser útiles, agregó.

Dónde están

Actualmente, Monte Carlo y Bigeye se ubican como los principales actores en el espacio de observabilidad de datos impulsado por IA de rápida maduración. Otros jugadores en la categoría son un montón de advenedizos como Databand , Datafold , Validio , Soda y Acceldata .

Dicho esto, es imperativo tener en cuenta que los equipos no necesariamente necesitan una solución de observabilidad de ML desarrollada por un tercero para garantizar la calidad y reducir el tiempo de inactividad de los datos. También pueden optar por construir internamente si tienen el tiempo y los recursos necesarios. Según la encuesta de Monte Carlo-Wakefield, se tarda una media de 112 horas (alrededor de dos semanas) en desarrollar una herramienta de este tipo internamente.

Si bien el mercado de herramientas específicas de observabilidad de datos aún se está desarrollando, la investigación de Future Market Insights sugiere que se espera que el mercado más amplio de plataformas de observabilidad crezca de $ 2170 millones en 2022 a $ 5550 millones para 2032, con una CAGR de 8,2 %.

en tendencia: inteligencia artificial