Saltar al contenido

Las claves para una gestión efectiva de la calidad de los datos

Por Gastón Laya, Director de Consultoría de DATA IQ.

Gastón Laya, Director de Consultoría de DATA IQ

Los datos son el activo más valioso de una organización, pero las decisiones basadas en datos defectuosos pueden tener un impacto perjudicial en el negocio. Es por ello que no sólo hay que evolucionar digitalmente sino que, fundamentalmente, hay que asegurarse de que los datos sean confiables, es decir, que representen la realidad de lo que sucede.

¿Por qué es importante la calidad de los datos?

Las organizaciones se enfrentan a innumerables desafíos, desde un volumen de datos creciente de forma exponencial, fuentes variantes, hasta tipos y estructuras de datos nuevos que aparecen día a día. Pero para ser una organización verdaderamente orientada a los datos, resolver estos desafíos no es suficiente. Sin datos de alta calidad, los paneles de control (dashboards) y el análisis de datos en los que las organizaciones confían para tomar decisiones estarán incompletos, desactualizados o simplemente incorrectos. 

Según un informe reciente, casi la mitad de las organizaciones encuestadas están preocupadas por la calidad de los datos. El estudio realizado por el MIT Sloan School of Management en Cambridge señala que los datos incorrectos pueden costar a una organización hasta un 15-25% de los ingresos totales. Si pensamos que hay organizaciones que generan una utilidad que llega al 5 o 10 % de sus ingresos, el impacto del ahorro por asegurar la calidad de datos puede hacer la diferencia entre el cierre o ganar plata a fin del año fiscal.

El costo de no hacer nada para abordar los problemas de calidad de los datos aumenta con el tiempo. La gestión (o no gestión) de la mala calidad de los datos se puede mitigar mucho más fácilmente si se detecta antes de su uso, temprano en el ciclo de vida de los datos. Como ejemplo figurativo, si se implementa la estandarización y verificación de datos en el momento previo a su ingreso en los sistemas de la empresa, ello costaría alrededor de U$D 1. Si se inicia la limpieza de datos más tarde, después de que ocurra la registración de datos, costaría U$D 10 en términos de tiempo y esfuerzo. Y dejar que los datos de mala calidad permanezcan en las aplicaciones y generen continuamente información incorrecta para tomar decisiones, costaría U$D 100. El objetivo, por lo tanto, es detectar los datos incorrectos en la etapa más temprana posible, antes de que sean ingresados a los sistemas de la organización, generalmente en los sistemas transaccionales o ERP.

La buena noticia es que mantener la calidad de los datos en cualquier iniciativa de recopilación de datos promoverá el rendimiento óptimo de los sistemas empresariales y mejorará la confianza de los usuarios sobre los datos. 

¿Cómo medir la calidad de los datos?

Para maximizar la efectividad de cualquier intervención en la calidad de los datos, es importante desarrollar una comprensión completa de los factores más importantes que determinan la calidad de los datos. Existen 5 dimensiones principales de la calidad de los datos:

– Integridad: Para que los datos sean valiosos deben ser suficientemente completos. Por ejemplo, para armar un KPI de facturación, deben sumarse todos los documentos que representen una factura dentro del sistema. Si falta una factura, la métrica va a ser incompleta, incorrecta.

– Exactitud: Los datos deben ser correctos, confiables y/o certificados por algún tipo de organismo de gobierno de datos. En este caso, que los importes de las facturas sean correctos, coincidan los datos que figuran en el documento emitido, teniendo en cuenta si hay descuentos, impuestos u otros conceptos.

– Actualidad: Los registros deben ser lo más recientes posible; o al menos, lo suficientemente recientes como para ser relevantes para su caso de uso previsto.

– Consistencia: La consistencia de los datos (a veces llamada validez de datos) significa que los datos -en un conjunto de datos- tienen el mismo formato y se mantienen entre versiones o instancias y actualizaciones. Es decir, que el dato no se distorsiona cuando pasa por las diferentes etapas del ciclo de vida, desde la transacción que lo originó, a través de la recopilación de datos, movimientos entre plataformas, transformación, agregación, etc.

– Accesibilidad: Los activos deben ser fácilmente recuperables por las personas que necesitan acceder a ellos (sin comprometer los requisitos de cumplimiento).

Obviamente, estas definiciones no son exhaustivas. Por ejemplo, asegurar la singularidad de los datos es un componente necesario de la buena calidad de los datos, pero un conjunto de datos que cumple con las dimensiones de «Integridad» y «Exactitud» debe estar inherentemente libre de duplicados.

¿Por qué establecer expectativas de calidad de los datos?

Independientemente del tamaño, función o mercado, cada organización debe prestar atención a la calidad de los datos para comprender su negocio y tomar decisiones comerciales sólidas. Los tipos y fuentes de datos son extremadamente numerosos, y su calidad tendrá diferentes impactos en el negocio según para qué se utilicen y por qué. Es por eso que una empresa necesita establecer expectativas únicas y acordadas, decididas de manera colaborativa para cada una de las cinco métricas anteriores, en función de lo que espera obtener de los datos.

El valor de los datos surge principalmente cuando se respalda un proceso empresarial o la toma de decisiones basada en inteligencia empresarial. Por lo tanto, las reglas acordadas de calidad de los datos deben tener en cuenta el valor que los datos pueden proporcionar a una organización. Si se identifica que los datos tienen un valor muy alto en un contexto determinado, esto puede indicar que se requieren reglas de calidad de datos más rigurosas en este contexto. Por lo tanto, las empresas deben ponerse de acuerdo sobre estándares de calidad de datos basados no solo en las propias dimensiones de calidad de datos, y, por supuesto, en los estándares externos, sino también en el impacto de no cumplir con ellos.

¿Cuáles son las mejores prácticas para la calidad de los datos?

Para hacer esto, es necesario establecer un enfoque general, proactivo y colaborativo para la calidad de los datos en la empresa. La calidad de los datos debe ser algo de lo que todos los equipos (no solo los técnicos) deben ser responsables; debe abarcar todos los sistemas y debe tener reglas y políticas que impidan que los datos incorrectos ingresen a la organización, cualquiera sea el medio, ingreso manual o mediante procesos automatizados.

¿Suena imposible? No lo es. Esta es la hoja de ruta:

  1. Definir un equipo interdisciplinario: que incluya arquitectos de datos, personas del negocio, científicos de datos y expertos en protección de datos. Debe ser dirigido por un líder que sea tanto un capacitador del equipo como un promotor de la calidad de datos.
  2. Establecer las expectativas: ¿Por qué la calidad de los datos y cuál es una buena medida de calidad de datos para cada caso de uso particular? Las personas de negocios son los indicados para definir el caso de uso de cada dato, por lo tanto su relevancia/importancia para la toma de decisiones y para la empresa. Una vez establecida la expectativa, hay que asegurarse que todo el equipo la conozca.
  3. Anticiparse a los cambios normativos y gestionar el cumplimiento: Hoy en día hay mútiples regulaciones sobre los datos de la organización, de los clientes, de los proveedores, de los empleados. Es fundamental mantenerse actualizado sobre los requisitos y cambios normativos de cumplimiento. Si la organización está alcanzada por alguna regulación, la calidad de datos tiene un valor inmediato a corto plazo y debería tener visibilidad estratégica.
  4. Establecer objetivos impactantes impulsados por el negocio. Sólo de esta forma el plan asegurará tener la atención (y el presupuesto necesario) del Directorio.
  5. Ser realista: La calidad de los datos está vinculada a los negocios, por lo que es recomendable gestionar los proyectos utilizando indicadores impulsados por el negocio, como ROI o Tasa de Mejora de Ahorro de Costos.
  6. Generar éxitos rápidos, involucrando a la empresa en la gestión de datos. Por ejemplo, incorporar datos, migrar datos más rápido a la nube o limpiar los datos de Salesforce para mejorar las campañas.

¿Cómo gestionar los datos en toda la empresa?

Acceder y supervisar los datos en aplicaciones internas, en la nube, web y móviles es una tarea grande. La única forma de escalar ese tipo de supervisión en todos esos sistemas es a través de la integración de datos. Pero la integración de datos por sí sola no es suficiente.

Al conectar diferentes fuentes de datos, el perfilado de datos es clave para evaluar su calidad en cuanto a integridad, exactitud, validez y consistencia. El perfilado ahorra tiempo y ayuda a detectar inexactitudes rápidamente.

A continuación, es necesaria la curación de datos, que incluye organizar y gestionar conjuntos de datos para satisfacer las necesidades comerciales, por ejemplo. Normalmente, los datos se tratan, se limpian, se estandarizan, se convierten, se dividen, se formatean y se transforman mediante diversos métodos, para que puedan ser consumidos fácilmente.

Luego toca la validación de datos, que aplica reglas de datos centradas en el negocio para garantizar que cumplan con diversos estándares. En muchos casos, también se necesitan funciones de validación de datos de terceros para verificar entidades como direcciones y códigos postales, e incluso enriquecer datos. Si se procesan datos sensibles, se necesitan funciones de enmascaramiento u ofuscación de datos.

Finalmente, es necesario visibilizar los datos, que no se centra solo en la integridad, exactitud, singularidad, validez y anomalías de los datos, sino también en los cambios en las canalizaciones de datos, la infraestructura de datos y la disponibilidad.

Con las herramientas adecuadas de calidad y datos integrados, se pueden crear alertas que detecten algunas de las causas fundamentales de los problemas generales de calidad, antes que sean visibilizados. 

La gestión colaborativa de datos y las herramientas para corregir errores en el punto de origen son las formas claras de asegurar una buena calidad de datos para todos los que la necesitan.