A diario en el mundo se generan cerca de 2.5 trillones de bytes de datos. Estas cifras vienen aumentando desde hace años debido a la hiper-conectividad en la que vivimos, inducida por la digitalización, Internet of Things y las redes sociales. Los ecosistemas Big Data son capaces de capturar, almacenar y manejar grandes volúmenes de datos, estableciendo las bases para explotar analíticamente su información y extraer el valor de los mismos. Este hecho resulta una verdadera mina de oro para las empresas, que pueden beneficiarse de los datos para mejorar procesos, minimizar costes o maximizar beneficios.

Riesgos de los datos de baja calidad

No obstante, esta gran cantidad de información disponible también supone un desafío, ya que casi el 80% de los datos generados son erróneos o incompletos y, por tanto, carentes de valor para la toma de decisiones empresariales.

Existen múltiples factores que pueden afectar a la baja calidad de los datos:

  • Pueden ser instrumentos de medida mal calibrados.
  • Puede haber errores humanos en su procesamiento.
  • Podemos encontrarnos procesos de ingesta excesivamente complejos.
  • O, sencillamente, puede producirse una mala interpretación del problema y que los datos recogidos no sean los adecuados para resolverlo.

Esta carencia en la calidad de los datos es el origen de gran parte de los quebraderos de cabeza que tienen las y los data scientists, que incluso puede consumir hasta un 80% del tiempo de dedicación a un proyecto. Además, el hecho de introducir datos erróneos o sesgados conlleva riesgos, ya que los resultados serán engañosos y el proceso de toma de decisiones se verá comprometido.

Recomendaciones para obtener datos de calidad

Prácticas como definir unos objetivos claros, comprobar si disponemos de los datos necesarios para conseguirlos, o garantizar la trazabilidad de los datos en todo momento para detectar posibles sesgos y limitaciones, pueden ser aplicadas para evitar, en la medida de lo posible, estos problemas.

En general, una mayor cantidad de datos conduce a modelos más fiables y por tanto mejores resultados, pero siempre que estos sean reales y representativos. Es preferible usar una menor cantidad de datos, que una mayor y de baja calidad, ya que los resultados de estas soluciones serán directamente proporcionales a la calidad de los datos utilizados.

Como conclusión, la calidad los datos es fundamental a la hora de aplicar analítica avanzada e Inteligencia Artificial, pues estas herramientas nos ayudan a entender mejor los procesos de negocio, y nos permiten conocer qué ha pasado, por qué ha ocurrido, qué sucederá en el futuro y cuál es la mejor decisión a adoptar.

Share This