Big Data: tipología y fuentes de datos

15 febrero 2022

Del mismo modo que sin alimentos, el cuerpo humano no sobrevive, algo parecido ocurre con las tecnologías y servicios que giran alrededor del Big Data (bases de datos, algoritmos, inteligencias artificiales, etc.): sin datos e información que los alimenten ni siquiera existirían.

Pero más allá de la complejidad de su almacenamiento, procesamiento y análisis del Big Data, hay un aspecto que no siempre se trata con la debida importancia: la variedad de los datos (fuentes y tipos).
¿De dónde proceden los datos?

Los datos pueden clasificarse en 5 grandes grupos según su procedencia o fuente:

Datos web: redes sociales y navegación

Incluye toda la información que se puede extraer de la actividad de los usuarios en Twitter, Instagram, Facebook, LinkedIn y el resto de las redes sociales, teniendo especial valor las interacciones de los usuarios. En esta tipología de datos también se incluyen los datos de navegación en páginas web.

Datos biométricos

Las tecnologías biométricas, cuya importancia para la seguridad ya hemos tratado en Nuestros Datos Seguros, recopilan datos sensibles que, previa anonimización (que no permitan la identificación de un sujeto concreto), pueden ser utilizados para datos estadísticos.

Datos M2M

Esta tipología de datos (machine to machine) se refiere a los que se obtienen a través de tecnologías que conectan dispositivos. Un ejemplo: las conexiones wifi o todos los datos del Internet of Things.

Datos de transacciones

Son los que provienen de registros de llamadas o de facturación, y son más difíciles de conseguir.

Datos generados por seres humanos

Al ser el mismo usuario el que los facilita, consciente o inconscientemente, son el tipo de datos más fácil de conseguir. Incluye los correos electrónicos, los formularios, las notas de voz, las llamadas o un estudio médico.

¿Qué tipos de datos existen según su estructura?

No todo el Big Data puede recopilarse, almacenarse ni tratarse de la misma manera. Según su estructura, los datos pueden ser clasificados en:

Datos estructurados (cuantitativos)

Son aquellos que, al contar con un formato y longitud fija, se pueden organizar en tablas y procesar de manera más sencilla y automatizada gracias a algoritmos de machine learning. Ejemplos: las bases de datos o las hojas de cálculo, que pueden ser analizadas e interpretadas fácilmente, y utilizadas por ejemplo en servicios financieros o reservas turísticas.

Datos no estructurados (cualitativos)

Son los que no tienen una organización concreta ni un formato predeterminado, lo que dificulta su procesamiento y análisis con herramientas convencionales. Algunos ejemplos: las fotos, vídeos o los documentos de texto, que no tienen valor hasta que no se procesan y se les aplica algún tipo de tratamiento y organización.

Aunque podría parecer que con estas características tiene menos valor, realmente es lo contrario: aunque requieren software y profesionales expertos para su tratamiento, el hecho que se conserven en su formato original sin modificación alguna permite realizar un uso a medida de ellos e, incluso, una mayor capacidad de almacenaje.

Datos semiestructurados

La tercera tipología de datos se sitúa en un punto intermedio entro los estructurados y los no estructurados. Son datos que no pueden ser clasificados de forma estándar, pero que contienen información valiosa y con relaciones identificables entre los datos. Un ejemplo: el lenguaje de programación que hace posible las páginas web (HTML) o la información que incluye metadatos (Instagram).

La importancia de elegir los datos adecuados

Tras tener claras las fuentes y las tipologías de los datos, es posible decidir cuáles son los que nos interesan y categorizarlos correctamente. De esta manera, su tratamiento y análisis será más eficiente.

Al final, lo importante del Big Data no es conseguir muchos datos, sino que estos sean convertibles en información relevante para nuestros objetivos.