Big Data. Extrayendo información de grandes volúmenes de datos

El Big data, grandes volúmenes de datos en español, es el concepto que utilizamos para describir cualquier cantidad voluminosa de datos estructurados, semiestructurados y no estructurados que tienen el potencial de ser analizados y obtener de ellos información relevante.

Big Data. Extrayendo información de grandes volúmenes de datos

Bajo el término Big Data, se agrupan toda clase de técnicas de tratamiento de gigantescos volúmenes de datos, fuera de los análisis y herramientas tradicionales. Este concepto engloba muchas ideas y aproximaciones, pero todas poseen un objetivo común: extraer información de valor de los datos, de forma que esta nos pueda ser de ayuda para las decisiones y los procesos de una actividad determinada.

Temas relacionados que te pueden interesar:

Funcionamiento del Big Data

Las soluciones basadas en el Big Data tienen como objetivo extraer información relevante mediante el análisis de grandes conjuntos de datos. Este análisis se fundamenta en técnicas matemáticas, generalmente basadas en la estadística, y que provienen de campos diversos como la minería de datos, el aprendizaje automático, el análisis de series temporales o la investigación operacional.

El concepto Big Data engloba infraestructuras, tecnologías y servicios que han sido creados para dar solución al procesamiento de enormes conjuntos de datos como: bases de datos, registros numéricos, texto libre, actividades en las redes sociales, señales de móvil, archivos de audio, sensores, imágenes digitales, datos de formularios, emails, datos de encuestas, logs etc.

Big Data. Extrayendo información de grandes volúmenes de datos

Mediante los tratamientos adecuados, cualquier conjunto de datos es susceptible de ser analizado. Escenarios donde nos encontremos con diversidad de tipos de datos en diferentes formatos también pueden tratarse mediante estrategias de integración de datos tendente a enriquecer la solución.

Características del Big Data

Las características entre las aplicaciones analíticas y de gestión y los nuevos conceptos del Big Data hacen referencia a cinco palabras denominadas las cinco Vs del Big Data:

  1. Volumen.
  2. Variedad.
  3. Velocidad.
  4. Veracidad.
  5. Valor del dato.

Estas 5 características del Big Data provocan que las empresas y organizaciones tengan problemas para extraer datos reales y de alta calidad, de conjuntos de datos de volúmenes tan masivos, cambiantes y complicados y que con el paso del tiempo aumentan de forma exponencial lo que podemos considerar como grandes volúmenes de datos.

Fuentes y tipos de datos

Con tantas fuentes, tipos de datos y estructuras complejas, la dificultad de integración de datos aumenta.

Las fuentes de datos del Big Data son muy amplias:

  • Internet y móviles.
  • Datos sectoriales recopilados por empresas especializadas.
  • Internet de las Cosas.
  • Datos experimentales.

Los tipos de datos también son:

  • Tipos de datos no estructurados: documentos, vídeos, audios, etc.
  • Datos semiestructurados: software, hojas de cálculo, informes, etc.
  • Tipos de datos estructurados. Solo el 20% del volumen total de los datos son considerados estructurados y eso puede llegar a provocar muchos errores si no acometemos un proyecto de calidad de datos.

Volumen de datos

Como ya hemos visto, el volumen de datos es enorme. Esto complica la ejecución de un proceso de calidad dentro de un período de tiempo razonable.

Es difícil recolectar, limpiar, integrar y obtener datos de alta calidad de forma rápida. Se necesita mucho tiempo para transformar los tipos no estructurados en tipos estructurados y procesar esos datos.

Mucha volatilidad

Los datos cambian rápidamente y esto hace que tengan una validez muy corta en el tiempo. Para solucionar este problema, necesitamos contar con un poder de procesamiento muy alto.

Big Data. Extrayendo información de grandes volúmenes de datos

Si no lo hacemos bien, el procesamiento y análisis basado en estos datos puede llevarnos a conclusiones erróneas, que nos pueden llevar a cometer errores en la toma de decisiones.

Estándares de calidad de datos unificados

El estudio de los estándares de calidad de los datos no comenzó hasta los años noventa, y no fue hasta 2011 cuando la Organización Internacional de Normalización, publicó las normas de calidad de datos ISO 8000.

Estas normas son muy recientes y necesitan madurar y perfeccionarse. Además, la investigación sobre la calidad de información aportada por el Big Data ha comenzado hace poco y apenas hay resultados.

La calidad de datos del Big Data es clave, no solo para poder obtener ventajas competitivas sino también para impedir que incurramos en graves errores estratégicos y operacionales basándonos en datos erróneos con consecuencias que pueden llegar a ser muy graves para nuestra actividad.

Diversos tipos de analíticas de datos

Analítica descriptiva

Consiste en almacenar y realizar agregados de datos históricos, visualizándolos de forma que puedan ayudar a la comprensión del estado actual y pasado de la actividad realizada. La analítica descriptiva nos cuenta cómo ha funcionado una determinada actividad hasta el momento actual.

Analítica predictiva

Se construye sobre la analítica descriptiva y usa modelos estadísticos avanzados para añadir a nuestra base de información datos que no conocemos. Esto se traduce en técnicas como la predicción de valores futuros en series históricas relativo a procesos, pero también la clasificación automática de textos u operaciones, o la segmentación de intereses y necesidades. De esta forma la analítica predictiva nos dice cómo va a funcionar una determinada actividad en el futuro.

Analítica prescriptiva

Supone el nivel más alto en la analítica y explota los niveles mencionados anteriormente junto con estrategias de optimización operativa para indicarnos qué acciones realizar en una determinada actividad para alcanzar los mejores resultados. Mediante la analítica prescriptiva podemos obtener recomendaciones automatizadas sobre el momento idóneo para ejecutar ciertos procesos u otras operaciones cuantificables de una actividad. Con la analítica prescriptiva podemos saber qué debemos hacer para optimizar una determinada actividad.

Big Data. Extrayendo información de grandes volúmenes de datos

El Big Data constituye una herramienta de mejora continua en cualquier tipo de actividad, y su grado de efectividad depende directamente de su correcta aplicación. Al no tratarse de un fin en sí mismo, sino de un medio, es necesario realizar un análisis en profundidad para poder llegar a implantar soluciones mediante el Big Data de forma efectiva.


¿Qué opinas del Big Data como posible herramienta de mejora continua? ¿Tienes experiencia en el análisis de grandes volúmenes de datos? ¿Consideras que hay posibilidad de que se puedan vulnerar los datos personales?
Esperamos tus comentarios del artículo. Si te ha parecido interesante el contenido, sería genial que lo compartieras en tus redes sociales. Si estás interesado en formar parte del mundo digital y disfrutar de sus oportunidades y beneficios, puedes contactarnos y estaremos encantados de colaborar contigo. Muchas gracias.

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Este sitio web utiliza cookies para que usted tenga la mejor experiencia de usuario. Si continúa navegando estará aceptando su uso y nuestra política de cookies. Pinche el enlace para mayor información.

ACEPTAR
Aviso de cookies