Big Data: de la teoría a la práctica > 2. Características principales

Escrito por 28 octubre, 2015Tecnología
Características principales de Big Data

En la última entrega sobre Big Data hemos definido a que se refiere este concepto y cuáles son sus tres características principales. En esta entrega nos centraremos en explicar claramente cada uno de esos tres aspectos:  volumen, velocidad y variedad.

Volumen en Big Data

El beneficio obtenido de la capacidad de procesar grandes cantidades de información es el principal atractivo de análisis de Big Data y el volumen presenta el desafío más inmediato para las estructuras convencionales. Esto requiere de almacenamiento escalable y un enfoque distribuido a la hora de realizar consultas. Muchas empresas ya disponen de enormes cantidades de datos almacenados, posiblemente en forma de logs, pero no de la capacidad de procesarlos.

Suponiendo que los volúmenes de datos son más grandes de lo que las infraestructuras de bases de datos relacionales convencionales pueden hacer frente, las opciones de tratamiento se reducen a la elección entre arquitecturas de procesamiento masivo y paralelo o soluciones basadas en Hadoop de Apache que se tratará en mucho mayor detalle en el capítulo 3. Esta elección depende en gran medida por el grado de variedad de los datos. Generalmente un datawarehouse implica esquemas predeterminados, satisfaciendo un conjunto de datos regular y de lenta evolución. Apache Hadoop, por otro lado, no impone condiciones a la estructura de los datos que puede procesar.

En su esencia, Hadoop es una plataforma para la distribución de problemas de computación a través de un número de servidores. Desarrollado y publicado como código abierto por Yahoo, Hadoop implementa el enfoque MapReduce ideado por Google en la compilación de sus índices de búsqueda. MapReduce de Hadoop consiste en la distribución de un conjunto de datos entre varios servidores que funcionen con los datos: la fase «map». Los resultados parciales se recombinan posteriormente para obtener el resultado final: la fase “reduce”.

Velocidad en Big Data

La importancia de la velocidad de datos (la creciente tasa a la datos fluyen en una organización) ha seguido un patrón similar al del volumen. Problemas que antes se presentaban únicamente en algunos segmentos de la industria ahora aparecen en un en un entorno mucho más amplio. Empresas especializadas, como por ejemplo los operadores financieros, hace tiempo que han obtenido ventajas de los sistemas capaces de hacer frente a la velocidad con la que fluye la información. ¿Por qué no iban otras empresas a sacar el mismo partido de este tipo de tecnologías?

La era móvil y de internet significa que la manera en que producimos y consumimos productos y servicios se instrumentaliza cada vez más, generando un flujo de datos de vuelta al proveedor. Los minoristas en línea son capaces de recopilar grandes historiales partiendo cada clic y cada interacción de los clientes con sus plataformas web y no sólo partir de las ventas finales. Aquellos que son capaces de utilizar esa información de forma rápida, por ejemplo recomendando compras adicionales obtienen una ventaja competitiva. Con la llegada de los smartphones se ha unido a este flujo de datos una enorme cantidad de imágenes y audio geolocalizados.

El problema no se encuentra únicamente en la velocidad de los datos de entrada puesto que es posible transmitir datos a altas velocidades y almacenarlos para su posterior procesamiento por lotes. La importancia reside en la velocidad en la que se procesa el flujo de datos y en la que se extrae de ellos la información necesaria para obtener la ventaja competitiva. Al fin y al cabo de poco sirve un análisis exhaustivo de datos de hace 10 minutos cuando hay que tomar decisiones en cuestión de segundos.

Hay dos razones principales para considerar el procesamiento del flujo de datos. La primera es cuando los datos de entrada son demasiado llegan demasiado rápido como para ser almacenados en su totalidad: con el fin de almacenar los datos de una forma práctica es preciso cierto nivel de análisis a medida que los datos van llegando. La segunda razón se da cuando es necesaria una respuesta inmediata a los datos. Gracias al auge de las aplicaciones móviles y juegos en línea se trata de una situación cada vez más común.

Los productos para tratar con estos flujos de datos tan veloces se dividen en herramientas propietarias como InfoSphere Streams de IBM y frameworks menos avanzados, pero en continuo desarrollo como Storm de Twitter o S4 de Yahoo.

Como se ya se ha mencionado anteriormente, no se trata sólo de los datos de entrada. La velocidad de salida de un sistema también importa. Cuanto más corto sea el espacio de tiempo entre la llegada de los datos y el análisis de los mismos, mayor ventaja competitiva se podrá obtener. Los resultados podrían ir directamente a un producto, como recomendaciones de Facebook o a un cuadro de mandos utilizado para la toma de decisiones.

Es esta necesidad de la velocidad, sobre todo en la web, es la que ha impulsado el desarrollo de almacenamiento de clave-valor y bases de datos optimizadas para la recuperación rápida de información. Estas bases de datos se conocen como NoSQL y se utilizan cuando un modelo relacional convencional no cumple todos los requisitos.

Variedad en Big Data

Los datos no suelen presentarse de forma perfectamente ordenada, homogénea y listos para ser procesados. Una situación común en los sistemas de Big Data es que el origen de los datos diverso y no encaja en estructuras relacionales. Texto de redes sociales, imágenes, video o datos provenientes de sensores, ninguna de estas fuentes viene preparada por defecto para ser integrada en una aplicación.

Incluso en la web, donde la comunicación de ordenador a ordenador debe traer algunas garantías sobre el formato o el protocolo de comunicación, la realidad de los datos es desordenada. Diferentes navegadores envían diferentes datos, los usuarios ocultan información, diferentes versiones de una misma aplicación etc. Si hay personas involucradas, se puede dar por hecho que habrá errores e inconsistencias sin importar lo bien diseñado e implementado que esté un sistema.

Un uso común del procesamiento de gran cantidad de datos es tomar los datos no estructurados y extraer un significado ordenado, ya sea para el consumo por los seres humanos o como una entrada estructurada a una aplicación. El proceso de cambio de los datos de origen en bruto a datos procesados para una aplicación implica siempre la pérdida de una porción de la información. Al estructurar los datos se descarta aquello que no encaja en la estructura definida y esto es justo uno de los puntos que el Big Data quiere evitar: si es posible mantener toda la información es un desperdicio tirar una parte de ella simplemente para darle estructura al resto. En la información desechada podrían encontrarse señales o indicadores que podrían otorgar una ventaja competitiva. Si se pierden los datos de origen o porciones de ellos, no hay vuelta atrás.

A pesar de la popularidad y la naturaleza bien entendida de bases de datos relacionales, no en todos los casos deben ser el lugar en el que se almacenarán los datos, incluso cuando ya han sido preprocesados para darles una estructura. Ciertos tipos de datos se adaptan a ciertas clases de base de datos mejor. Por ejemplo, los documentos codificados como XML son más versátiles cuando se guardan en un almacén XML dedicada, las relaciones sociales de la red son gráficos por naturaleza y existen herramientas especializadas que hacen las operaciones con ellos más simples y eficientes.

Incluso cuando no existe un tipo de dato radicalmente incompatible con las bases de datos relacionales, la propia naturaleza estática de este tipo de bases de datos es una desventaja en esta situación. A la hora de trabajar en un entorno ágil y exploratorio los resultados de los análisis evolucionarán a medida que se procesen los datos y se extraigan de ellos más indicadores. Las bases de datos NoSQL semiestructuradas cumplen esta necesidad de flexibilidad: proporcionan suficiente estructura para organizar los datos, pero no requieren el esquema exacto de los datos antes de almacenarlos.

Join the discussion 3 comentarios

Dejar un comentario

Uso de cookies

Este sitio web utiliza cookies para que usted tenga la mejor experiencia de usuario. Si continúa navegando está dando su consentimiento para la aceptación de las mencionadas cookies y la aceptación de nuestra política de cookies.

ACEPTAR
Aviso de cookies