Big Data: de la teoría a la práctica > 5. Herramientras II

Escrito por 13 mayo, 2016Tecnología
Herramientas de Big Data (parte II)

Una semana más les traemos un nuevo artículo sobre Big Data: de la teoría a la práctica. En este nuevo post continuamos conociendo las herramientas que nos ofrece Hadoop.

Distribuciones Hadoop

Las distribuciones de Hadoop están diseñadas para el entorno empresarial. El mercado está dividido entre unos pocos proveedores, aunque continuamente aparecen nuevos competidores que buscan su cuota de mercado. La extensión de las distribuciones es diferente entre cada una de ellas, pero los componentes más importantes como Pig, Hive o HBase están incluidos en todas ellas en algunos casos son incluso extendidas por desarrollos específicos del proveedor. El ciclo de lanzamiento de nuevas versiones se encuentra normalmente entre los 3 y los 6 meses y lasdistribuciones no contienen siempre la última versión de cada componente. Esto se debe precisamente al objetivo de asegurar que todos los módulos y sistemas son compatibles entre ellos y funcionen de forma conjunta. Todas las distribuciones comerciales disponen además de herramientas para la instalación y administración de clústeres y ofrecen opcionalmente soporte comercial.

A continuación se presentarán algunas de las distribuciones más importantes.

Cloudera

cloudera

La más utilizada actualmente. Dispone de  herramientas de pago para la administración de clústeres y también de un proyecto de código abierto llamado Impala para la consulta masiva de datos en tiempo real. Existe una versión gratuita de la distribución, pero para el uso comercial es necesario adquirir de una licencia cuyo coste dependerá del clúster que se quiera montar y que incluye soporte.

Hortonworks

hortonworks

Una distribución de código abierto que no requiere de ninguna licencia para ser utilizada. Los desarrollos que realiza Hortonworks se incluyen directamente en los proyectos de código libre de Hadoop y esta distribución es además una de las fuerzas impulsoras de Hadoop 2.0. Una de las grandes ventajas de esta distribución es su cooperación con Microsoft, lo que ha hace una de las pocas (si no la única) de funcionar sobre Windows y Azure.

Aunque la distribución en si no requiere de licencias, Hortonworks ofrece soporte comercial cuyos costes dependen del tamaño del clúster a utilizar.

MapR

mapr

Esta distribución se diferencia de las demás en que hace uso directo de sistema de archivos Unix, por lo que ofrece una alternativa a HDFS. Dispone también de una versión gratuita, pero el uso comercial requiere una licencia cuyo coste depende del tamaño del clúster y que da acceso a soporte profesional.

Amazon Elastic Map Reduce

amazon

Distribución de Amazon para sus entornos en la nube EC2 y S3. La distribución está diseñada para utilizar S3 como almacenamiento en vez de HDFS. Una gran ventaja de esta distribución es que Amazon se hace cargo por completo de la administración de los clústeres, pero a cambio deben convivir con la desventaja que supone que S3 sea bastante más lento que HDFS. El precio dependerá de los recursos que se consuman, como por ejemplo CPU y memoria.

Elección de una distribución

La elección de una distribución u otra no depende en gran medida de las herramientas que implementan puesto que en ese sentido son muy similares entre ellas. Las preguntas más importantes son:

  • ¿Atarse a un proveedor es un problema?
  • ¿A cuánto ascienden las licencias necesarias?
  • ¿Quiere o necesita la organización administrar el clúster?
  • ¿Qué soporte es el más indicado para las necesidades de la empresa?

Suites de Big Data

El uso de suites para Big Data tiene como objetivo facilitar el uso de Hadoop a analistas y usuarios finales dentro de una organización además de permitirles usar herramientas que ya conocen.

Las suites de Big Data ofrecen las siguientes prestaciones:

Entorno integrado

Existe un entorno gráfico e integrado. La mayoría de las veces este entorno está basado en Eclipse con plugins de desarrollo propio que permiten el uso de las diferentes funciones y simplifican el desarrollo

Visualización

Las herramientas estándar de Hadoop limitan la visualización de los datos (casi únicamente) a la línea de comandos. Las suites de Big Data traen consigo herramientas gráficas con las que visualizar y manejar los datos almacenados en HDFS.

Análisis en tiempo real

Al explorar y analizar datos es muy importante obtener respuestas en tiempo real y no tener que esperar a tareas largas de MapReduce para encontrar al final un error que ha dejado sin valor la consulta realizada. Es por esto que estas suites utilizan distintas técnicas como la precompilación y la reducción de los datos para realizar pequeños prototipos que se utilizarán sobre una cantidad reducida y representativa de los datos antes de invertir el tiempo necesario para realizar la consulta sobre los datos completos y reales.

Modelado y generación de código

En muchos casos los analistas no pueden crear ellos mismos el código MapReduce necesario por mucho que este sea la base de Hadoop. Pig y Hive ofrecen cierta ayuda en este aspecto haciendo uso de lenguajes más similares al scripting o a SQL, pero las suites de Big Data van un paso allá ofreciendo entornos gráficos con los que generar automáticamente las tareas MapReduce.

Join the discussion Un comentario

Dejar un comentario

Uso de cookies

Este sitio web utiliza cookies para que usted tenga la mejor experiencia de usuario. Si continúa navegando está dando su consentimiento para la aceptación de las mencionadas cookies y la aceptación de nuestra política de cookies.

ACEPTAR
Aviso de cookies