Big Data: de la teoría a la práctica > 8. Resultados y conclusiones.

Escrito por 21 junio, 2016Tecnología
Big Data, resultados y conclusiones

Concluimos nuestro tutorial de Big Data: de la teoría a la práctica con los resultados a un problema real planteado inicialmente y demostrando, así, la utilidad que puede tener el uso de esta disciplina en los procesos actuales de una empresa.

Resultados

Cada indicador genera un documento de texto plano con los pares (clave a buscar, número de ocurrencias). De cada documento de resultados se pueden obtener conclusiones dependiendo del indicador. Un punto importante es que un gran porcentaje de los datos se concentra en Alemania, por lo que es de esperar que las ciudades y rutas con más apariciones sean de ese país.

CityOrigin

La ciudad de origen más repetida con un total de 21233 apariciones es “Langenhagen”. A primera vista esta ciudad no es conocida, pero teniendo un poco de conocimientos sobre carriers, la explicación es muy simple: la ciudad se encuentra junto a Hannover, muy cerca de su aeropuerto. En Langenhagen se encuentran los almacenes principales de un gran número de carriers de todos los tamaños por lo que es un núcleo muy importante.

En segundo lugar se encuentra Frankfurt, que es el que hubiera esperado ver en primer puesto, al tener uno de los aeropuertos europeos con mayor transporte de mercancías y por ser también un núcleo importante.

Las 5 ciudades de origen más repetidas:

Ciudad Nº de repeticiones
LANGENHAGEN 21233
FRANKFURT 18523
WANGEN 17886
GARCHING 16123
BIELEFELD 16092

CountryOrigin

Como era de esperar Alemania se encuentra en primer puesto de la lista de países de origen muy por encima de los demás.

En segundo lugar se encuentra Francia, casi duplicando a Italia en tercer puesto.

Lista de los países de origen más repetidos:

País Nº de repeticiones
DE (Alemania) 460004
FR (Francia) 8190
AT (Austria) 4651
IT (Italia) 3793
US (Estados Unidos) 3583

MostTravelledCities

Entre las ciudades por donde más paquetes pasan encontramos 3 de las 5 ciudades con más orígenes de rutas, pero en primer puesto encontramos Colonia, que se encontraba en el puesto 7 del indicador de ciudades de origen. Esto se debe a que Colonia es la ciudad más importante en el este de Alemania y además se encuentra suficientemente cerca de la frontera con Bélgica y Holanda para servir de nexo con esos países.

Las 5 ciudades más transitadas:

Ciudad Nº de repeticiones
KOELN (COLOGNE) 168631
FRANKFURT 165732
GARCHING 158067
LANGENHAGEN 155724
NURNBERG 109266

RepeatedCities

Tal y como expliqué en entradas anteriores, una ciudad puede aparecer varias veces en la misma ruta por dos razones:

  1. Se intentó trasladar el paquete al siguiente punto de la ruta, pero no fue posible por lo que vuelve al punto anterior.
  2. Se traslada el paquete entre dos almacenes en la misma ciudad.

Teniendo esto en cuenta, viendo que las ciudades en los 5 primeros puestos de este indicador son las mismas que en las ciudades más visitadas y que los valores en RepeatedCities están entre un 50% y un 70% de los valores de MostTraveledCities, se puede deducir que el número de repeticiones se debe más al traslado de paquetes entre almacenes. Las 5 ciudades son nexos importantes en Alemania: Colonia, Frankfurt, Garching (Munich), Langenhagen (Hannover) y Nuremberg y es de esperar que sean las ciudades con más tránsito de mercancías.

Las 5 ciudades con más repeticiones:

Ciudad Nº de repeticiones
KOELN (COLOGNE) 103933
GARCHING 99307
FRANKFURT 90338
LANGENHAGEN 82116
NURNBERG 62703

Routes

El resultado de este indicador me ha sorprendido bastante al no encontrar ninguna de las 5 ciudades más repetidas, más transitadas o con más paquetes de origen. Las 5 rutas contienen únicamente 3 ciudades:

  • Wangen, al sur de Alemania, muy cerca del lago Constanza y por lo tanto muy cerca de las fronteras con Suiza y Austria.
  • Erding, al norte de Munich.
  • Bielefeld, en la zona centro-norte de Alemania.

El hecho de que las 5 rutas contengan solamente 3 ciudades, y que las 3 ciudades se encuentran en zonas geográficas importantes, me hace pensar que esto se debe con mucha probabilidad a que son ciudades en las que los distintos carriers intercambian mercancías entre ellos para continuar cada uno con sus rutas, pero no puedo saberlo a ciencia cierta. También hay que tener en cuenta, que en el indicador RepeatedCities se eliminan las listas que contienen 2 ciudades.

Las 5 rutas más repetidas:

Ruta Nº de repeticiones
Wangen – Wangen 7262
Bielefeld – Bielefeld 2359
Wangen – Erding – Wangen 2018
Wangen – Wangen – Erding 1967
Erding – Wangen – Wangen 1966

Conclusión

En las entradas anteriores se ha planteado un problema real en un entorno empresarial y se ha puesto en marcha una solución y los resultados obtenidos, demostrando la utilidad que puede tener para una organización el Big Data.

El objetivo personal en esta serie de artículos no era comparar los tiempos de ejecución de las tareas con un número de nodos distintos, sino encontrar una solución a un problema existente en una organización, y demostrar que el Big Data está al alcance de todos, si se tiene un mínimo de conocimientos.

Con un gasto nulo en medios al aprovechar recursos ya existentes y con una inversión en tiempo moderada, se puede obtener información valiosa de la enorme cantidad de datos generados por una aplicación. En este caso se han podido obtener los puntos más conflictivos de los envíos mediante “RepeatedCities” y nuestra aplicación podrá sugerir un carrier distinto que sea capaz de llevar un paquete de A a B sin pasar por esos puntos conflictivos. También se han obtenido las rutas más transitadas, lo que puede servir a nuestros clientes para elegir las localizaciones de sus almacenes centrales en las ciudades de origen y destino de las rutas más usadas y así minimizar el transporte entre almacenes.

Sin embargo hay un punto muy importante en todo este ejercicio y es que no se trata de un análisis en tiempo real de lo que está ocurriendo. El siguiente paso sería poder analizar los datos a medida que se van generando y así poder obtener datos todavía más valiosos como, por ejemplo, un punto en la cadena de transportes que esté siendo especialmente problemático en este momento y poder así hacer todavía mejores sugerencias sobre las rutas a seguir. Para esta tarea sería recomendable el uso de Apache Spark, que sin ser exactamente Hadoop, sí que es compatible con algunos de sus módulos y es muchísimo más rápido. Mi jefe al ver los resultados ha decidido buscar tiempo para realizar unas pruebas similares a las ya realizadas, pero en tiempo real.

Sin duda, esto ha servido para que la empresa valore las posibilidades del Big Data y para que se dé cuenta de que no es algo al alcance de las grandes compañías, sino también de las pequeñas y medianas organizaciones.

Join the discussion Un comentario

Dejar un comentario

Uso de cookies

Este sitio web utiliza cookies para que usted tenga la mejor experiencia de usuario. Si continúa navegando está dando su consentimiento para la aceptación de las mencionadas cookies y la aceptación de nuestra política de cookies.

ACEPTAR
Aviso de cookies