Inteligencia de negocios y big data para el mundo hispano parlante.

¡Subscríbase al boletín gratuito!


Inteligencia de Negocios en Español - Decideo.com





Opiniones de expertos

Big Data: Hadoop y Spark o la fusión de archivos por lotes y en tiempo real!


Abed AJRAOU, el 14 Enero 2014 | Leído 588 veces

Recuerden que, en enero de 2013, Gartner predecía que el 65% de las aplicaciones analíticas se basarían en una plataforma Hadoop para el 2015. Hadoop tuvo una gran renovación en el 2013. Así que, regresamos nuevamente al principal avance de este año, que con toda seguridad va a cambiar nuestra forma de organizar los datos.



Hadoop beneficios y ganancias indiscutibles

Abed AJRAOU, PagesJaunes
Abed AJRAOU, PagesJaunes
En primer lugar, recordemos las ventajas de este framework:
• Costo de almacenamiento: es muy común encontrar empresas que no conservan en conjunto sus datos, únicamente por un problema de costo. De hecho, los datos de las bases de datos RDBMS históricas son con frecuencia eliminados para garantizar un rendimiento aceptable y sobre todo para no invertir más en una perspectiva de software e infraestructura. Ahora bien, ¡Hadoop permite almacenar a menor costo! Con un framework, que hace posible almacenar y mantener todos los datos, para el deleite de nuestros Data Scientist.
• Rendimiento: a diferencia de las bases de datos tradicionales, Hadoop permite a las aplicaciones examinar y analizar terabytes de datos de forma rápida y garantizando al mismo tiempo el rendimiento, utilizando un sistema de servidores de buen precio (cluster paralelo).
• Rapidez: la estructura distribuida de Hadoop HDFS (hadoop data file system) permite localizar y recuperar el dato donde se encuentre. Así que, Hadoop puede procesar consultas en cuestión de minutos sobre terabytes y petabytes en algunas horas.
• Flexibilidad: una de las principales características de Hadoop es poder almacenar y analizar al igual los datos estructurados que los datos no estructurados, ¡de la misma manera! Por lo tanto, se hace posible analizar y cruzar las bases de datos y los datos digitales.
• Robustez: map reduce de Hadoop no es sensible a los fallos de cluster de servidores. En otras palabras, el framewrok Hadoop se comporta de la misma manera en caso de fallos en el servidor.

La novedad del año 2013 – acabada la frontera entre el streaming y los archivos por lote

Ahora hablemos del núcleo de Hadoop con más detalle.

A pesar de todas estas ventajas, Hadoop está todavía en desarrollo de ser aún más eficaz. De hecho, uno de los mayores inconvenientes de Hadoop reside en la latencia de los tratamientos. El hecho de que toda petición utiliza el map reduce (mapear los datos y reducirlos usando todos los servidores), existe un tiempo de latencia incomprensible que depende también del número de servidores solicitados.

Después de esta comprobación, los trabajos han sido realizados. En 2012, nosotros descubrimos Impala, que permitía trabajar en tiempo real, con pérdida de la quinta ventaja, es decir de su robustez. En 2013 han surgido una serie de innovaciones. En primer lugar se mejoró la asignación de recursos, el map reduce de nueva generación (v2 o también llamado YARN), como se esperaba, ya está disponible. La arquitectura Hadoop ha cambiado un poco con la llegada del Ressource Manager que se encarga de gestionar todas las necesidades de Applications Master. Pero lo mejor esta aún por venir.

En noviembre 2013, Cloudera anunció apoyar a través de su proyecto Spark. Spark es un framework de Apache de tipo map/reduce (data-processing) que se conecta con Hadoop HDFS y permite a los servidores operar de manera más eficiente sobre todo en consultas iterativas que solicitan los datos repetidamente. Y por el bien de todos, Spark permite también simplificar los códigos de map/reduce. Para los que inician, el famoso tratamiento “wordcount” se codifica en tres líneas en Spark.

Este logro no es solamente tecnológico, sino que también puede cambiar nuestra forma de la arquitectura de datos. Hoy en día en las empresas, las diferentes arquitecturas de datos son implementadas para gestionar, por una parte las necesidades en tiempo real (“streaming”) y por otra las necesidades en modo de archivos batch (tipo tradicional Business Intelligence). Gracias a Spark, las dos arquitecturas pueden ahora estar vinculadas, lo que permite ahorrar en términos de implementación, mantenimiento y en términos de código de la aplicación. Esta conciliación de arquitecturas permite también acelerar una cultura corporativa basada en los datos.

¿La uniformidad de las arquitecturas batch y las arquitecturas de tiempo real constituirían el próximo avance de Big Data?




Comentarios

1.Publicado por Sergio Campos Valdés el 19/02/2014 08:34
En mi empresa hace un rato que veníamos tentados a probar Spark. Ahora que Cloudera le está dando soporte es más tentador. Por ahí saldrán sus PoT para ver que tal.

Nuevo comentario:
Facebook Twitter

Usted puede comentar o proporcionar más información a todos los artículos de este sitio. Los comentarios son libres y abiertos a todos. Sin embargo, nos reservamos el derecho a eliminar, sin previo aviso ni explicación, todo comentario que no cumpla con nuestras normas internas de funcionamiento, es decir, cualquier comentario difamatorio o sin relación con el tema del artículo. Así mismo, los comentarios anónimos son eliminados sistemáticamente si son demasiado negativos o muy positivos. Exprese sus opiniones, compártalas con los demás y asúmalas. Gracias de antemano. Igualmente, agradecemos tener en cuenta que los comentarios no sean enviados automáticamente a los redactores de cada artículo. Si usted desea realizar una pregunta al autor de un artículo, contáctelo directamente, no utilice los comentarios.


Twitter
Rss
LinkedIn
Google+
Facebook
Pinterest