Inteligencia de negocios y big data para el mundo hispano parlante.

¡Subscríbase al boletín gratuito!


Inteligencia de Negocios en Español - Decideo.com





Actualidades y análisis

El concepto de «data lake» – lago de datos: texto explicativo


, el 28 Abril 2014 | Leído 2169 veces

En los últimos meses, vemos aparecer en artículos y revistas el término de «lago de datos», la mayoría de las veces bajo el término en inglés de «data lake». Nuestros datos no serían más almacenados en «bodegas» de datos sino en forma de lagos. ¿Se ha avanzado o es un nuevo concepto de marketing que desaparecerá tan rápidamente como apareció?



El concepto de «data lake» – lago de datos: texto explicativo
Los datos operacionales de la empresa son almacenados en bases de datos, las mayorías de las veces estructuradas y relacionales. Estas son estructuradas en el sentido que conservan su estructura, sino también porque ellas mismas son provistas de una estructura. Tablas, campos, dimensiones, variables, todo se combina para estructurar los datos antes de ser almacenados. Luego son conservadas en esta estructura y accesibles fácilmente utilizando esta estructura como medio de navegación.

La principal desventaja de este modo de funcionamiento son las modificaciones de estructura que pueden llegar a ser complejas, costosas en recursos de máquina y a veces hasta imposibles de aplicar sin perder una parte de los datos. La elección inicial de modelado de la base de datos son estructurados.
Esto perfectamente se aplica a los datos de gestión, financieros, permanentes pero resulta menos adaptado cuando no se conocen previamente los distintos tratamientos que se aplicarán.

Después de los centros de datos, también estructurados como las bases de datos operacionales, aparecieron las bodegas o almacenes de datos. Los «data warehouses» ayudaron a centralizar todos los datos estructurados en silos dentro de las bases de datos operacionales, y a combinarlos dentro de un solo almacén o bodega.
Entonces hemos aplicado una modelización en estrella con el fin de guardar el detalle de la información hasta la granularidad más débil, y de aplicarle el máximo de dimensiones posibles para maximizar las posibilidades de agregaciones y de búsquedas.

Si la información más detallada ha sido conservada, es posible modificar los ejes de búsqueda y las dimensiones. Pero a menudo es necesario, por razones de costo o simplemente de espacio de almacenamiento, elegir y en el momento de la modelización en estrella, las reagrupaciones son realizadas quienes también acaban en una forma estructurada de información.

Por otra parte, el modelado en estrella es adecuado para los datos estructurados, relativamente predecibles. Es menos adecuada para datos no estructurados como los datos de las redes sociales.

La aparición de sistemas de almacenamiento escalables como Hadoop abrió nuevas perspectivas. Cuando la necesidad es almacenar grandes volúmenes de datos de estructuras variables, pero sobre todo de las que no se sabe muy bien de antemano como van a ser utilizadas y analizadas, aparece el concepto de lago de datos.

Esquemáticamente una base de datos relacional, o un almacén de datos, son estructuras verticales. La estructuración de las jerarquías, las dimensiones, les da la verticalidad y la estructura. Estas son difíciles de descomponer si se desea modificar la organización.
Es un poco como un rascacielos, si su almacén de datos asciende y conserva cada vez más datos, derribarlo se vuelve problemático si usted desea cambiar el ángulo de análisis.
Un lago de datos es a la inversa, totalmente plano y sin estructura. Los datos son conservados sobre el mismo plano. La estructura es entonces creada en el momento del análisis. Hablamos de «data lake» pero también «data reservoir», reserva o depósito de datos.

Primeros casos de la noción de data lake

Una búsqueda rápida en nuestro buscador preferido muestra casos ya antiguos del uso del término «data lake». En 1999, Dorian Pyle escribe en “Data Preparation for Data Mining Volume 1”: “In truth, corporations have huge data “lakes” that range from comprehensive data stores to data warehouses, data marts, and even data 'garbage dumps'”.

Varias compañías están llevando la batuta hoy en este concepto como es el caso de DataLakes, editor americano que posee una solución analítica dedicada al Big Data; pero está también Pivotal, filial de EMC lanzada el año pasado para reunir las competencias en Big Data del fabricante. Pivotal se asocia con Capgemini con el fin de promover el concepto de «Business Data Lakes».

Ventajas y desventajas

Esta estructura plana de lago de datos se adapta bien a los datos de los cuales decidimos mantener la historia sin necesidad de saber de antemano cuáles análisis les serán aplicados.
Manteniendo los datos en bruto y sin estructura, ninguna elección previa restringe las posibilidades posteriores de análisis. Esta noción de lago de datos se adapta perfectamente con la arquitectura Hadoop. Hadoop no es una base de datos, sino un sistema de gestión de archivos.
Los datos son almacenados allí en una forma de multitud de archivos distribuidos. Y es en el momento de la fase de análisis que los datos son reagrupados y que una eventual estructura es creada.
Conservar, por ejemplo, los logs de un sitio web durante varios años, los tuits mencionando unos temas, los estados sociales, los comentarios de los blogs, las fotos etiquetadas… todo esto sin saber previamente cómo estos datos serán cruzados en el futuro, he aquí un buen ejemplo de «data lake».

Desde luego, la otra cara de la moneda es que la creación de la estructura en cada análisis consume los recursos de máquina. El «data lake» no es adaptado a los análisis repetitivos donde la estructura de datos debería ser recalculada por cada nuevo estudio.

En conclusión, el concepto de lago de datos / data lake, es recomendado para grandes volúmenes de datos de los que no se conocen a priori las estructuras analíticas. Por lo tanto, es un complemento del «data warehouse» que se mantiene como la estructura mejor adaptada al análisis repetitivo y comparativo de los datos estructurados de la empresa.

Y usted, ¿qué piensa de esto? ¿Ha experimentado esta nueva forma de almacenamiento de datos? ¿A cuáles aplicaciones le parece que se puede adaptar o para cuáles no la recomienda?




Comentarios

1.Publicado por Alberto el 23/03/2015 04:36
Una pena la traducción de algunos fragmentos que hace el texto difícil de entender...

Nuevo comentario:
Facebook Twitter

Usted puede comentar o proporcionar más información a todos los artículos de este sitio. Los comentarios son libres y abiertos a todos. Sin embargo, nos reservamos el derecho a eliminar, sin previo aviso ni explicación, todo comentario que no cumpla con nuestras normas internas de funcionamiento, es decir, cualquier comentario difamatorio o sin relación con el tema del artículo. Así mismo, los comentarios anónimos son eliminados sistemáticamente si son demasiado negativos o muy positivos. Exprese sus opiniones, compártalas con los demás y asúmalas. Gracias de antemano. Igualmente, agradecemos tener en cuenta que los comentarios no sean enviados automáticamente a los redactores de cada artículo. Si usted desea realizar una pregunta al autor de un artículo, contáctelo directamente, no utilice los comentarios.


Twitter
Rss
LinkedIn
Google+
Facebook
Pinterest