Inteligencia de negocios y big data para el mundo hispano parlante.

¡Subscríbase al boletín gratuito!


Inteligencia de Negocios en Español - Decideo.com





Actualidades y análisis

¿Hay que quemar las tradicionales bodegas de datos?


, el 20 Noviembre 2013 | Leído 496 veces

Con HANA, SAP ofrece un nuevo enfoque para la toma de decisiones. Sobre el papel, el in-memory y el almacenamiento en columnas permiten trabajar sobre los datos brutos y no consolidados. Un enfoque radical que deja obsoleto el almacén de datos tradicional y los procesos batch nocturnos. ¿Es hora de comenzar una nueva página en blanco?



Las tecnologías tradicionales de las bodegas de datos deberán convivir con los equipos de nueva generación en las salas blancas.
Las tecnologías tradicionales de las bodegas de datos deberán convivir con los equipos de nueva generación en las salas blancas.
¿Ha pasado de moda el Data Warehouse tradicional? A escuchar las declaraciones del VP de SAP, conducidas a la batalla por el patriarca Hasso Plattner, se da vuelta a la página. Las bodegas de datos estáticas, actualizadas en tiempo diferido con datos agregados por falta de espacio ya están obsoletas. Timo Elliot de SAP no duda en satanizar (un poco) el director de informática como el guardián del templo: “We don’t let people acess the data warehouse – that would slow it down too much” que podríamos traducir como “No dejemos que los usuarios accedan al almacén de datos – esto podría ponerlo demasiado lento”.
Con la reducción de costos de almacenamiento, la llegada de SSD y el aumento del poder de los procesadores, la realización de búsquedas en tiempo casi real o con tiempos de respuesta aceptables, sin que sea necesario preparar el trabajo en los datamarts, es ahora una realidad. SAP impulsa su base evidentemente en memoria HANA para conquistar el mercado, con cierto éxito. Con 2.100 clientes y una facturación de 149 M€ (+79%) en el último trimestre, HANA comienza a encontrar su lugar, mientras que las licencias de ventas de SAP tradicional disminuyen.
HANA permite notablemente acelerar SAP BW que realmente lo necesitaba. SAP ahora ubica a HANA como un componente central de Enterprise Data Warehouse (EDW), el almacén de datos global de la empresa y para los que consideraban HANA como una solución un poco liviana para sus necesidades, SAP les propone Sybase IQ desde el momento que los volúmenes de datos se conviertan demasiado importantes. Sybase IQ se clasifica dentro de la categoría de bases de datos peta-octeta por su fabricante.

El Data Warehouse se convierte en híbrido

Jean-Michel Franco, director de Soluciones en Business&Decision: “Siempre necesitaremos de los datos tradicionales, pero esto no será más el único componente central. A su lado, necesitamos una herramienta de búsqueda, de “Discovery”.
Jean-Michel Franco, director de Soluciones en Business&Decision: “Siempre necesitaremos de los datos tradicionales, pero esto no será más el único componente central. A su lado, necesitamos una herramienta de búsqueda, de “Discovery”.
Sin embargo, ¿qué empresa ha desechado el almacén de datos “histórico” para remplazarlo por estos programas de última generación? Configurar a grandes costos de aquí a 10 o 15 años para algunos, estas bases de datos representan todavía la memoria de la empresa y detenerlas puede resultar más complicado que algunos comerciales de SAP no lo esperan. Jean-Michel Franco, director de soluciones de Business&Decision explica: “El Data Warehouse, es un poco como el concepto de la larga cola (Long Tail): el permite trabajar los datos en un momento dado, sobre la duración, pero puede ser menos adecuado cuando se trata de trabajar sobre los datos no estructurados, cuyo esquema se establece a posteriori. Es un nuevo caso de uso”.

¿Qué usuario de Oracle Report o Business Objects no ha soñado tener de una herramienta de tipo Qlikview para explorar una idea o más simple, buscar el origen de un dato? La llegada de empleados deseando disponer de herramientas de navegación en tiempo real a través de los datos se ha interpelado por todos los actores del sector. Michel Bruley, director de marketing de Teradata/Aster para Europa reconoce que: “Durante años, la base de datos Teradata debía abordar todas las necesidades de las empresas en términos de almacenamiento de datos. Pero, Teradata ha evolucionado. El Data warehouse ha evolucionado: Hace 3 años producíamos servidores integrando las memorias SSD y la próxima versión de nuestra base de datos Teradata la integra “in-memory” desde su versión V14.10”.

Amaury Prévot-Leygonie, consultor BI y Data warehouse senior que trabaja para Keyrus añade que: “Para mí, veo dos tendencias importantes dentro del Data Warehouse: por una parte, la llegada de equipos especializados (appliances) como los que yo pude probar en Teradata y el Big Data. Los dispositivos, con almacenamiento en columnas de datos y las SSD, ofrecen altos rendimientos en el tratamiento de los datos extremadamente altos, esto ofrece una nueva facilidad de explorar los datos y el análisis”. El otro fenómeno, es Hadoop que va a venir a soportar los ETLs con algún número de procesamientos de datos donde tenían problemas de rendimiento: «Algunos flujos ETL podrán migrar hacia Hadoop, pienso sobre todo en el caso del Ministerio de Justicia para el análisis de los expedientes de los acusados. Estos documentos poco estructurados, todos diferentes con múltiples relaciones internas se prestan muy mal para la aproximación clásica SQL: la migración a Hadoop permite simplificar el análisis y ganar en velocidad”, explica Anaury Prévot-Leygonie que añade: “El Big Data, es la via HDFS, la posibilidad de almacenar datos sin estructura: nos salimos totalmente del enfoque tradicional: las cadenas de carga ETL no son desafiadas, pero con Hadoop podemos realizar cálculos que no podíamos realizar en SQL, es la V de variedad V con volumen, velocidad et veracidad.” Informatica, Talend… todos han añadido a sus ofertas un ladrillo o al menos una interfaz para las soluciones MapReduce, y el desplazamiento del cálculo de puntajes en un cluster Hadoop puede estar controlado a través del ETL.

El “Discovery” se ubica como complemento del almacén de datos

Golpeado por las nuevas tecnologías, el almacén de datos se mantiene inamovible como cimiento de la inteligencia de negocios de las empresas. Sin embargo, el deberá convivir con los nuevos componentes del sistema de información como lo señala Jean-Michel Franco: «Siempre necesitaremos de los datos tradicionales, pero esto no será más el único componente central. A su lado, necesitamos una herramienta de búsqueda, de “Discovery”. Esta es la propuesta de Teradata con su plataforma Aster que va posicionarse como una herramienta ágil, capaz de trabajar sobre los datos no estructurados, una herramienta destinada a un número más pequeño de usuarios. El concepto de base que hace todo, ha termiando. Incluso SAP, que se centra en HANA, terminó por integrar Sybase IQ en el alcance de su oferta. Todos los fabricantes lo entendieron y ahora todos tienen Hadoop en su catálogo». El desafío del almacenamiento de datos del futuro será convivir con estos dos mundos diferentes, sin multiplicar, una vez más los silos. Gartner llama a este concepto de almacenamiento de datos «lógica» (Logical Data Warehouse): un único almacén de datos de un punto de vista lógico, pero constituído por varios almacenes de datos, varios datamarts y con múltiples tecnologías subyacentes: relacional, NoSQL, no estructurada.

Michel Bruley espera que Teradata esté en ventaja y convenza a sus clientes: “Ofrecemos múltiples plataformas, incluyendo Aster y Hadoop. La integración de todas nuestras soluciones se hace con Teradata UDA (Unified Data Architecture) que asegura que estos componentes se comuniquen entre sí. La empresa contará con una plataforma de análisis que utilizará para lograr el descubrimiento entonces industrializará sus consultas sobre el Data Warehouse”.

¡El Data Warehouse monolítico murió, es hora de pasar al híbrido!




Comentarios

1.Publicado por Iván Amón el 26/11/2013 16:39
El artículo ¿Hay que quemar las tradicionales bodegas de datos? no explora asuntos importantes como la integración, la estandarización y la calidad de los datos, aspecto este último a menudo ignorado por los vendors de tecnología. Se intenta reducir el valor o el aporte de las bodegas de datos a un tema sólo de velocidad pero el aporte de éstas es mucho mayor.

Si se tienen que tomar datos de múltiples fuentes con fechas en diferenes formatos, con diferentes monedas, con un atributo género el cual tiene valores diferentes, con problemas de integridad referencial, con duplicados no idénticos y otros problemas de calidad de datos, ¿qué se hace bajo ese enfoque sin bodega de datos? El proceso de ETL fuera de integrar y unificar también mejora la calidad de lo que ven los usuarios. In-memory, bases de datos orientadas por columnas, SSD sólo mejoran la velocidad pero no estos aspectos vitales para tomar buenas decisiones con base en información confiable.

Alguna vez le pregunté esto a un vendor de un reconocido producto in-memory y me contestó cosas como:
- la calidad de los datos debe ser buena ...(ojalá fuera así: no hay sistema transaccional perfecto)
- si tiene varios duplicados de algo, resáltelos todos y la herramienta le unifica los valores .... (vaya solución)
- xxxx también puede hacer ETLs.

Ahora si aunque la herramienta sea in-memory y todo lo demás, también hay que hacer ETLs que ya sabemos consumen buena parte del tiempo de un proyecto de BI, ¿entonces dónde está la ganancia? ¿únicamente en la rápidez de las consultas? ¿y la calidad de la información, qué? Además, si estas herramientas tienen que hacer complejos procesos de ETL (por ejemplo para superar problemas de integridad referencial o para encontrar duplicados no idénticos) cada vez que le lancen una consulta, su rendimiento sigue siendo tan espectacular?

¿No será que lo que buscan los vendors con este mensaje agradable para los oídos son “bodegas de datos propietarias” que no puedan ser accesadas por otros productos y así “amarrar” a los usuarios a sus productos?.

El caso de los datos no estructurados es otro asunto, para el cual ya también existe solución. Bill Inmon tiene la tecnología ETL Textual en la cual se puede llevar datos no estructurados a la bodega (ver memorias Primer Congreso Colombiano de Inteligencia de Negocios en http://formacioncontinua.medellin.upb.edu.co/2013/BI/memorias.php)

Iván Amón - Coordinador Especialización en Inteligencia de Negocios UPB Medellín - Colombia

Nuevo comentario:
Facebook Twitter

Usted puede comentar o proporcionar más información a todos los artículos de este sitio. Los comentarios son libres y abiertos a todos. Sin embargo, nos reservamos el derecho a eliminar, sin previo aviso ni explicación, todo comentario que no cumpla con nuestras normas internas de funcionamiento, es decir, cualquier comentario difamatorio o sin relación con el tema del artículo. Así mismo, los comentarios anónimos son eliminados sistemáticamente si son demasiado negativos o muy positivos. Exprese sus opiniones, compártalas con los demás y asúmalas. Gracias de antemano. Igualmente, agradecemos tener en cuenta que los comentarios no sean enviados automáticamente a los redactores de cada artículo. Si usted desea realizar una pregunta al autor de un artículo, contáctelo directamente, no utilice los comentarios.


Twitter
Rss
LinkedIn
Google+
Facebook
Pinterest