Inteligencia de negocios y big data para el mundo hispano parlante.

¡Subscríbase al boletín gratuito!


Inteligencia de Negocios en Español - Decideo.com





Casos de éxito

Siemens combina Hadoop y Teradata para recolectar 300 millones de datos de sensores


, el 18 Septiembre 2016 | Leído 428 veces

Siemens está presente dentro de numerosos sectores industriales, y tiene más de 300 000 empleados en todo el mundo. Pero hoy nos llamó la atención una de sus actividades, la fabricación, instalación y mantenimiento de turbinas a gas. Estas imponentes máquinas sirven para transformar el gas en energía eléctrica. Siemens opera varios miles de máquinas de este tipo en el mundo, vendidas a compañías de producción de electricidad. Los 5000 sensores equipados en cada máquina han generado, hasta ahora, más de 300 millardos de datos.



Pasar de Microsoft Excel al análisis predictivo

Cada turbina de gas de Siemens posee 5000 sensores
Cada turbina de gas de Siemens posee 5000 sensores
El mercado del suministro de energía, es como todos los demás sectores, afectado por la evolución de sus modelos económicos. Los clientes de Siemens, productores de electricidad, deben hacer frente a varios cambios en su sector: fuentes de energía más descentralizadas e irregulares, la producción por encargo, la personalización en masa, el desarrollo del mantenimiento predictivo, y maquinarias capaces de auto diagnosticarse y de ser reparadas de forma remota. Responder a estos desafíos de sus clientes significa para Siemens el desarrollo de nuevos softwares, y la evolución en torno a una oferta de servicios más completa. El cliente no solo compra una turbina de gas, sino que adquiere todo el servicio que constituye mantenerla a toda su capacidad de producción. “La electrificación, automatización y la digitalización, son los objetivos para el crecimiento a largo plazo de Siemens”, explica Bruce Baum, arquitecto de Big Data en Siemens.

Hoy en día se inclina por una aplicación precisa, que consiste en optimizar el funcionamiento, comprender y predecir los incidentes, sobre las turbinas industriales a gas. Cada turbina instalada está actualmente equipada de 5000 sensores, cada uno capaz de generar hasta un dato por segundo. La arquitectura lógica se basa en redes neuronales para analizar los datos generados.

En medio de este análisis está el mantenimiento predictivo. Pero el desgaste de piezas mecánicas no es una ciencia exacta que pueda ser perfectamente modelada. De esta forma, los ingenieros deben encontrar correlación entre los datos no estructurados que se recolectan, los datos operacionales y las medidas precisas manuales del desgaste de ciertas piezas. Una vez descubiertas estas relaciones estadísticas, hace falta calcular y predecir las mejores frecuencias para el remplazo de cada pieza; de hacer esto muy tarde, se corre el riesgo de fracasar, y su consecuencia financiera sería el aumento de los costos tarde o temprano.

La infraestructura puesta en marcha por Siemens permite automatizar y perfeccionar todas las fases de recolección y de análisis de datos, que ya estaban hace algún tiempo, realizadas en gran medida y de forma manual en Excel.
Cada turbina puede ser analizada en todo su ciclo de vida, ya sea conservando los datos por más de diez años. Actualmente, miles de millones de datos pueden mantenerse almacenados, y ser analizados por más largos periodos que en el pasado. El periodo de análisis previamente era limitado a dos meses.

Sobre todo, no estará por parte de los analistas recolectar y organizar los datos, el sistema lo hace por ellos, y así pueden centrarse en el análisis de los datos producidos. Con el sistema antiguo, se ocupaba un día a la semana en la preparación de datos.

Una arquitectura “Big Data”

Bruce Baum, Arquitecto Big Data de Siemens comparte su experiencia en la conferencia Teradata Partners 2016.
Bruce Baum, Arquitecto Big Data de Siemens comparte su experiencia en la conferencia Teradata Partners 2016.
El volumen de datos es importante, y también lo es generarlos en flujo continuo. Estas turbinas a gas funcionan las 24 horas, y son, por lo tanto, 432 millones de datos que pueden ser generados al día por cada turbina. Siemens ha creado un lago de datos (data lake) dentro de Hadoop, el cual almacena hoy más de 300 millardos de líneas de datos. Siguiendo el principio del lago de datos, se aplica un “schema on read”. Es decir, que los datos son simplemente depositados en HDFS, sin modelización. Es en la lectura de los datos que el modelo será construido. Esto tarda un poco más en la fase de lectura, pero según Siemens, es indispensable para mantener la calidad de los datos en un flujo de tal magnitud.

Es entonces, a partir de un tratamiento por lotes que los datos son seleccionados y desplazados de Hadoop a Teradata, Siemens utiliza la solución de integración de datos Teradata QueryGrid, que permitirá procesar hasta 10 TB de datos por segundo. Sobre los 300 millardos de datos almacenados dentro de Hadoop, solo 75 millardos son conservados e integrados dentro del almacén de datos de Teradata, varios pasos permiten refinar los datos, hasta un data mart que no contiene más de 30 millones de líneas. La herramienta Teradata BTEQ participa igualmente en estas fases de carga/transformación.

El mercado de datos construido encima de los datos en bruto es multidimencional. Combina los datos y los pone a disposición de los usuarios, que pueden o bien dirigir sus consultas, o usar una herramienta de visualización gráfica como Tableau, que dispone de un conector con Teradata.

Particularidad de los datos de los sensores

Creer que cada sensor envía religiosamente, un dato cada segundo, y 5000 sensores estarán perfectamente sincronizados y enviarán datos temporizados… es casi como creer en Santa Claus, la realidad del mundo de los sensores es otra.

En primer lugar, un dato proveniente de un sensor no tiene sentido si no es puesto en contexto. Si un sensor indica una temperatura de 120°, este puede ser enorme dentro de ciertos contextos, completamente normal en otro, y estar debajo del estándar en un tercer contexto. Los datos pueden ser enviados a distintas velocidades, y es ilusorio esperar recibirlos de manera sincronizada.
Por último, algunos sensores envían información cuando el dato cambia; o incluso cuando este evoluciona en cierto porcentaje. El resto del tiempo, el sensor está en silencio, lo que indica que el último dato aun es válido. Pero estos “agujeros negros” dentro de la emisión de datos a veces son difíciles de interpretar; como el diferenciar un sensor silencioso a uno que con el cual se haya perdido la conexión. Por una misma turbina, algunos sensores pueden enviar miles de datos por día.

Por lo tanto, es necesario alinear las variables que haya, para identificar anomalías eventuales y comparar elementos similares. Según Siemens, esta alineación de datos temporales representa una dificultad real con los lenguajes de programación tradicionales y las bases de datos habituales. De esta forma, un tratamiento debe ser realizado con anticipación, a fin de alinear los datos.
Esto requiere el uso de un nuevo tipo de datos: “Period Data Type”, que consiste en un par de marcas temporales, el punto de inicio y el punto final. Este tipo de datos, utilizado dentro de las instrucciones SQL, permite alinear los datos de todos los sensores de un mismo periodo. En una consulta SQL, los periodos pueden limitarse a responder a preguntas específicas.

El trabajo del equipo de “arquitectura” se detiene en el suministro de datos, validados y organizados, limpiados y en un buen formato, que son entonces recuperados por el equipo de análisis de datos.




Nuevo comentario:
Facebook Twitter

Usted puede comentar o proporcionar más información a todos los artículos de este sitio. Los comentarios son libres y abiertos a todos. Sin embargo, nos reservamos el derecho a eliminar, sin previo aviso ni explicación, todo comentario que no cumpla con nuestras normas internas de funcionamiento, es decir, cualquier comentario difamatorio o sin relación con el tema del artículo. Así mismo, los comentarios anónimos son eliminados sistemáticamente si son demasiado negativos o muy positivos. Exprese sus opiniones, compártalas con los demás y asúmalas. Gracias de antemano. Igualmente, agradecemos tener en cuenta que los comentarios no sean enviados automáticamente a los redactores de cada artículo. Si usted desea realizar una pregunta al autor de un artículo, contáctelo directamente, no utilice los comentarios.


Twitter
Rss
LinkedIn
Google+
Facebook
Pinterest