Inteligencia de negocios y big data para el mundo hispano parlante.

¡Subscríbase al boletín gratuito!


Inteligencia de Negocios en Español - Decideo.com





Actualidades y análisis

El Internet de las Cosas en el corazón de Big Data


, el 16 Diciembre 2013 | Leído 494 veces

La cantidad de objetos cotidianos que cuentan con la capacidad de comunicación crece exponencialmente. Hay millones de dispositivos que cuentan con la facultad de transmisión de datos y van a ser miles de millones, o incluso en un futuro cercano decenas de miles de millones. Sin duda alguna, una mina de oro para la comercialización y para los empresarios que idean nuevos modelos de negocio. Pero, ¿cómo hacer frente a esta avalancha de datos?



Automóviles con conexión, medidores inteligentes o etiquetas RFID (Radio Frequency IDentification), los objetos conectados se multiplicarán a nuestro alrededor. L’iDate publicó recientemente un estudio en donde anuncia que serán más de 80 mil millones en todo el mundo para el año 2020. Muchos objetos con más o menos potencia, pero que transmiten datos que sus fabricantes u operadores de servicios tienen que recoger, almacenar y sobretodo analizar. ABI Research estima que el mercado del análisis M2M (Machine to Machine) alcanzará en 2013 1,9 mil millones de dólares, pero en 2018 se prevé que llegue a más de 14 mil millones de dólares. Indudablemente un reto técnico en términos de volumen, de velocidad y de precisión ¡una misión de la talla del fenómeno Big Data!

Linky, una evaluación a gran escala

El despliegue de millones de medidores inteligentes, 3,5 millones de parte de la empresa española Endeca, hace indispensable la puesta en marcha de una infraestructura Big Data para los proveedores de electricidad.
El despliegue de millones de medidores inteligentes, 3,5 millones de parte de la empresa española Endeca, hace indispensable la puesta en marcha de una infraestructura Big Data para los proveedores de electricidad.
Uno de los proyectos más ambiciosos en Francia es el despliegue de 35 millones de medidores inteligentes Linky, que ha provocado un aumento de la evaluación de soluciones para Big Data por parte del grupo EDF R&D Sigma. El experimento fue diseñado para validar las configuraciones que recogerán todos los datos enviados por estos medidores. La frecuencia de medición es cada 10 minutos, estos datos se deben multiplicar por los 35 millones de medidores que existen, lo que nos da más de 1,8 billones de registros que se deben almacenar cada año, lo que equivale a 120 TB de datos brutos. La configuración de destino debe ser capaz de almacenarlos a medida que van llegando, llevar a cabo el procesamiento previo de los datos y, sobre todo permitir consultas regulares y ad-hoc. Las pruebas han validado no solo las bases de datos relacionales tradicionales, sino también configuraciones de tipo Hadoop. Los datos se almacenan en el sistema de archivos HDFS antes de ser enviados al almacén de datos Hive, almacenando 11 meses de datos. Posteriormente, los últimos 3 meses son cargados en una base de datos HBase que permite las consultas tácticas. Con un clúster de 20 nodos (336 núcleos de cálculo), los resultados fueron considerados como buenos por el equipo de pruebas: la consulta de los datos de 7 días de consumo mundial (35 millones de medidores) se llevó a cabo en 19 min 24 segundos en Hive, una consulta ad hoc en 03 horas 16 minutos. Hive soportó hasta 211 consultas ad-hoc en 10 minutos y 0,95 consultas de datos simultáneas de los datos de un trimestre.

Las bases de datos relacionales resisten

Autolib rastrea la posición de sus 2000 vehículos. Una volumetría compatible con las bases de datos relacionales.
Autolib rastrea la posición de sus 2000 vehículos. Una volumetría compatible con las bases de datos relacionales.
Las pruebas de EDR R&D han demostrado que la configuración Hadoop podría soportar la carga de 35 millones de medidores. Ya algunos operadores de energía de Estados Unidos, como Duke Energy o Tennessee Valley Authority han elegido a Hadoop. La ERDF (Red de Distribución Eléctrica de Francia) está embarcada en este tipo de desarrollos pero un poco más limitados. El operador finalmente se fue por lo seguro, al optar por un almacén de datos de Teradata. Un comunicado publicado el 22 de octubre del 2013, anuncia la opción tomada por ERDF, sin detallar la configuración que se desplegará finalmente.
Por el momento, los nuevos enfoques ya sean las bases de datos NoSQL, Hadoop y Mapa/Reduce, aún están lejos de imponerse en el mundo de M2M. En este contexto, Sylvain Géron, director asociado de Polyconseil, la entidad informática de Autolib, empresa que da servicio de alquiler de automóviles eléctricos en París, dijo: ¡"Administrar grandes volúmenes de datos se hace desde hace casi 30 años! Lo que hay es un boom de cosas que realmente, no tienen nada nuevo. En Autolib manejamos un gran volumen de datos, sobretodo datos de geolocalización de nuestros vehículos y de sus terminales. Tenemos datos que se cargan constantemente para poder supervisar y asegurar el mantenimiento. Nosotros no somos Coyote, que deben rastrear millones de vehículos. Nosotros le hacemos seguimiento solamente a 2.000 vehículos”. Autolib analiza los datos de geolocalización con el fin de optimizar el posicionamiento de sus vehículos en las estaciones de carga y de hacer un balance de la flota para asegurar que siempre haya vehículos en cada distrito de París. "Desde un punto de vista técnico, no hay ningún impedimento para gestionar bases de datos de cualquier tamaño utilizando bases de datos relacionales. Es una forma de decir que las bases de datos no relacionales solas permiten gestionar manejar grandes volúmenes de datos. Hoy en día podremos hacerle frente a una multiplicación por 100 o por 1000 de nuestra flota de vehículos sin comprometer nuestra manera actual de gestionar los datos. "

¿El Big Data para el Internet de las Cosas es sinónimo de Cloud?

La generalización de las etiquetas RFID en la cadena de suministro conducirá a una explosión en el volumen de datos a procesar por las industrias y por las grandes cadenas de distribución.
La generalización de las etiquetas RFID en la cadena de suministro conducirá a una explosión en el volumen de datos a procesar por las industrias y por las grandes cadenas de distribución.
Para Romain Chaumais, cofundador de Ysance, las bases de datos relacionales de una u otra manera terminan pudiendo manejar los grandes volúmenes de datos generados por el Internet de las cosas: "Es cierto, las bases de datos relacionales son capaces de almacenar grandes volúmenes de datos. En la actualidad, las empresas de distribución pueden administrar varias semanas de recibos en sus bases de datos relacionales, de hecho hasta un mes o dos. Más allá de esto las bases tradicionales se desmoronan. Siempre se puede almacenar grandes volúmenes, pero la consulta no es funcional”. Él toma el ejemplo de una conocida marca francesa de distribución especializada que está estudiando este enfoque post-relacional para el desarrollo de un proyecto de utilización de la tecnología RFID. "Ellos comenzaron con una base de datos relacional y ahora están buscando una arquitectura objetivo que sea capaz de absorber el volumen de datos generado por estos chips”, dice Romain Chaumais. Son miles de millones de eventos que se van a generar, ya que se trata de la totalidad de los productos a lo largo de todo el recorrido logístico que van a ser rastreados desde la llegada de los productos en las paletas, su ubicación en los estantes, su venta y sus eventuales retornos. Frente a esta necesidad de almacenamiento y de análisis, los arquitectos Ysance optaron por una solución de Big Data en el Cloud. "Creo que en lo que concierne al Internet de las cosas, las aplicaciones Big Data y el Cloud están íntimamente relacionados", afirma Romain Chaumais. "Es muy difícil anticipar la volumetría de este tipo de aplicaciones, y la flexibilidad del Cloud es particularmente adecuada para estos casos. Para este proyecto, propusimos un almacén de datos basado en el servicio Cloud Redshift de Amazon Web Services."

Otros optan por las bases de datos de nueva generación. Yassine Faihe, experto en el análisis de Big Data en HP Vertica, reivindica con 2 clientes en Europa para su base de datos da HP Vertica en aplicaciones M2M: "Estamos posicionando Vertica particularmente para aplicaciones de mediciones inteligentes. Los datos se cargan en la base de datos con el fin de analizar los datos de consumo de los hogares y de las regiones y así poder anticipar los picos en la demanda y evitar los cortes de energía. Al igual que las bases de datos relacionales, Vertica es una base de datos SQL, pero con capacidad de gestionar grandes cantidades de datos, miles de millones de registros. El almacenamiento en columnas de datos tiene el efecto de agilizar el intercambio en un entorno distribuido. Vertica soporta el 'scale out' ofreciendo una escalabilidad lineal: si duplicamos el número de servidores entonces duplicamos la capacidad de la base. Gracias a esta característica Vertica puede manejar grandes cantidades de datos”. Yassine Faihe cree que Vertica no está en competencia directa con las bases de Hadoop "Vertica proporciona un rendimiento en tiempo real, mientras que Hadoop ofrece un procesamiento distribuido, muy robusto, en modo batch”. Un conector Hadoop permite que la base se comunique con un cluster Hadoop.

Hacia el final de las arquitecturas centradas en las bases de datos

Para hacerle frente a cualquier revés del mercado, Oracle ha aumentado en los últimos años el lanzamiento de dispositivos tipo: in-memory, NoSQL, Big data, dispositivos analíticos. Oracle está omnipresente en cada segmento de mercado. El gigante rojo considera que las arquitecturas de grandes volúmenes de datos del mañana estarán basadas, no en cualquiera de estos componentes, sino en su conjunto. Comprendiendo también un componente de tiempo real, en donde el Complex Event Processing se va a posicionar sobre la tendencia M2M. Este es el elemento que interceptará los mensajes, para así poder responder en tiempo real, realizar el primer tratamiento y finalmente ir al verdadero Big Data. Jérôme Marc, consultor de preventa de middleware de Oracle explica la posición del editor sobre este tipo de arquitecturas "Hadoop permite el almacenamiento y Map Reduce permite principalmente hacer procesamiento por lotes. Cuando se quieren analizar los datos en tiempo real, no es posible hacerlo con Map Reduce. Si, por ejemplo, queremos analizar las matrículas de los vehículos en tiempo real a partir del flujo de vídeo, entramos en lo que llamamos el fast data”. Una de los casos para las que Oracle sugiere la utilización de Oracle Event Processing (OEP) antes de su aplicación Big Data. Esto es lo que hizo la operadora japonesa NTT Docomo que analiza alrededor de 700.000 mensajes por segundo para estudiar el comportamiento de sus suscriptores de la red móvil.

El problema técnico parece resuelto, pero ...

Orange Business Services está involucrado en muchos proyectos de la eSalud en donde  su plataforma M2M es solicitada; es el caso de Weinmann para el seguimiento de los que padecen la apnea del sueño, o la monitorización en tiempo real en las pruebas de diabetes M- Salud Grand Tour.
Orange Business Services está involucrado en muchos proyectos de la eSalud en donde su plataforma M2M es solicitada; es el caso de Weinmann para el seguimiento de los que padecen la apnea del sueño, o la monitorización en tiempo real en las pruebas de diabetes M- Salud Grand Tour.
Los expertos creen que actualmente, los módulos tecnológicos del M2M y de su componente analítico están en pleno funcionamiento. Orange Business Services, por ejemplo, trabaja con Atos y Renault en el proyecto de los vehículos “conectados”, igualmente presenta su plataforma de desarrollo de aplicaciones M2M "Intelligent Aplicaciones Enabler" dentro de la aplicación homecareONLINE, que a través de un dispositivo conectado supervisa a distancia los pacientes con apnea del sueño. Capgemini ha desarrollado igualmente una plataforma M2M llamada e-Objects; se trata de una plataforma de procesamiento de mensajes M2M que la SSII francesa incluye dentro del grupo de aplicaciones para los medidores inteligentes.
Para Cédric Cormont , arquitecto y responsable de las bases de datos de la actividad aeronáutica y del espacio en Capgemini, un usuario regular del procesamiento de grandes volúmenes de datos generados por los satélites o por los instrumentos de los prototipos de los vuelos de prueba, el reto no se encuentra en la tecnología : "La tecnología está lista, es potente y escalable . Hoy en día, somos testigos de la convergencia entre las tecnologías M2M y Big Data para la adquisición, almacenamiento y análisis de estos datos. El Big Data permitirá superar las barreras de la información almacenada en silos. Lo que falta hoy en día son personas que entienden los datos, que sean capaces de analizarlos, necesitamos científicos de datos”. Thierry Picard, Director de Spikly , la agencia digital de Keyrus, añade: "Lo que cambian son las herramientas y los modelos de Data discovery puestos en marcha. Por ejemplo, los modelos estocásticos que se utilizan para identificar los comportamientos. En Francia, aún estamos en la etapa de la evangelización de este tipo de enfoque y los proyectos están aún en la etapa de estudios de factibilidad."




Nuevo comentario:
Facebook Twitter

Usted puede comentar o proporcionar más información a todos los artículos de este sitio. Los comentarios son libres y abiertos a todos. Sin embargo, nos reservamos el derecho a eliminar, sin previo aviso ni explicación, todo comentario que no cumpla con nuestras normas internas de funcionamiento, es decir, cualquier comentario difamatorio o sin relación con el tema del artículo. Así mismo, los comentarios anónimos son eliminados sistemáticamente si son demasiado negativos o muy positivos. Exprese sus opiniones, compártalas con los demás y asúmalas. Gracias de antemano. Igualmente, agradecemos tener en cuenta que los comentarios no sean enviados automáticamente a los redactores de cada artículo. Si usted desea realizar una pregunta al autor de un artículo, contáctelo directamente, no utilice los comentarios.


Twitter
Rss
LinkedIn
Google+
Facebook
Pinterest