Inteligencia de negocios y big data para el mundo hispano parlante.

¡Subscríbase al boletín gratuito!


Inteligencia de Negocios en Español - Decideo.com





Casos de éxito

Google anuncia la nueva arquitectura del almacen de datos (data warehouse) de YouTube


, el 31 Agosto 2012 | Leído 585 veces

Principalmente construido a partir de herramientas desarrolladas por Google (Sawzall, Tenzing, Dremel ColumnIO, ABI Repports) el almacén de datos de YouTube muestra como Google está constantemente innovando y desarrollando herramientas que se pueden utilizar como base para soluciones empresariales en el futuro. Si Google eligiera un día comercializar estas soluciones desarrolladas internamente, muchos de los editores actuales podrían experimentar grandes inconvenientes.



Durante la quinta edición de la conferencia XLDB, llevada a cabo en la Universidad de Stanford en octubre de 2011, el ingeniero de Google Biswapesh Chattopadhyay presentó la arquitectura del almacén de datos desarrollada por la empresa Google, la cual está destinada al análisis del contenido de su servicio YouTube.

Datos que analizar: necesidades fuera de los estándares

Biswapesh Chattopadhyay,  ingeniero de Google.
Biswapesh Chattopadhyay, ingeniero de Google.
Las cifras de YouTube son enormes. De acuerdo con una infografía de Go-Gulf.com que compila diferentes datos, YouTube transmitiría en 2012 alrededor de 2 mil millones de videos diariamente, lo que representaría aproximadamente el 10% del ancho de banda del Internet global. Esta base de contenidos se amplía cada día con más de 800.000 vídeos, lo que significa que son descargados del sitio cerca de 24 horas de video por minuto. La base total de videos es de aproximadamente 15 millones de horas de material de archivo. Todo este contenido es el que YouTube debe recopilar y analizar en su almacén de datos, con el fin de optimizar su modelo de negocios: obtener altos beneficios económicos a través de la publicidad en sus contenidos.

Los videos, sus visualizaciones, los rastros de conexión, todo debe ser analizado en un almacén de datos que tiene más de un billón de líneas, lo que representa antes de su compresión varios petabytes de contenido. Cargar los datos diariamente por sí solo es un reto, ya que se debe dotar el almacén con varios cientos de terabytes de capacidad cada día.
Antes de que fuera comprada por Google, YouTube ya había utilizado algunas de las tecnologías disponibles en el mercado (Oracle, MySQL y así evitar que los costos explotaran al mismo ritmo que el aumento de la cantidad de videos publicados en el sitio, Python, Microstrategy ...). Entonces, Google decidió volver a desarrollar toda su arquitectura de BI entorno a las tecnologías internas de YouTube. A éstas tecnologías se les pueden atribuir sin menoscabo la etiqueta de Big Data, ellas se llaman Dremel, ABI Reports, Tenzing o Sawzall. Estos son los nombres de código interno utilizados por Google, por lo que probablemente usted nunca haya oído hablar antes de ellos. Algunas de estas tecnologías podrían mañana (o pasado mañana, más bien) estar disponibles en el mercado, bien sea comercializadas por Google, o como ya ha sido el caso, que sean distribuidas de forma gratuita mediante sus proyectos de código abierto.

¿Por qué volver a desarrollar herramientas ya existentes, en particular en la galaxia Hadoop? El hecho de que Google se enfrente a los volúmenes y a las limitaciones específicas de su caso, hacen que incluso las mejores herramientas en el mercado puedan ser inadecuadas para sus necesidades. Google además, es una empresa de tecnología que emplea a los mejores " científicos de la informática " de todo el mundo. Asimismo, una compañía de tecnología como Google tiene varios años de ventaja en el desarrollo de herramientas que, probablemente encontraremos dentro de algún tiempo en el mercado. Otra razón simple es el argumento económico. Google opera cientos de miles de servidores en todo el mundo; desarrollados para optimizar la relación potencia /precio. Sería una pena perder parte de los ahorros logrados por la optimización de las licencias de los softwares propietarios. ¡Para Google, a veces es simplemente más barato construir que comprar!

Esta situación no se produce sino tan solo en dos casos, al encontrarse en cualquiera de los extremos de la curva de utilización; cuando se tienen muy pocos usuarios y usted mismo desarrolla el software, ya que no existe ningún editor en el mercado que le sea rentable (a menudo en el caso del campo militar, por ejemplo); o cuando se tienen demasiados usuarios o demasiados servidores y es más beneficioso desarrollarlo que comprarlo.

Detalles de la arquitectura

Google anuncia la nueva arquitectura del almacen de datos (data warehouse) de YouTube
Los datos que entran al almacén de datos de YouTube provienen principalmente de tres fuentes:
- De los registros de conexión al sitio, lo que representa el mayor volumen.
- De MySQL que aloja el contenido del sitio, los videos y los metadatos.
- Google BigTable que contiene los datos ya analizados y los datos de otros sitios (como Facebook).

Para extraer los datos y alimentar el almacén, Google utiliza Sawzall y Tensing, dos proyectos internos;
El proceso de alimentación se complementa con desarrollos específicos en Python y el código de MapReduce.

El propio almacén de datos se almacena en formato ColumnIO, otro proyecto de base de datos por columna del liderado por Google, y bajo GFS.
Para extraer los datos del almacén, Google ha desarrollado de nuevo sus propias herramientas, una vez más por razones combinadas de costo y de rendimiento. Tenzing y Dremel se utilizan para consultar el almacén de datos directamente. Dremel puede ejecutar consultas ad-hoc, y en algunos casos para alimentar la herramienta de restitución, ABI Reports, que sustituye Microstrategy y Oracle Reports.

Las tres herramientas esenciales son Sawzall, Dremel y Tenzing. Dremel parece ser la más evolucionada y la herramienta en la que Google centra la mayor parte de sus esfuerzos de desarrollo. Las características de cada una de estas herramientas son complementarias: Tenzing es una capa de SQL que se basa en MapReduce, como Hive o HadoopSQL; Dremel es una herramienta diseñada para el análisis interactivo de grandes volúmenes de datos en "tiempo real".
Frente a estas tres herramientas de consulta, Google ha optado por combinar lo mejor en Dremel (que presentaremos en detalle en un próximo artículo en Decideo). Posteriormente, una vez Dremel esté dotada, por ejemplo, de funciones MapReduce, Tenzing debería desaparecer en su favor. Dependiendo de Dremel para conquistar clientes externos a Google, Google Big Query debería beneficiarse ampliamente de todas estas mejoras.
En la tabla a continuación, Google compara las tres herramientas, sus fortalezas y debilidades.

Google anuncia la nueva arquitectura del almacen de datos (data warehouse) de YouTube

La herramienta ABI Reports, "inteligencia de negocios hecho en Google"

Las herramientas existentes en el mercado no han logrado complacer los ojos de Google, inclusive tampoco para la parte de la restitución de datos. Como hemos mencionado anteriormente, no sólo el argumento financiero, por supuesto, sino también el ADN tan particular de la empresa. Google es una empresa de ingeniería apasionada por el desarrollo de herramientas y probablemente convencidos de que, en todos los ámbitos, lo hacen mejor que sus colegas.

Google se libera de sus antiguas herramientas de software propietario y desarrolla ABI Reports, (herramientas de Inteligencia de negocios) que Biswapesh Chattopadhyay presenta como una solución completa para la creación de informes y cuadros de mando. Conectada desde sus orígenes a Dremel y a ColumnIO, ABI Reports se basa en las herramientas de representación gráfica Google Chart Tools y algunos desarrollos posteriores en Flash.

Entre Dremel, la herramienta de consulta y ABI Reports. Google ha desarrollado también un componente middleware llamado Query Rewriter. El mismo, optimiza los cálculos durante la transmisión de datos entre el resultado de la consulta (Dremel) y la representación gráfica de los datos (ABI Reports).

La pregunta de comercialización

En resumen, la infraestructura puesta en marcha por Google para analizar la actividad de YouTube es claramente fuera de las normas:
- Fuera de normas por sus volúmenes de negociación descomunales (en almacenamiento y en datos nuevos a diario) por su infraestructura subyacente y por las necesidades analíticas del editor.
- Fuera de normas por los métodos de Google, sociedad de ingenieros en donde el desarrollo de software es parte de su ADN.

Google hizo lo correcto al desarrollar todas sus herramientas en lugar de comprarlas en el mercado. No hay que olvidar que el proyecto descrito en este documento se aplica a YouTube, pero las necesidades analíticas de Google son mucho más grandes. Y si bien YouTube sirve como parte del laboratorio interno de prueba para las nuevas soluciones, el análisis del motor de búsqueda y de inserciones publicitarias supera, sin lugar a duda, la potencia de todas las soluciones disponibles en el mercado.

Otras grandes empresas del sector de Internet como eBay, Facebook, Twitter o LinkedIn también están comenzando a desarrollar sus propias aplicaciones.

Una duda queda en el aire, ¿Cuál será la estrategia de Google con respecto a estas soluciones en el futuro? Con Dremel, ABI Reports, ColumnIO, etc.; Google tiene soluciones de software que podría satisfacer las necesidades de las grandes empresas que no compiten con Google. Sin embargo, todo esto forzaría a Google a dejar su papel de ingeniero - programador para hacer el de marketing y así asegurar las ventas. Aunque Google Apps parece comenzar a recoger algunos votos, todavía no es una ola gigante en el mercado de soluciones colaborativas de escritorio y empresariales. Google, probablemente no es capaz o simplemente no quiere participar en la comercialización de estos servicios. Sin embargo, algunos intentos comienzan a surgir como Google Big Query.

Finalmente, el futuro nos dirá si Google continúa con su política actual para abrir el código de algunos de sus desarrollos en beneficio de toda la comunidad, o si el editor cambia a proveedor de soluciones de inteligencia de negocios inherentemente adaptados al fenómeno "Big Data".

Bonus

La grabación del vídeo completo de la conferencia Biswapesh Chattopadhyay está disponible en línea. Así que usted puede verla en su totalidad a continuación.
También puede descargar las diapositivas del sitio de conferencias y tendrá la oportunidad de descubrir otros casos presentados en esta conferencia.




Nuevo comentario:
Facebook Twitter

Usted puede comentar o proporcionar más información a todos los artículos de este sitio. Los comentarios son libres y abiertos a todos. Sin embargo, nos reservamos el derecho a eliminar, sin previo aviso ni explicación, todo comentario que no cumpla con nuestras normas internas de funcionamiento, es decir, cualquier comentario difamatorio o sin relación con el tema del artículo. Así mismo, los comentarios anónimos son eliminados sistemáticamente si son demasiado negativos o muy positivos. Exprese sus opiniones, compártalas con los demás y asúmalas. Gracias de antemano. Igualmente, agradecemos tener en cuenta que los comentarios no sean enviados automáticamente a los redactores de cada artículo. Si usted desea realizar una pregunta al autor de un artículo, contáctelo directamente, no utilice los comentarios.


Twitter
Rss
LinkedIn
Google+
Facebook
Pinterest