Inteligencia de negocios y big data para el mundo hispano parlante.

¡Subscríbase al boletín gratuito!


Inteligencia de Negocios en Español - Decideo.com





Opiniones de expertos

Data Science en el siglo XVII


Marcelo R. Ferreyra, Dataxplore, el 22 Diciembre 2015 | Leído 551 veces

A principios del siglo XVII Johannes Kepler, un alemán contemporáneo de Galileo, tuvo acceso a la base de datos más extensa y precisa sobre el movimiento de los planetas que existía en esa época. Había sido confeccionada laboriosamente por Tycho Brahe, quien tenía cualidades excepcionales para medir sin telescopio y de forma muy precisa las posiciones de los astros. Utilizando estos datos y luego de varios años de arduo trabajo, Kepler pudo encontrar tres leyes que explicaban y predecían el movimiento de los planetas, o dicho más poéticamente, la armonía de los planetas, como él le llamaba a las relaciones matemáticas que rigen la danza de los planetas.



Marcelo R. Ferreyra, Fundador y director de Dataxplore
Marcelo R. Ferreyra, Fundador y director de Dataxplore
Kepler fue sin duda un Data Scientist o Científico de Datos. Los datos con los que trabajó eran una abstracción de una parte del mundo y representaban mediante números algo que era importante conocer. El trabajo de Kepler era encontrar regularidades en los números que permitiera expresarlos de manera simplificada. Su esfuerzo resultó exitoso, finalmente pudo describir el comportamiento de los planetas mediante ecuaciones que capturaban las relaciones entre estos números.

El trabajo de un Data Scientist actual no difiere demasiado. Cuenta con una montaña de datos que utilizará para resolver algún problema, algunas hipótesis que utilizará para abordar el análisis y herramientas que facilitarán su tarea.

Las empresas han venido almacenando datos desde hace muchos años, pero en muchos casos el propósito de hacerlo no necesariamente coincide con el actual. Si los datos fueron almacenados desde una perspectiva contable, quizás existan muchos detalles que no fueron importantes en aquel momento pero que ahora sí lo son. Sea como sea, es muy probable que los datos tengan valor. Quizás no todo lo deseable, pero como en todo proyecto de análisis de datos hay que trabajar con lo que se cuenta. Siempre será mejor que nada.

Una vez que se tiene acceso a los datos comienza la etapa de orden, limpieza y selección. Es casi una regla que existan errores, campos incompletos, información redundante, etc. Existen varias metodologías y buenas prácticas cuyo objetivo es finalizar con un conjunto de datos relevante para analizar en busca de alguna posible solución del problema.

Ahora es tiempo de buscar relaciones entre variables, patrones que se repiten en el tiempo y/o en el espacio. Hay que disparar con todo el arsenal disponible, desde simples consultas con el propósito de confirmar o refutar hipótesis hasta algoritmos capaces de agrupar datos similares (clusters) en forma automática, crear mapas de información o crear modelos que explican y predicen.

Pero no toda la información que contienen los datos es útil. Para averiguarlo es necesario contextuar la información. Darle la perspectiva del negocio. Jamás hay que olvidar que la meta final es resolver un problema.

Todo proyecto de Data Science necesita al menos tres patas: tecnología, análisis de datos y contexto del negocio. Tycho representaba la tecnología de la época. Su tarea como proveedor de datos fue excelente pero aún era necesario analizarlos y darles valor. Kepler reunía ambos perfiles. Tenía una mente matemática brillante, sabía lo que buscaba y era capaz de entender lo que encontraba.

La tecnología actual ha permitido incrementar la cantidad y la diversidad de datos disponibles de una manera asombrosa. Aunque el de Data Scientist es el perfil buscado para sacar el máximo provecho de esos datos, su acción se fortalecerá en impacto y se multiplicará en posibilidades con un abordaje multidisciplinario, en el que deberían intervenir quienes pueden ampliar y profundizar la mirada y también todos aquellos que de una u otra manera serán afectados por la aplicación de los resultados encontrados.

Sobre el autor, Marcelo R. Ferreyra
Consultor en DM & BI con 19 años de experiencia en el análisis de datos y el desarrollo de modelos de predicción para la industria financiera y bancaria. Experiencia de 30 años en el diseño, desarrollo e implementación de sistemas de computación como así también en la docencia y capacitación en las áreas de Ciencias, y Tecnologías de la Información. Cofundador de PTI Inc., empresa creada con Dorian Pyle para el  desarrollo de Powerhouse, software de Data Mining basado en la Teoría de la Información de Shannon. Fundador y director de Dataxplore, empresa dedicada al desarrollo, capacitación y consultoría en tecnología de la información.

https://www.linkedin.com/in/marcelo-ferreyra-3257232
Blog: http://powerhousedm.blogspot.com/
mferreyra@dataxplore.com.ar




Nuevo comentario:
Facebook Twitter

Usted puede comentar o proporcionar más información a todos los artículos de este sitio. Los comentarios son libres y abiertos a todos. Sin embargo, nos reservamos el derecho a eliminar, sin previo aviso ni explicación, todo comentario que no cumpla con nuestras normas internas de funcionamiento, es decir, cualquier comentario difamatorio o sin relación con el tema del artículo. Así mismo, los comentarios anónimos son eliminados sistemáticamente si son demasiado negativos o muy positivos. Exprese sus opiniones, compártalas con los demás y asúmalas. Gracias de antemano. Igualmente, agradecemos tener en cuenta que los comentarios no sean enviados automáticamente a los redactores de cada artículo. Si usted desea realizar una pregunta al autor de un artículo, contáctelo directamente, no utilice los comentarios.


Twitter
Rss
LinkedIn
Google+
Facebook
Pinterest