La revista Nature Communications ha publicado dos artículos del grupo de investigación Alephsys Lab de la Universidad Rovira i Virgili (URV, en Tarragona, España) que explican cómo optimizar el tratamiento de datos masivos o big data en sistemas complejos. El grupo ha encontrado cómo simplificar cualquiera de estos sistemas al máximo, pero con la mínima pérdida de información, lo que permite tratar los datos de forma fidedigna y eficiente.
Estos sistemas pueden representar las estructuras y relaciones que encontramos en el mundo, y su estudio ayudará a entender y resolver grandes problemas de ámbitos tan diversos como la biología, la tecnología y la sociología, así como fenómenos que se pueden observar en internet.
Por ejemplo, ¿por qué el vídeoclip Gangnam Style tiene 2.300 millones de visitas en YouTube, es decir, una de cada tres personas que viven en la Tierra? Más allá del contenido en sí, la viralidad de cualquier información se puede estudiar desde el punto de vista estructural. Esto implica fijarse en la estructura sobre la que se difunde la información, y no en si el videoclip es divertido o la canción es pegadiza.
En este caso, la estructura está formada por las personas que comparten el vídeo con sus contactos que, a su vez, lo vuelven a compartir. Se dibuja así una red donde las personas son nodos y las relaciones entre ellas (amigos, familiares, compañeros de trabajo…) son las conexiones entre estos nodos.
Entender el mundo y sus problemas a través de la conectividad entre sus elementos es lo que hacen investigadores como Alex Arenas, del grupo Alephsys Lab de la URV. Estudian estos sistemas complejos, es decir, aquellos formados por unidades en interacción que presentan un comportamiento global. No es la suma directa de sus comportamientos individuales.
Esta interacción forma una red donde las unidades o nodos (que pueden ser personas, pero también células, o medicamentos, u ordenadores…) tienen conexiones muy heterogéneas. Estos sistemas son los que sirven para representar problemas en campos como la biología, la tecnología o la sociedad.
Pero la realidad es compleja y, para representarla, los sistemas complejos deben serlo aún más: “Las redes no son únicas, sino que en la naturaleza, en la tecnología y otros campos encontramos diferentes redes que están conectadas entre ellas”, explica Arenas. Por ejemplo, en Facebook y Twitter: ambas son redes que conectan personas, pero las conexiones (la lista de amigos, por decirlo de forma sencilla) no son las mismas en una y otra red. Cuando esto ocurre, se dice que la red tiene varias capas.
“En los últimos años hemos llegado a un nuevo nivel de conocimiento en este campo, que es considerar el mundo como un conjunto de redes, todas ellas interconectadas entre sí, con diferentes significados y funciones, pero que no se pueden estudiar de forma aislada”, señala el investigador. Esto permite entender los sistemas de forma fidedigna, pero tiene un problema: cuanta más información haya (en Facebook y Twitter son miles y miles de terabytes de información), más lento, difícil y costoso se volverá procesarla.
Es aquí donde entran en juego los últimos avances del Alephsys Lab, que ha logrado identificar los nodos y las capas más relevantes en cualquier red para simplificar el sistema al máximo, pero perdiendo la mínima información. “Lo que hacemos es una reducción estructural de esta información”, explica Alex Arenas, “analizando cuáles de estas capas se pueden fusionar para llegar al punto óptimo en el que la cantidad de información es máxima con el mínimo de capas”. A grandes rasgos, aquellas capas que son más redundantes entre ellas son las que se pueden fusionar.
“Hoy en día tenemos acceso a datos como nunca en la historia y tenemos herramientas para procesar datos. El problema es el encaje entre este volumen de datos de que disponemos y el volumen que las herramientas pueden procesar “, dice el investigador. El tratamiento masivo de datos o big data será uno de los grandes retos de este siglo. “La solución pasa por reducir primero estos datos masivos, para luego procesarlos”, concluye. Es decir, trabajar para empequeñecer el problema antes de trabajar para solucionarlo.
Pero, volviendo a Gangnam Style y la viralidad, si queremos que nuestro video sea visto y compartido por el mayor número posible de personas, deberemos difundirlo a través del nodo más central de la red. El nodo más central es aquél que cuando transmite información llega a más gente, y que se entera de todo antes que nadie. Este nodo es fácil de identificar en una única red, pero ¿qué ocurre cuando la red tiene varias capas? Una persona, por ejemplo, puede ser muy activa y muy influyente en Twitter, pero no tanto en Facebook, o viceversa.
Una solución pasa por no buscar el nodo más central en cada capa, sino aquél que queda más compensado entre todas las capas. Esto, en el Alephsys Lab, lo llaman el nodo más versátil, y han determinado como encontrarlo.
“Con ello podríamos cambiar totalmente los sistemas de ranking y la forma como entendemos la navegación en un sistema multicapa”, explica Arenas. Las aplicaciones son muchas: desde cómo los buscadores indexan y jerarquizan las páginas web hasta cómo funcionan los sistemas de recomendación. “El objetivo, al final, es enriquecer el acceso global a la información y, en definitiva, dar al usuario más capacidad de explorar el mundo”, concluye el experto.
La investigación del Alephsys Lab es aplicable a cualquier tipo de sistema complejo y ya pueden utilizarse para el tratamiento de datos, tanto en el caso de reducir la estructura de redes multicapa como de encontrar nodos versátiles en redes multicapa interconectadas. Estos estudios forman parte del proyecto Plexmath, del 7º Programa Marco (FP7) europeo. Además, el grupo pone a disposición una herramienta libre, llamada MuxViz, que permite analizar datos de sistemas complejos e incorpora estos dos últimos avances.
Fuente: Universitat Rovira i Virgili (URV)