martes, 16 de enero de 2018

Facebook y las ciencias sociales: Buen maridaje

Facebook es bueno para la ciencia

Clifford Lampe es profesor asociado de información en la Universidad de Michigan en Ann Arbor.
The Chronicle of Higher Education




En las últimas dos semanas, se ha producido un debate importante sobre la ética de un estudio publicado en las Actas de la Academia Nacional de Ciencias por investigadores de Facebook Data Science y la Universidad de Cornell. En el estudio, los investigadores manipularon algunos parámetros en las noticias para evaluar cómo los cambios influyeron en los estados de ánimo de los lectores según lo definido en sus publicaciones posteriores. Si bien es fácil perderse en las malezas de este debate, la controversia ha planteado preguntas significativas sobre el papel de las empresas como Facebook en la producción de ciencia pública.

Para el registro, soy partidario de Facebook. He escrito artículos con personas del equipo de Data Science, tengo dos Ph.D. estudiantes que realizan pasantías en Facebook este verano, y creen que Facebook brinda un servicio valioso a las personas. Eso no quiere decir que nunca cometa errores, o que no debemos cuestionar el poder de Facebook para construir la arquitectura de tanta comunicación humana.

Entre muchas inquietudes específicas, algunos comentaristas se preocupan por la consolidación de tantos datos de las ciencias sociales en manos de una sola corporación. Otros han pedido a Facebook y a otros que realicen su investigación de acuerdo con técnicas comunes en el mundo académico.

Sin embargo, me preocupa más que Facebook, quemado por los medios sensacionalistas y las apresuradas condenas de algunos académicos, decida dejar de hacer investigaciones públicas. Eso sería un verdadero golpe para la ciencia.

¿Por qué las compañías como Facebook participan en la producción de ciencia pública? ¿No es la ruta segura para realizar pruebas internas y no participar en publicaciones académicas? Probablemente, pero aquí está la cosa: los investigadores corporativos provienen de los mismos programas universitarios que los académicos. La publicación está integrada en su código genético, y las compañías como Facebook saben que para atraer doctores realmente inteligentes, ayuda a brindar la oportunidad de publicar en medios científicos.

Además, las empresas ven la publicación académica como una forma de retribuir. Sé que puede parecer totalmente ingenuo, pero en las conversaciones que tuve con personas en Facebook y en otros lugares, los investigadores hablan de compartir ideas como una forma de ser buenos ciudadanos. Estoy seguro de que las facciones legales y de relaciones públicas en dichas corporaciones sienten una punzada en el riesgo-recompensa, pero muchos en la ciencia respecto del sector privado como algo bueno y creo que ayuda a contribuir a que el mundo. Este punto se ha perdido casi por completo en la cobertura sobre el estudio de contagio emocional de Facebook. Mucha gente asume que cualquier ciencia hecha por Facebook debe tener una motivación egoísta.

En pocas palabras, la participación corporativa en la ciencia pública es muy valiosa. ¿Cómo es eso?
  1. Las corporaciones nos permiten probar la validez de nuestras teorías. No hay corolario de Facebook en el mundo académico. Ya sea en nuestros laboratorios o en los sistemas limitados que hemos sido capaces de crear para poner a prueba las personas en el campo, no podemos abordar ya sea la diversidad o la validez de las interacciones entre las personas en sitios como Facebook.
  2. La ciencia pública aumenta la comprensión pública de las redes sociales. Parte de la razón por la que algunas personas se molestaron por este estudio de Facebook fue que no estaban al tanto de los algoritmos ya incorporados en las noticias. Una comprensión más pública sobre el poder de los algoritmos es algo bueno.
  3. Las corporaciones brindan la oportunidad de poner en práctica las ciencias sociales. Los primeros científicos sociales creían que comprender a los humanos podría ayudar a crear un mundo mejor. Ahora, a excepción de algunos de nuestros amigos en economía, los académicos a menudo evitan los resultados prácticos de la investigación en ciencias sociales. Facebook y empresas similares -mediante el uso directo de la investigación en ciencias sociales para crear sistemas que median y complementan la comunicación- brindan oportunidades para aquellos académicos que ven el valor de mezclar ciencia pura y efectos prácticos.
  4. Las corporaciones brindan apoyo a las ciencias sociales cuando el financiamiento público está disminuyendo. Las empresas como Facebook no solo están invirtiendo en ciencias sociales, sino que también ofrecen trabajos valiosos y significativos para investigadores formados en la universidad. (Lo cual no quiere decir que debamos renunciar a la financiación pública de las ciencias sociales).
Por esas razones, creo que Facebook debería ser elogiado por participar en la ciencia pública. Pero, ¿resuelve esa resolución los ataques en su contra?

De cualquier manera, hay varias cosas que debemos hacer para aclarar la ética de la investigación en los medios sociales. Además de los paneles optativos que permiten a los participantes aceptar el estudio, lo que sin duda funcionaría en muchos casos, las empresas podrían emplear paneles de revisión externos, lo que algunos ya hacen. Podemos abogar por cambios en revistas y actas de hacer algo más profundo que las declaraciones pro forma que los autores han cumplido los criterios de revisión del IRB, y podemos trabajar con nuestros propios IRB a reconsiderar la forma en que utilizamos los datos secundarios.

Algunas empresas están experimentando con paneles de derechos de usuario, compuestos por personas que no son empleados y que usan sus servicios. Facebook ya ha introducido muchos cambios en los últimos años para proporcionar una mayor supervisión de la investigación que se realiza allí. En mi propia investigación, varias personas de diferentes partes de Facebook revisan nuevos protocolos de investigación y brindan retroalimentación, independientemente de los procesos IRB de mi propia universidad. A menudo, los abogados y expertos en códigos de la industria pueden proporcionar revisiones más expertas que IRBscan de la universidad.

Dicho esto, creo que la última controversia tendrá un efecto escalofriante no solo en Facebook, sino también en otras compañías que ven esta saga desarrollarse. Eso ha sucedido en el pasado. En 2006, AOL tuvo una violación de privacidad relacionada con los datos compartidos con los investigadores. La brecha fue utilizada como una razón por la cual varias compañías dejaron de compartir datos con investigadores académicos.

Desde la perspectiva de Facebook, los ataques de algunos académicos han sido particularmente inquietantes. Parte de eso es choque de cultura. Los académicos prosperan y están orientados a la crítica. Somos operadores independientes que profundizamos en el conflicto como una forma de arrojar luz sobre los problemas. Los entornos corporativos se basan mucho más en el consenso y la colaboración; algunos grupos en las empresas pueden ver la cultura de la crítica como destructiva más que constructiva.

Espero que Facebook responda a esta controversia al continuar reflexionando sobre sus prácticas de investigación y al continuar su compromiso con la ciencia pública. Si Facebook y otras compañías abandonan la publicación académica, habremos perdido una oportunidad notable para avanzar en las ciencias sociales. En lugar de mover el debate sobre la ética hacia adelante, lo habremos cerrado.

domingo, 14 de enero de 2018

Base de datos de redes online Colorado Index of Complex Networks

Base de datos online Colorado Index of Complex Networks


Si necesitan conjuntos de redes para testeos, experimentación o enseñanza se puede recurrir a la Colorado Index of Complex Networks. Se puede buscar por domino, propiedades de los grafos, tamaño, y muchas condiciones más. Gracias a la Universidad de Colorado!


viernes, 12 de enero de 2018

Apareamiento selectivo y nivel de ingresos: Un lazo fuerte en Gran Bretaña

El problema de clase de Gran Bretaña se reduce a "apareamiento selectivo"



Lianna Brinded || Quartz

Gran Bretaña está obsesionada con la clase social. Ya sea que se trate de los trabajos que tenemos, las palabras que usamos, la educación que recibimos, las creencias políticas, o incluso los programas de televisión que vemos, estar preocupados con la clase es tan británico como beber té y comer pescado con papas fritas.

Si bien el sistema de clases es complejo, un diferenciador clave es el capital económico; y la falta de igualdad de ingresos le da a Gran Bretaña uno de los peores problemas de movilidad social en el mundo.

Pero los británicos tienden a exacerbar el problema de la desigualdad del ingreso de las clases sociales con el "apareamiento selectivo": elegir tener hijos con alguien que tenga rasgos similares. Si bien los estudios muestran que los humanos lo hacen al observar los marcadores genéticos, un informe publicado hoy (30 de diciembre) por el think tank independiente Resolution Foundation señaló (pdf y ver al final de la nota) que en el Reino Unido "la gente tiende a juntarse con aquellos que tienen expectativas de herencia similares a el suyo ".

Por supuesto, esto podría ser una situación de gallina y huevo. Si naces en cierta clase en Gran Bretaña, es menos probable que te muevas dentro de la sociedad y, por lo tanto, estés expuesto a más socios potenciales en otros grupos. Pero por lo general, al estar en contacto con otras personas de posición social similar, terminas perjudicando la movilidad social al fortalecer el status quo.

"El apareamiento selectivo probablemente amplifique estas brechas absolutas en las transferencias de riqueza futuras de los individuos a nivel de los hogares", dijo el informe. "Los adultos menores de 50 años que están en pareja y no esperan heredarse tienen socios con una herencia futura promedio esperada de £ 25,000 (U$D 33,759). Por el contrario, aquellos que esperan heredar más de £ 500,000 en el futuro tienen socios con una herencia futura media esperada de £ 190,000 ".

The Resolution Foundation también señala que las fortunas pasadas a la generación más joven se reducen principalmente a la propiedad de la vivienda. Cuanto más pobre es la familia, es menos probable que sean propietarios de su hogar, e incluso si poseen propiedades, es poco probable que valga tanto como sus contrapartes más ricas. El grupo de expertos dice que el 46% de las personas entre 20 y 35 años que no poseen una casa no tienen riqueza de propiedad de los padres, lo que significa que es más probable que nunca hereden una o pasen una a sus propios hijos.


(Análisis de Resolution Foundation de ONS, Wealth and Assets Survey)

Tal vez las narraciones románticas de la cultura pop sobre personas que se enamoran de alguien "del lado equivocado de la vía", como en espectáculos populares como Downton Abbey (foto inicial), sean tan convincentes en Gran Bretaña precisamente porque esas relaciones son tan poco probables estadísticamente.

The Resolution Foundation también analizó cuáles son las implicaciones para las herencias y los dones en los niveles de vida generacionales. Descubrió que estos tipos de transferencias de riqueza ayudarán significativamente a los jóvenes de la generación del milenio (nacidos entre 1981 y 2000) en los próximos años, incluso más que las generaciones anteriores. Esto se debe a que las tasas de propiedad de la vivienda de los padres de la generación del milenio (nacidos durante el baby boom entre 1946 y 1965) son del 75% y "el valor real de las fincas pasando por la muerte se ha más que duplicado en los últimos 20 años".

Sin embargo, como se señala en el informe, los hijos de padres ricos recibirán mayores herencias, mientras que los muy pobres recibirán casi nada. Si la historia se repite, sus hijos se juntarán con otros con antecedentes económicos similares, y la brecha de igualdad de ingresos se ampliará aún más, como lo ha hecho durante generaciones.

miércoles, 10 de enero de 2018

Cómo los grafos representan el futuro de la información

El futuro está en forma de grafo

Tim Baker, director global de innovación, finanzas y riesgos, Thomson Reuters
Dr. Tharindi Hapuarachchi Gerente de Asociaciones Técnicas
Bob Bailey Vicepresidente y Arquitecto Jefe de Información, Thomson Reuters




Según Forrester, para 2017, el 25% de las empresas habrá implementado una base de datos de grafos, mientras que Gartner afirma que "el análisis de grafos es posiblemente el diferenciador competitivo más efectivo para las organizaciones que persiguen operaciones y decisiones basadas en datos".

Cuando Microsoft® anunció la adquisición de LinkedIn® - había otra gran pista sobre la importancia futura del grafo - ¡la transcripción de la entrevista entre Satya Nadella y Jeff Weiner mencionó "grafo" nueve veces!

Entonces, ¿qué es una base de datos de grafos, y cómo y por qué está surgiendo de repente como la última aplicación asesina en el "panorama de los grandes datos"? ¿Cuáles son los casos de uso para el grafo, y cómo los clientes pueden sumergirse sin tener que construir un equipo de ciencia e ingeniería de datos de 30 miembros?

Los grafos se están convirtiendo en una herramienta cada vez más popular y útil en el mundo de la información, pero de ninguna manera son nuevos: de hecho, el primer grafo se remonta al problema del puente de Konigsberg que posteriormente fue resuelto por el matemático suizo Leonhard
Euler en 1736.2 Más recientemente, la noción de un grafo como una forma de representar las relaciones entre las personas se popularizó al observar que Kevin Bacon (el actor) es, en promedio, tres grados de separación de cualquier otro actor en la base de datos de IMDb. La teoría matemática y la investigación práctica (por ejemplo, en Facebook®) han demostrado que, en promedio, las personas no tienen más de seis grados de separación entre sí.

Gráfico 1: Sean Connery - Kevin Bacon Number = 2 (nunca han trabajado en la misma película)

Fuentes: IMDb y Thomson Reuters Data Fusion

El algoritmo que permite el cálculo del número mínimo de caminos entre dos personas (su separación real) fue desarrollado en los años 50 por el matemático holandés Edsger Dijkstra, pero no fue hasta el advenimiento del big data y la explosión del poder de la informática barata. que tales algoritmos realmente podrían ponerse a trabajar para casos de uso como el "grafo social" de Facebook, que conecta intereses y amigos para que pueda encontrar restaurantes en Barcelona que les gusten a sus amigos. El PageRank de Google es el algoritmo que de nuevo aprovecha los datos del grafo (que representa los hipervínculos entre las páginas web) para obtener resultados de búsqueda.

Al igual que las listas y tablas, los grafos son un medio para organizar y representar información. Un grafo comprende objetos y relaciones entre esos objetos, de modo que cualquier par de objetos conectados por una relación forman una simple "oración" de información, como "Perro muerde a Pat". Así que uno puede pensar que un grafo es un "mapa" de muchos tales oraciones que involucran un superconjunto de objetos y tipos de relación. Por ejemplo, "Pat trabaja en el Royal Mail" y "El perro pertenece a Alicia" podría estar junto a "Mordeduras de perro Pat", por lo que podemos inferir asociaciones no explícitamente establecidas entre objetos, y seguir "señales" de relación a información relacionada.

Gráfico 2: El perro muerde a Pat


Un método de grafo hace que sea fácil agregar datos de múltiples fuentes que pueden diferir ampliamente en precisión, precisión y significado. Cualquiera puede agregar información nueva a un grafo sin afectar o estar limitado por lo que ya está allí: agregando a la suma del conocimiento. Por el contrario, las listas y tablas se diseñan antes de que se agregue cualquier información para que el conjunto de elementos representados y la información contenida en cada elemento sea clara. Esto tiene el efecto de restringir lo que se puede representar.

Una tabla diseñada para capturar una relación de "mordiscos" no se puede usar para representar una relación de "trabajos en". Las listas y las tablas reducen intrínsecamente el conocimiento disponible para adaptarse a un conjunto de diseños por adelantado, por lo que también se pueden determinar las preguntas que se pueden responder con anticipación. Por otro lado, el mismo grafo se puede usar para responder preguntas con diversos contextos, cualquiera que sean, independientemente de quién creó el grafo o con qué propósito. Ya sea que esté interesado en los peligros de ser cartero o en el comportamiento de las mascotas de Alicia, el grafo anterior puede proporcionar respuestas, incluso si su propósito original era documentar el día de Pat.

En el mundo de los datos financieros, los considerables activos de datos de Thomson Reuters están contribuyendo a la formación de un Grafo de conocimiento de Thomson Reuters. Esto ayudará a nuestros clientes a identificar relaciones inferidas y fácticas previamente desconocidas. Por ejemplo, Thomson Reuters ha estado siguiendo movimientos de oficiales y directores de compañías durante más de 30 años. Nuestra base de datos de ofertas abarca un período de tiempo similar. Mediante el mapeo de organizaciones y personas en ambos conjuntos de datos a identificadores permanentes comunes (PermID), se forma una representación gráfica que explora a qué ejecutivos se asocian con qué se trata en el tiempo. Los grafos como este también se pueden conectar fácilmente a otros grafos, siempre y cuando las bases de datos de grafos compartan algunos estándares comunes, generalmente en relación con la representación de las entidades (como personas o empresas) y las relaciones.

Por ejemplo, aunque el sitio web de IMDb no ha adoptado PermIDs para identificar de manera exclusiva a los actores, un pequeño grupo de individuos en esa base de datos son o han sido funcionarios o directores de compañías que están en las bases de datos de entidades de Thomson Reuters, como tales tienen PermIDs. Por ejemplo, Ashton Kutcher es actor y miembro de la junta directiva de Katalyst Media, la firma que fundó con Jason Goldberg.

Gráfico 3: Cuando dos mundos colisionan

Fuentes: Base de datos de películas en Internet, Thomson Reuters Data Fusion
Gráfico 4: Conectar los puntos

Fuentes: Base de datos de películas en Internet, Thomson Reuters Data Fusion

Por lo tanto, al atravesar nodos comunes a los grafos, es posible unir dos conjuntos de datos separados. Luego, la base de conocimiento resultante ("The Graph", como en "The Web") permite a los usuarios un acceso máximo a la información y la capacidad de personalizar individualmente consultas y vistas, sujeto únicamente a derechos y regulaciones en lugar de a la separación técnica y física. Por ejemplo, ¿cuál es la relación entre Qantas y Kevin Bacon? Bueno, el empresario australiano James Packer estaba en la junta directiva de Qantas, y a través de sus nupcias planificadas con Mariah Carey (cantante y actriz ocasional) ella proporciona la conexión esencial entre el mundo de los negocios y el entretenimiento.

Es esta capacidad de conectar grafos lo que realmente impulsó la adquisición de LinkedIn y Microsoft. En ese momento, Jeff Weiner afirmó: "Lo que más nos emociona a Satya y a mí es cuando combinas el grafo corporativo de Microsoft con el grafo profesional de LinkedIn".

Uso de los clientes del grafo

Su naturaleza acumulativa hace que el grafo sea un método especialmente útil cuando se comparten y combinan datos. Si todos en una organización grande, por ejemplo, comparten lo que saben contribuyendo a un grafo, la base de conocimiento resultante se puede utilizar de una manera mucho más matizada y flexible que si todos se hubieran visto obligados a contribuir a una base de datos centralmente prediseñada . El método de grafo marca un cambio en el énfasis de datos que solo se crean y administran para necesidades específicas, a datos que se conectan para formar el conocimiento colectivo de la organización.

Para ampliar el conjunto de preguntas que podrían responderse desde el grafo de los bancos, las relaciones se pueden establecer con otros grafo externos. Estas relaciones conectan el conocimiento entre sí, de modo que al responder a preguntas posteriores se puede utilizar lo que en términos de información ahora es un grafo más grande, compuesto por los más pequeños.

La buena noticia es que Thomson Reuters ha estado trabajando en los componentes fundamentales para establecer tal vez una de las bases de datos de grafos de alta precisión más grandes del mundo profesional. Aprovechando los vastos activos de contenido de la empresa, más la identidad de la entidad de alta definición habilitada por Open PermID: Thomson Reuters planea lanzar un feed que expondrá hasta 30 mil millones de relaciones entre tipos de entidades, incluidos valores, personas, organizaciones y eventos. Conectar esto con su propio grafo organizacional abrirá enormes oportunidades para nuestros clientes, combinando la perspectiva autoritativa global con su propio conocimiento organizacional, generando respuestas y puntos de vista contextualizados y de alto valor.

Recientes compromisos han revelado que muchos clientes ya se han embarcado en su propio viaje por el mundo de los grafos; algunos están investigando, algunos experimentando, y unos pocos han implementado entornos de big data de gran escala optimizados para datos de grafos. Los casos de uso son casi demasiado numerosos para enumerarlos, pero van desde la gestión de relaciones y el desarrollo empresarial hasta la generación alfa y de ideas, y por supuesto, el análisis de riesgos.

El riesgo es quizás la categoría más importante, ya que las bases de datos de grafos ayudan a identificar relaciones ocultas o complejas que van al centro de la detección de fraude, el análisis de riesgo de la cadena de suministro y la exposición a las entidades sancionadas. Los Documentos de Panamá ayudaron a exponer tales conexiones ocultas y la importancia de modelar y conectar datos de entidades como parte del proceso de investigación.

lunes, 8 de enero de 2018

Visualizando y simulando en la red de calles de Budapest

Visualizando la red de calles de Budapest

Center for Network Science


¿Cómo podemos entender una ciudad a través de sus redes de infraestructura? Esta pregunta fue el punto de partida para mi proyecto final en la clase de visualización de datos impartida por Roberta Sinatra. El objetivo de la clase era obtener información sobre un conjunto de datos a través de la visualización.

La ciudad seleccionada para analizar fue Budapest, una elección obvia ahora que estoy viviendo aquí y también porque quería entender mejor la ciudad. Para obtener los datos y construir la red, utilicé OSMnx, una biblioteca de Python desarrollada por Geoff Boeing. Usé OSMnx para descargar los datos de la ciudad desde OpenStreetMap y construir la red usando las calles como bordes y las intersecciones entre dos calles como nodos. Para el proyecto, trabajé con 4 kilómetros cuadrados del centro de la ciudad de Budapest. Primero visualicé la red de la ciudad asignando el ancho de los bordes, calles, de acuerdo con el tipo de calle, para mostrar dónde están las calles principales en la ciudad y cómo están conectadas.



Como sabemos por la literatura científica de la red, la topología de una red determina su resistencia, por lo que el siguiente paso para comprender mejor a Budapest, una ciudad con un río en el medio, fue trabajar con la red y probar su tolerancia al ataque. En resumen, calculé la centralidad de intersección de todas las intersecciones de calles de la red, dibujé la red con el tamaño de los nodos de acuerdo con su centralidad de intermediación y eliminé la que tenía la interinidad más alta una por una. Este enfoque nos permite simular cómo cambia la red si "cerramos" o eliminamos la intersección que está en el medio de las rutas más cortas entre todas las otras intersecciones.

Budapest Network Attack Tolerance from Luis Guillermo Natera Orozco on Vimeo.


El video nos muestra esta simulación del cálculo de la centralidad de intermediación y la eliminación de los nodos con la más alta. También muestra la fracción de nodos eliminados y cuántos componentes conectados tiene la red, y podemos observar que solo eliminar menos del 2% de los nodos conduce a más de 3 componentes conectados diferentes en la red, lo que significa que estamos aislando algunas partes de la ciudad. Las intersecciones más importantes que mantienen unida la red de calles del centro de Budapest corresponden a los puentes que conectan Buda y Pest sobre el Danubio: el Puente Margarita, el Puente de las Cadenas y el Puente Elisabeth.

Visualizaciones como la desarrollada en este proyecto nos permiten imaginar nuevas posibilidades para trabajar y comprender mejor las redes urbanas y la complejidad en las ciudades usando nuevas tecnologías y enfoques de la ciencia de las redes junto con el urbanismo, el urbanismo, la sociología y otras disciplinas.

Publicación del blog por Luis Guillermo Natera Orozco

sábado, 6 de enero de 2018

Comparación de software para redes de gran escala

Volumen 2017 (2017), ID del artículo 1278932, 8 páginas
Artículo de revisión

Comparación empírica de herramientas de visualización para análisis de red a mayor escala

Georgios A. Pavlopoulos, 1 David Paez-Espino, 1 Nikos C. Kyrpides, 1 e Ioannis Iliopoulos2
1 Departamento de Energía, Joint Genome Institute, Lawrence Berkeley Labs, 2800 Mitchell Drive, Walnut Creek, CA 94598, EE. UU.
2 División de Ciencias Básicas, Escuela de Medicina de la Universidad de Creta, Calle Andrea Kalokerinou, Heraklion, Grecia

La correspondencia debe dirigirse a Georgios A. Pavlopoulos y Ioannis Iliopoulos

Recibido el 22 de febrero de 2017; Revisado el 14 de mayo de 2017; Aceptado el 4 de junio de 2017; Publicado el 18 de julio de 2017

Editor académico: Klaus Jung

Copyright © 2017 Georgios A. Pavlopoulos y otros Este es un artículo de acceso abierto distribuido bajo la Creative Commons Attribution License, que permite el uso, la distribución y la reproducción sin restricciones en cualquier medio, siempre que el trabajo original esté debidamente citado.

Resumen
La expresión génica, la transducción de señales, las interacciones proteína / química, las coocurrencias de literatura biomédica y otros conceptos a menudo se capturan en representaciones de redes biológicas donde los nodos representan una cierta bioentidad y limitan las conexiones entre ellos. Si bien ya existen muchas herramientas para manipular, visualizar e interactivamente explorar tales redes, solo algunas de ellas pueden escalar y seguir el crecimiento de información indiscutible de hoy. En esta revisión, enumeramos en breve un catálogo de herramientas de visualización de red disponibles y, desde el punto de vista de la experiencia del usuario, identificamos cuatro herramientas candidatas adecuadas para el análisis, la visualización y la exploración de redes a gran escala. Comentamos sus puntos fuertes y sus puntos débiles y discutimos empíricamente su escalabilidad, facilidad de uso y capacidades de visualización posterior.


1. Antecedentes

La salud y las ciencias naturales se han convertido en protagonistas en el mundo de los grandes datos, ya que los avances de alto rendimiento contribuyen continuamente al crecimiento exponencial de los volúmenes de datos. Hoy en día, los repositorios biológicos se expanden todos los días al alojar diversas entidades como proteínas, genes, fármacos, productos químicos, ontologías, funciones, artículos y las interacciones entre ellos, lo que a menudo conduce a redes a gran escala de miles o incluso millones de nodos y conexiones. Como tales redes se caracterizan por diferentes propiedades y topologías, la teoría de grafos juega un papel muy importante al proporcionar formas de almacenarlas, analizarlas y visualizarlas de manera eficiente [1-5].

La visualización y exploración de redes biológicas a tal escala es una tarea desafiante desde el punto de vista computacional y muchos esfuerzos en esta dirección han fallado a lo largo de los años. Los artículos de revisión recientes [3, 4, 6] discuten los desafíos en el campo de visualización de datos biológicos y enumeran un catálogo de herramientas de visualización independientes y basadas en la web, así como los conceptos visuales para los que se implementan. Si bien estos recursos son valiosos para capturar el panorama general en el campo, tener una idea de las herramientas disponibles y detectar las fortalezas y debilidades de una herramienta de interés de un vistazo, no fue obvia la retroalimentación empírica sobre la escalabilidad de las herramientas.

Para mencionar en breve las herramientas representativas en el campo, aplicaciones 2D independientes como graphVizdb [7], Ondex [8], Proviz [9], VizANT [10], GUESS [11], UCINET [12], MAPMAN [13], PATIKA [ 14], Medusa [15], o Osprey [16], así como las herramientas de visualización 3D como Arena3D [17, 18] y BioLayout Express [19] ya existen. Cada uno de ellos está diseñado para servir a un propósito diferente. Por ejemplo, Ondex se implementa para recopilar y administrar datos de conjuntos de datos heterogéneos y diversos, Proviz se dedica a manejar conjuntos de datos de interacción proteína-proteína, VizANT se enfoca en redes metabólicas y ecosistemas, Medusa puede mostrar redes semánticas y conexiones multielaboradas, GUESS soporta dinámica y datos sensibles al tiempo, Osprey se implementa para anotar redes biológicas, Arena3D apunta a gráficos de varias capas, y BioLayout Express está diseñado para visualizaciones genéricas de redes 3D avanzadas.

A pesar del hecho de que tales herramientas son ampliamente utilizadas y tienen un gran potencial para un mayor desarrollo, según nuestra experiencia, no se recomiendan para el análisis de redes a gran escala en sus versiones actuales. La aplicación de Windows UCINET podría ser utilizada solo con fines de visualización. Su tamaño de red máximo absoluto es de aproximadamente 2 millones de nodos pero, en la práctica, la mayoría de sus procedimientos son demasiado lentos para ejecutar redes de más de 5.000 nodos.

Entre varias herramientas existentes que probamos, encontramos Cytoscape (v3.5.1) [20], Tulip (v4.10.0) [21], Gephi (v0.9.1) [22] y Pajek (v5.01) [23, 24] aplicaciones independientes para ser los cuatro principales candidatos para la visualización, manipulación, exploración y análisis de redes muy grandes. Para estas cuatro herramientas, evaluamos empíricamente sus pros y sus contras, comentamos su escalabilidad, facilidad de uso, velocidad de diseño, análisis ofrecidos, perfil, eficiencia de la memoria y estilos visuales, y proporcionamos sugerencias y consejos sobre cuáles de sus características pueden escalar y cuál de ellos es mejor evitar.

Para mostrar una visualización representativa generada por estas cuatro herramientas, construimos un gráfico que consta de 202,424 nodos y 354,468 bordes que muestran la distribución del hábitat de 202,417 familias de proteínas en 7 hábitats. Los datos se recogieron del sistema de análisis de datos comparativos de genoma integrado y metagenoma IMG [25], mientras que las familias de proteínas se originaron solo en metagenomas públicos.

Un protocolo paso a paso que describe cómo se generaron estas imágenes se presenta como material complementario, disponible en línea en https://doi.org/10.1155/2017/1278932. Los comentarios sobre los problemas que ocurrieron durante nuestro análisis, así como los inconvenientes y fortalezas de las herramientas de visualización utilizadas a los fines de esta revisión, se discuten ampliamente.

2. Los cuatro candidatos principales para la visualización en red a gran escala

2.1. Gephi (Versión 0.9.1)

Gephi es un software gratuito de código abierto de visualización y exploración para todo tipo de redes y se ejecuta en Windows, Mac OS X y Linux. Es nuestra principal preferencia, ya que es altamente interactivo y los usuarios pueden editar fácilmente las formas y colores de nodo / borde para revelar patrones ocultos. El objetivo de las herramientas es ayudar a los usuarios en el descubrimiento de patrones y la creación de hipótesis a través de un filtrado dinámico eficiente y rutinas de visualización iterativa. Como herramienta genérica, es aplicable al análisis de datos exploratorios, análisis de enlaces, análisis de redes sociales, análisis de redes biológicas y creación de carteles.

2.1.1. Escalabilidad

Gephi viene con un motor de renderizado muy rápido y estructuras de datos sofisticadas para el manejo de objetos, lo que lo convierte en una de las herramientas más adecuadas para la visualización de redes a gran escala. Ofrece visualizaciones muy atractivas y, en una computadora típica, puede renderizar fácilmente redes de hasta 300,000 nodos y 1,000,000 de bordes. En comparación con otras herramientas, viene con un esquema de subprocesos múltiples muy eficiente, y por lo tanto los usuarios pueden realizar múltiples análisis simultáneamente sin sufrir problemas de "congelación" del panel.

2.1.2. Diseños

En el análisis de redes a gran escala, el diseño rápido es un cuello de botella ya que la mayoría de los algoritmos de diseño sofisticados se vuelven codiciosos en CPU y memoria al requerir que se complete el tiempo de ejecución prolongado. Mientras que Gephi viene con una gran variedad de algoritmos de diseño, los algoritmos dirigidos por la fuerza OpenOrd [26] y Yifan-Hu [27] se recomiendan principalmente para visualización de red a gran escala. OpenOrd, por ejemplo, puede escalar hasta más de un millón de nodos en menos de media hora, mientras que Yifan-Hu es una opción ideal para aplicar después del diseño de OpenOrd. Notablemente, la disposición de Yifan-Hu puede dar visiones estéticamente comparables a las producidas por Fruchterman y Reingold, ampliamente utilizados pero conservadores y que consumen mucho tiempo [28]. Otros algoritmos ofrecidos por Gephi son circular, contracción, círculo dual, aleatorio, MDS, Geo, isométrico, GraphViz y Force atlas. Si bien la mayoría de ellos se puede ejecutar en un tiempo de ejecución asequible, la combinación de OpenOrd y Yifan-Hu parece dar las visualizaciones más atractivas. La visualización de descenso también se ofrece mediante el algoritmo de diseño OpenOrd si un usuario detiene el proceso cuando ~ 50-60% del progreso se ha completado. Por supuesto, la parametrización eficiente de cualquier algoritmo de diseño elegido afectará tanto el tiempo de ejecución como el resultado visual.

2.1.3. Análisis posterior a la visualización

Edge-bundling y famosos algoritmos de clustering como el MCL [29] no vienen por defecto con Gephi, pero pueden descargarse de la biblioteca de plugins de Gephi (~ 100 complementos). Además, el plugin GeoLayout Gephi es muy adecuado para trazar una red con información geográfica. Al llegar a la visualización de red dinámica, Gephi es la vanguardia de la innovación con análisis de gráficos dinámicos. Los usuarios pueden visualizar cómo una red evoluciona con el tiempo al manipular su línea de tiempo incorporada. Si bien la visualización de una red a lo largo del tiempo es algo muy útil, sus algoritmos actuales no son adecuados para redes de gran escala. De manera similar, para redes de gran escala, es muy recomendable que los usuarios apliquen algoritmos de agrupamiento utilizando aplicaciones de línea de comando externas y luego importen los resultados de agrupamiento a una herramienta de visualización.

Para estudiar la topología de una red, Gephi viene con un perfilador de red muy básico pero de alta calidad que muestra estadísticas básicas sobre la red, como el número de nodos, el número de aristas, su densidad, su coeficiente de agrupación y otras métricas. Los atributos de nodo calculados automáticamente, como la conectividad de nodo, el coeficiente de agrupación, la centralidad de intersección o el peso del borde, son tareas triviales y no requieren demasiado tiempo para calcularse.

2.1.4. Edición

Gephi es altamente interactivo y proporciona accesos directos inteligentes para resaltar comunidades, y se ofrecen recorridos más cortos o distancias relativas de cualquier nodo a un nodo de interés. Además, los usuarios pueden ajustar fácilmente o filtrar interactivamente las formas y colores de los bordes y nodos de la red de acuerdo con sus atributos para revelar patrones ocultos. El objetivo de esta revisión no es el de tutorizar cómo utilizar dichas aplicaciones, ya que se puede encontrar en las páginas de ayuda relevantes de la herramienta. Aunque Gephi es una gran opción para la visualización de redes a gran escala, la importación manual de redes, el manejo de múltiples redes y la edición manual de nodos / bordes / etiquetas puede ser complicado ya que muchas opciones están ocultas en la interfaz de usuario de Gephi o soportadas por complementos específicos.

2.1.5. Formatos de archivo

Gephi puede cargar redes en GEXF, GDF, GML, GraphML, Pajek (NET), GraphViz (DOT), CSV, UCINET (DL), Tulip (TPL), Netdraw (VNA) y hojas de cálculo de Excel. Del mismo modo, Gephi puede exportar redes en archivos JSON, CSV, Pajek (NET), GUESS (GDF), Gephi (GEFX), GML y GraphML [30]. La forma más fácil de hablar con Cytoscape es a través de los formatos GraphML, con Tulip a través de archivos GEFX y con Pajek a través de archivos NET. Desafortunadamente, en su versión actual, falla la comunicación con otras herramientas a través de otros formatos de archivo comunes como JSON.

2.1.6. Disponibilidad

Independientemente de su documentación muy limitada, Gephi es una gran herramienta de visualización de redes en 2D, genérica y no dedicada a la biología. Principalmente hace hincapié en el procesamiento rápido y sin problemas, el diseño rápido, el filtrado eficiente y la exploración interactiva de datos, y creemos que sigue siendo una de las mejores opciones para la visualización genérica de redes a gran escala. Un ejemplo de red visualizado por Gephi se muestra en la Figura 1. Gephi está disponible en: https://gephi.org/.


Figura 1: Gephi visualización de una red que consta de 202,424 nodos y 354,468 bordes que muestra la distribución de 202,417 familias de proteínas en 7 hábitats. Se usó una combinación de OpenOrd y el algoritmo de disposición de Yifan-Hu force-directed para calcular las coordenadas del nodo. Cada hábitat y sus bordes adyacentes tienen un color único. Una guía paso a paso con respecto a los métodos y la parametrización que se utilizaron se describe ampliamente en el archivo suplementario.


2.2. Tulip (Versión 4.10.0)

Tulip es una de las herramientas de visualización de red más fáciles de usar y una opción decente para la visualización de redes de mayor escala. Debido a su simplicidad, es muy recomendable para personas inexpertas, ya que viene con una interfaz fácil de usar. Está escrito en C ++ y permite el desarrollo de algoritmos, codificaciones visuales, técnicas de interacción, modelos de datos y visualizaciones específicas de dominio. Comparado con otras herramientas, ofrece visualizaciones muy atractivas, especialmente después de habilitar su gran algoritmo de agrupamiento de bordes.

2.2.1. Escalabilidad

En su versión actual, es capaz de visualizar miles de nodos con cientos de miles de bordes en una computadora promedio y pretende convertirse en un gran mediador entre el análisis de gráficos y la visualización. Si bien Tulip es una de las principales preferencias para redes de mediana escala, según nuestra experiencia, no es tan escalable como Gephi.

2.2.2. Diseños

Su gran variedad de algoritmos de diseño lo convierte en una de las mejores opciones para el diseño gráfico. Por el momento, admite algoritmos simples (circulares, aleatorios), dirigidos a la fuerza (es decir, Fruchterman y Reingold [28], Kamada y Kawai [31]), jerárquicos, multinivel, planos y arborescentes, la mayoría de ellos optimizados y implementado dentro del Marco de Dibujo Gráfico Abierto (OGDF) [32]. A diferencia de los algoritmos de diseño dirigidos por fuerza, más conservadores, el Diseño multipolar rápido multinivel es muy recomendable para redes de gran escala. Si bien sus diseños son de gran calidad, para ahorrar tiempo, es muy recomendable la estrategia de calcular primero el diseño de los nodos con Gephi o Pajek y luego importarlo a Tulip.

2.2.3. Análisis posterior a la visualización

Al tratar de cerrar la brecha entre el análisis y la visualización, Tulip viene con un amplio conjunto de algoritmos de análisis de topología de red y clústeres. Entre otros, Tulip actualmente implementa la codiciosa pero ampliamente codiciada Markov Clustering (MCL) [29] codiciosa, así como la veloz y eficiente memoria de Louvain Clustering [33] para gráficos no ponderados. Además, Tulip incorpora varios algoritmos tradicionales para la exploración de redes, como algoritmos, para encontrar componentes o algoritmos biconnectados o fuertemente conectados dedicados a buscar árboles o bucles de expansión. Al igual que antes, para el análisis de redes a gran escala, se recomienda ejecutar algoritmos de agrupación externamente.

Además, Tulip viene con una interfaz muy simple para hacer preguntas topológicas. La descomposición de K-core de un gráfico, centralidad de excentricidad, grado, rango de página y centralidad de intersección son algunas de las opciones ofrecidas y el tamaño o color de los nodos se puede ajustar de acuerdo con una característica topológica seleccionada.

2.2.4. Edición

Si bien Tulip no incluye una gran variedad de combinaciones de colores predefinidas, los usuarios pueden cambiar manualmente el color, el tamaño y la forma de cualquier nodo, etiqueta o borde y guardar y volver a cargar el estado de una red. Desafortunadamente, puede procesar una red por sesión y los usuarios deben tener cuidado ya que a veces la visualización y los paneles de edición no se coordinan. Desafortunadamente, las tareas simples como la selección interactiva de los bordes de entrada / salida de un nodo directamente desde la visualización pueden llevar una cantidad significativa de tiempo.

2.2.5. Agrupamiento de enlaces

Si bien el renderizador de Tulip no alcanza la resolución de Gephi o Cytoscape, viene con uno de los algoritmos de agrupamiento de enlaces más atractivos. Desafortunadamente, para el análisis de redes a gran escala, su algoritmo de agrupamiento de bordes a menudo puede convertirse en memoria y CPU codicioso, por lo que los usuarios deben ser pacientes. Finalmente, guardar el estado de una vista agrupada en comparación con una vista desagregada puede llevar a requisitos de almacenamiento significativamente mayores (ver el archivo suplementario para ver ejemplos).

2.2.6. Formatos de archivo

Acepta como entrada archivos delimitados por tabulaciones simples, Pajek, GEFX, GML, GraphViz, JSON, TLPB y UCINET y exporta a formatos TLP, SVG, JSON y GML. La forma más fácil de hablar con Pajek es a través de archivos NET, con Cytoscape a través de archivos GML o GraphML, y con Gephi a través de archivos GEFX. Finalmente, Tulip viene con un generador de gráficos muy poderoso de un tamaño y topología definidos por el usuario.

2.2.7. Disponibilidad

En general, Tulip es una herramienta genérica de visualización en red 2D con una interfaz de usuario que se explica por sí misma y es adecuada para el diseño y análisis de nodos y bordes a gran escala. Un ejemplo de red visualizado por Tulip se muestra en la Figura 2. Tulipán está disponible en: http://tulip.labri.fr/TulipDrupal/.

Figura 2: Visualización de Tulip de la misma red, como en la Figura 1. Los 7 hábitats se resaltan y cambian de tamaño según corresponda. Un ejemplo de la misma red después de aplicar bundling de bordes se presenta en el archivo suplementario. Las coordenadas de los nodos se calcularon utilizando el algoritmo de diseño Yifan-Hu de la aplicación Gephi.

2.3. Cytoscape (Versión 3.5.1)

La aplicación Java de código abierto Cytoscape es la herramienta de visualización en red 2D más utilizada en biología y ciencias de la salud. Es compatible con todo tipo de redes (p. Ej., Ponderado no ponderado, bipartito, dirigido, no dirigido y multienlace) y viene con una enorme biblioteca de complementos adicionales (> 250). Inicialmente se implementó para analizar redes de interacción molecular y vías biológicas y apuntaba a integrar estas redes con anotaciones, perfiles de expresión génica y otros datos de estado. Aunque Cytoscape se diseñó originalmente para la investigación biorelacionada, ahora sirve como una plataforma genérica para el análisis y la visualización de redes complejas al proporcionar un conjunto básico de características para la integración, el análisis y la visualización de datos.

2.3.1. Escalabilidad

Las implementaciones de Cytoscape posteriores a la versión 3.0.0 vienen con enormes mejoras en la representación, lo que permite a Cytoscape visualizar grandes redes de cientos de miles de nodos y bordes. A pesar de estas mejoras, Cytoscape no ocupa el primer lugar para el análisis de redes a gran escala, ya que no puede escalar significativamente cuando se trata de análisis. A menudo, las rutinas de agrupamiento y distribución de Cytoscape requieren una gran cantidad de memoria y tiempo. Por lo tanto, para el análisis de redes a gran escala, se sugiere ejecutar dichos procesos en línea de comando fuera de la plataforma Cytoscape y cargar los resultados como atributos de nodo / borde (grupos en el caso de clustering o coordenadas en el caso de un diseño). Además, Cytoscape está sujeto a las limitaciones de memoria y tiempo de ejecución de Java ya que la mayoría de sus rutinas se implementan en Java.

2.3.2. Diseños

Al igual que otras herramientas, viene con una gran variedad de algoritmos de diseño simples (cuadriculados, aleatorios y circulares) o más sofisticados (dirigidos por fuerza, jerárquicos). En particular, para el análisis de redes a gran escala, los usuarios deben tener cuidado y cambiar el algoritmo de diseño predeterminado antes de crear una vista. Se recomienda una cuadrícula simple o un diseño circular simple ya que los diseños dirigidos por fuerza de Cytoscape son codiciosos y la CPU puede "colgar". Otra alternativa podría ser OpenCL, uno de los algoritmos de diseños más rápidos en Cytoscape. Después de la versión 3.2.0, la versión basada en OpenCL se incorpora como una aplicación básica. Este diseño es hasta 100 veces más rápido que el diseño estándar de Prefuse y depende de la aplicación central de CyCL para el soporte de OpenCL. Sin embargo, calcular un primer diseño con Gephi o Pajek y luego importar sus resultados en Cytoscape puede ahorrar tiempo.

2.3.3. Análisis posterior a la visualización

Cytoscape es la herramienta más exitosa para cerrar la brecha entre el análisis y la visualización, y viene con una gran cantidad de algoritmos de diseño, clustering y análisis de redes topológicas. ClusterMaker plugin [34], por ejemplo, incluye algoritmos de clúster de atributos como AutoSOME Clustering [35] y Eisen's hierarchical y -Means clustering [36] así como algoritmos de agrupamiento basados ​​en topología como propagación de afinidad [37], agrupamiento de comunidades (GLay ) [38], MCODE [39], MCL, SCPS (Agrupación espectral de secuencias de proteínas) [40], y clústeres de transitividad [41]. La mayoría de los resultados de la agrupación se pueden visualizar como una red recién construida que conserva los bordes originales o como un mapa de calor. Al igual que antes, para el análisis de redes a gran escala, se anima a los usuarios a ejecutar dichos algoritmos externamente.

Además, Cytoscape incorpora uno de los perfiladores de red más avanzados para explorar las características topológicas de la red. Los usuarios pueden ver estadísticas simples como la conectividad promedio, la centralidad de intermediación, el coeficiente de agrupamiento y otros. Si bien estos cálculos son triviales para redes de gran escala, trazar una característica topológica contra cualquier otro podría ser lento.

Finalmente, las últimas versiones de Cytoscape incorporan un algoritmo de agrupamiento de bordes bastante útil pero lento y con memoria ineficiente, no recomendado para análisis a gran escala.

2.3.4. Edición

Cytoscape es un protagonista en la oferta de estilos visuales y combinaciones de colores predefinidos para crear visualizaciones de alta calidad y belleza estética. Sus capacidades de acercamiento y barrido son muy avanzadas y el visor satelital de Cytoscape hace que sea muy fácil para los usuarios navegar y orientarse cuando la red se dibuja fuera del lienzo principal, algo que no es trivial con Gephi. Finalmente, la elección de nodos y bordes adyacentes desde la interfaz de usuario es muy receptiva.

2.3.5. Formatos de archivo

Cytoscape acepta muchos formatos de archivos de entrada diferentes, como su propio formato CYS, delimitado por tabuladores, formato de archivo de interacción simple (SIF), formato de red anidado (NNF), lenguaje de marcado de gráficos (GML), lenguaje de marcado y lenguaje de modelado extensible (XGMML), SBML [42], BioPAX [43], PSI-MI [44], GraphML, excel libros de trabajo (.xls, .xlsx) y JSON. La forma más fácil de hablar con Tulip y Gephi es a través de un formato GML.

2.3.6. Disponibilidad

En general, Cytoscape es la mejor herramienta de visualización hoy en día para el análisis de redes biológicas. A pesar de su facilidad de uso, su rica documentación y la tremenda mejora de su interfaz de usuario después de la versión 3.0, la familiaridad con la herramienta y sus complementos disponibles aún requiere una curva de aprendizaje para tareas más avanzadas. Cytoscape store actualmente alberga más de 250 complementos, diseñados específicamente para abordar y automatizar complicados análisis biológicos. Complementos para el enriquecimiento funcional, anotaciones de Gene Ontology [45], mapeo de nombres de genes, integración con repositorios públicos biológicos, recuperación eficiente de datos en línea, análisis de rutas, comparaciones de redes directas, expresión diferencial y análisis estadístico hacen que Cytoscape sea único en su género y por eso hoy actualmente es y se espera que siga siendo el jugador número uno para el análisis de redes biológicas. Una red visualizada por Cytoscape se muestra en la Figura 3. Cytoscape está disponible en http://www.cytoscape.org/.


Figura 3: visualización de Cytoscape de la misma red como en la Figura 1. La red consta de 202,424 nodos y 354,468 bordes. Los 7 hábitats están coloreados en consecuencia. Como en la Figura 2, las coordenadas se calcularon usando el algoritmo de diseño Yifan-Hu de la aplicación Gephi.

Finalmente, CytoscapeWeb [46] y Cytoscape.js son proyectos separados. Son dos esfuerzos muy fuertes que apuntan a incorporar las principales funcionalidades visuales de Cytoscape en aplicaciones basadas en navegador, algo que, por supuesto, no es adecuado para el análisis de redes a gran escala. Los usuarios pueden usar Cytoscape y exportar las redes en formato JSON para Cytoscape.js.

2.4. Pajek (Versión 5.01)

Pajek es una herramienta de visualización de redes genérica, con más de 20 años de antigüedad, basada en Microsoft Windows, inicialmente implementada para el análisis de redes sociales, pero una aplicación muy poderosa para el análisis y la visualización de redes masivas.

2.4.1. Escalabilidad

Pajek puede visualizar fácilmente millones de nodos con mil millones de conexiones en una computadora promedio superando a cualquier otra herramienta disponible en el campo. Pajek-XXL es una implementación especial de Pajek con énfasis en el análisis de redes a gran escala. Necesita al menos 2-3 veces menos memoria física que Pajek y la mayoría de las operaciones intensivas de memoria de Pajek están optimizadas para ser mucho más rápidas. La filosofía principal de Pajek-XXL es extraer partes más pequeñas pero más interesantes e informativas de una red más grande que se puede analizar y visualizar con más herramientas avanzadas. El mayor número posible de vértices que Pajek64-XXL puede manejar se ha aumentado a 2 mil millones, en cuanto al Pajek común, el límite es de 100 millones. Pajek-XXL usa enteros de 32 bits (4 bytes) para números de vértices. Por lo tanto, la mayor cantidad de vértices que Pajek-XXL puede manejar se establece en dos mil millones. Si la red contiene más vértices, se debe usar Pajek-3XL. Pajek-3XL utiliza enteros de 64 bits (8 bytes) para números de vértices. La mayor cantidad de vértices que puede manejar Pajek-3XL actualmente se establece en 10 mil millones, pero puede incrementarse fácilmente. En particular, el espacio necesario para almacenar una red en Pajek-3XL y Pajek-XXL es exactamente el mismo.

2.4.2. Diseños

Diseño de gráficos, fusión de nodos, detección de vecindarios, identificación de componentes fuertemente conectados, búsqueda de clics, manipulación de gráficos bipartitos, búsqueda de rutas más cortas o flujos máximos, agrupamiento (es decir, Louvain) y centralidades informáticas de vértices y centralizaciones de redes como grado , la cercanía, la proximidad, los centros y las autoridades, los coeficientes de agrupamiento y la centralidad laplaciana son algunas de las capacidades de Pajek. En particular, Pajek es eficiente en cuanto a la memoria y muy adecuado para una rápida multiplicación de red dispersa.

2.4.3. Formato de archivo

Pajek acepta formatos de entrada de archivos muy estrictos. La forma más fácil de hablar con Tulip y Gephi es a través de un archivo .net

La interfaz de usuario de Pajek es simple, fácil de familiarizar y muy receptiva cuando se trata de análisis de redes masivas. Nunca se pensó en ser el visualizador más avanzado, pero ofrece tremendas metodologías de análisis de gráficos, lo que lo convierte en un gran candidato para el análisis de redes masivas y un gran complemento de las herramientas existentes. Un ejemplo de red visualizado por Pajek se muestra en la Figura 4. Pajek se puede encontrar en http://mrvar.fdv.uni-lj.si/pajek/.

Figura 4: Visualización básica de Pajek de la misma red como en la Figura 1. La red consta de 202,424 nodos y 354,468 bordes. Al igual que en las Figuras 2 y 3, las coordenadas se calcularon utilizando el algoritmo de diseño Yifan-Hu de la aplicación Gephi. Notablemente para una red masiva, se recomienda encarecidamente usar primero el diseño de Pajek.


3. Discusión

A pesar de la gran cantidad de herramientas de visualización de red disponibles, debido al continuo aumento del volumen de datos en las ciencias de la salud, la visualización y la manipulación de redes a gran escala con millones de nodos y bordes siguen siendo un cuello de botella. Mientras que las bibliotecas no interactivas como el Stanford Network Analysis Project (SNAP) [47], se prefieren el Large Graph Layout (LGL) [48], NetworkX [49] o el GraphViz [50] para cálculos de back-end y static a gran escala. visualizaciones y visualizaciones de red alternativas como las ofrecidas por los Circos [51], HivePlots [52], o BioFabric [53] pueden resolver parcialmente el efecto bola de pelo, la implementación de herramientas interactivas fáciles de usar para manejar y visualizar gráficos tan grandes aún sigue siendo una tarea muy complicada. Por lo tanto, para los fines de este artículo de revisión, probamos varias aplicaciones independientes disponibles y concluimos que Pajek, Tulip Gephi y Cytoscape son los principales candidatos para la visualización y el análisis de redes a gran escala.

En conclusión, si bien Cytoscape es la mejor y la herramienta más preferida para los análisis biológicos, tiene problemas de escalabilidad y memoria y, por lo tanto, no es nuestra mejor opción para la visualización en red a gran escala. Por el contrario, lo clasificamos primero para análisis biológicos ya que está acompañado por una gran plétora de más de 200 complementos. Comparado con Tulip, Gephi y Pajek, tiene la paleta más rica de estilos de color predefinidos, la colección más eficiente de algoritmos de agrupamiento y el mejor perfil de red para la comparación intranet de las características topológicas.

Gephi claramente supera a Cytoscape en términos de escalabilidad y eficiencia de la memoria y, en nuestra opinión, es la mejor herramienta de visualización genérica para diseñar redes de gran escala. Si bien es bastante sencillo de usar, algunas veces las opciones de edición de nodos / bordes están bien escondidas en su interfaz de usuario, por lo que es un poco confuso para el usuario. Por otro lado, Gephi ofrece visualizaciones muy avanzadas al permitir a los usuarios realizar múltiples tareas simultáneamente, algo que no siempre es fácil con Cytoscape o Tulip. En general, clasificamos a Gephi como el primero en lo que respecta al equilibrio entre la visualización en red a gran escala y el análisis básico.

Tulip es nuestra tercera mejor opción para visualización de red a gran escala. Sus mejores características son (i) el diseño de agrupamiento de bordes y (ii) su simplicidad en la edición de colores, etiquetas y atributos del nodo / borde. Tulip es altamente recomendado para principiantes debido a su interfaz de usuario que se explica por sí misma.

Finalmente, Pajek y Pajek-XXL son las herramientas más escalables y altamente recomendadas para visualizaciones básicas de redes masivas con> 10 mil millones de nodos, tamaños de red que Cytoscape, Tulip y Gephi no pueden manejar en sus versiones actuales. Desafortunadamente, la falta de interoperabilidad de los sistemas operativos, así como la falta de flexibilidad de formatos de archivos de entrada y la falta de visualizaciones atractivas, impiden que Pajek sea la mejor herramienta para visualizaciones avanzadas.

Todas las observaciones mencionadas se resumen en la Tabla 1. Aunque pueden variar de un usuario a otro según la experiencia y el estudio de caso, en nuestra opinión, Cytoscape, Tulip, Pajek y Gephi siguen siendo la mejor visualización de red a gran escala y herramientas de análisis en sistemas y biología de redes.
Tabla 1: Evaluación empírica de nuestras cuatro herramientas interactivas de visualización de redes (Cytoscape, Gephi, Tulip y Pajek) para el análisis de redes biológicas a gran escala.

CytoscapeTulipGephiPajek

Escalibilidad
Facilidad de uso
Estilo visual
Manejo de enlaces
Relevancia para la Biología
Eficiencia de memoria
Agrupamiento
Edición manual nodo/enlace
Diseños
Perfiles de red
Formato de archivos
Complementos
Estabilidad
Velocidad
Documentación

 = más débil;  = medio;  = bueno;  = más fuerte.

4. Conclusión

Es injusto y no directo comparar directamente las herramientas de visualización entre sí a medida que se implementan para diferentes propósitos. Sin embargo, a medida que el tamaño de la red biológica aumenta con el tiempo, la combinación de las ventajas complementarias de diferentes herramientas es una buena estrategia. Si bien se han estandarizado varios formatos de archivo para describir la estructura de la red, nuestra experiencia demostró que muchos de ellos no se pueden exportar o importar correctamente en varias herramientas. Además, incluso en los mejores casos donde tal problema de importación / exportación está ausente, a menudo los atributos de nodo y borde no se pueden transferir. Por lo tanto, creemos que una red católica convertida para convertir con precisión un formato de archivo en cualquier otra manteniendo simultáneamente la máxima información sobre los componentes de la red es obligatoria. De esta manera, cambiar entre herramientas y varias visualizaciones será más fácil y más directo.


Referencias

  1. G. A. Pavlopoulos, M. Secrier, C. N. Moschopoulos et al., “Using graph theory to analyze biological networks,” BioData Mining, vol. 4, no. 1, article 10, 2011. View at Publisher · View at Google Scholar ·View at Scopus
  2. G. A. Pavlopoulos, D. Malliarakis, N. Papanikolaou, T. Theodosiou, A. J. Enright, and I. Iliopoulos, “Visualizing genome and systems biology: Technologies, tools, implementation techniques and trends, past, present and future,” GigaScience, vol. 4, no. 1, article no. 38, 2015. View at Publisher · View at Google Scholar · View at Scopus
  3. N. Gehlenborg, S. I. O’Donoghue, N. S. Baliga et al., “Visualization of omics data for systems biology,” Nature Methods, vol. 7, no. 3, pp. S56–S68, 2010. View at Publisher · View at Google Scholar · View at Scopus
  4. S. I. O’Donoghue, A.-C. Gavin, N. Gehlenborg et al., “Visualizing biological data—now and in the future,” Nature Methods, vol. 7, no. 3, pp. S2–S4, 2010. View at Publisher · View at Google Scholar · View at Scopus
  5. G. A. Pavlopoulos, E. Iacucci, I. Iliopoulos, and P. Bagos, “Interpreting the Omics 'era' Data,” Smart Innovation, Systems and Technologies, vol. 25, pp. 79–100, 2013. View at Publisher · View at Google Scholar · View at Scopus
  6. G. A. Pavlopoulos, A. L. Wegener, and R. Schneider, “A survey of visualization tools for biological network analysis,” BioData Mining, vol. 1, 12 pages, 2008. View at Google Scholar
  7. N. Bikakis, J. Liagouris, M. Krommyda, G. Papastefanatos, and T. Sellis, “GraphVizdb: A scalable platform for interactive large graph visualization,” in Proceedings of the 32nd IEEE International Conference on Data Engineering, ICDE 2016, pp. 1342–1345, Helsinki, Finland, May 2016. View at Publisher · View at Google Scholar · View at Scopus
  8. J. Köhler, J. Baumbach, J. Taubert et al., “Graph-based analysis and visualization of experimental results with ONDEX,” Bioinformatics, vol. 22, no. 11, pp. 1383–1390, 2006. View at Publisher · View at Google Scholar · View at Scopus
  9. F. Iragne, M. Nikolski, B. Mathieu, D. Auber, and D. Sherman, “ProViz: Protein interaction visualization and exploration,” Bioinformatics, vol. 21, no. 2, pp. 272–274, 2005. View at Publisher · View at Google Scholar · View at Scopus
  10. Z. Hu, J.-H. Hung, Y. Wang et al., “VisANT 3.5: Multi-scale network visualization, analysis and inference based on the gene ontology,” Nucleic Acids Research, vol. 37, no. 2, pp. W115–W121, 2009. View at Publisher · View at Google Scholar · View at Scopus
  11. E. Adar, “GUESS: a language and interface for graph exploration,” in Proceedings of the SIGCHI Conference on Human Factors in Computing Systems, pp. 791–800, Montreal, CA, USA, 2006.
  12. S. P. Borgatti, M. G. Everett, and L. C. Freeman, Ucinet for Windows: Software for Social Network Analysis, Analytic Technologies, Harvard, Mass, USA, 2002.
  13. O. Thimm, O. Bläsing, Y. Gibon et al., “MAPMAN: a user-driven tool to display genomics data sets onto diagrams of metabolic pathways and other biological processes,” Plant Journal, vol. 37, no. 6, pp. 914–939, 2004. View at Publisher · View at Google Scholar · View at Scopus
  14. E. Demir, O. Babur, U. Dogrusoz et al., “PATIKA: An integrated visual environment for collaborative construction and analysis of cellular pathways,” Bioinformatics, vol. 18, no. 7, pp. 996–1003, 2002. View at Publisher · View at Google Scholar · View at Scopus
  15. G. A. Pavlopoulos, S. D. Hooper, A. Sifrim, R. Schneider, and J. Aerts, “Medusa: A tool for exploring and clustering biological networks,” BMC Research Notes, vol. 4, article no. 384, 2011. View at Publisher ·View at Google Scholar · View at Scopus
  16. B. J. Breitkreutz, C. Stark, and M. Tyers, “Osprey: a network visualization system,” Genome Biology, vol. 4, article R22, no. 3, 2003. View at Google Scholar
  17. M. Secrier, G. A. Pavlopoulos, J. Aerts, and R. Schneider, “Arena3D: visualizing time-driven phenotypic differences in biological systems,” BMC Bioinformatics, vol. 13, no. 1, article 45, 2012. View at Publisher ·View at Google Scholar · View at Scopus
  18. G. A. Pavlopoulos, S. I. O'Donoghue, V. P. Satagopam, T. G. Soldatos, E. Pafilis, and R. Schneider, “Arena3D: visualization of biological networks in 3D,” BMC Systems Biology, vol. 2, article 104, 2008.View at Publisher · View at Google Scholar · View at Scopus
  19. A. Theocharidis, S. van Dongen, A. J. Enright, and T. C. Freeman, “Network visualization and analysis of gene expression data using BioLayout Express (3D),” Nature Protocols, vol. 4, no. 10, pp. 1535–1550, 2009. View at Google Scholar
  20. P. Shannon, A. Markiel, O. Ozier et al., “Cytoscape: a software Environment for integrated models of biomolecular interaction networks,” Genome Research, vol. 13, no. 11, pp. 2498–2504, 2003. View at Publisher · View at Google Scholar · View at Scopus
  21. D. Auber, “Tulip —a huge graph visualization framework,” in Graph Drawing Software, M. Jünger and P. Mutzel, Eds., Mathematics and Visualization, pp. 105–126, Springer, Berlin, Germany, 2004. View at Publisher · View at Google Scholar
  22. M. Jacomy, T. Venturini, S. Heymann, and M. Bastian, “ForceAtlas2, a continuous graph layout algorithm for handy network visualization designed for the Gephi software,” PLoS ONE, vol. 9, no. 6, Article ID e98679, 2014. View at Publisher · View at Google Scholar · View at Scopus
  23. A. Mrvar and V. Batagelj, “Analysis and visualization of large networks with program package Pajek,” Complex Adaptive Systems Modeling, vol. 4, no. 6, 2016. View at Google Scholar
  24. V. Batagelj and A. Mrvar, “Pajeka— program for large network analysis,” Connections, vol. 21, no. 2, pp. 47–57, 1998. View at Google Scholar
  25. I. A. Chen, V. M. Markowitz, K. Chu et al. et al., “IMG/M: integrated genome and metagenome comparative data analysis system,” Nucleic Acids Research, 2016. View at Google Scholar
  26. S. Martin, W. M. Brown, R. Klavans, and K. W. Boyack, “OpenOrd: An open-source toolbox for large graph layout,” in Proceedings of the Visualization and Data Analysis 2011, San Francisco Airport, Calif, USA, January 2011. View at Publisher · View at Google Scholar · View at Scopus
  27. H. Yifan, “Efficient, high-quality force-directed graph drawing,” The Mathematica Journal, vol. 10, no. 1, 2006. View at Google Scholar
  28. T. M. J. Fruchterman and E. M. Reingold, “Graph drawing by force-directed placement,” Software—Practice and Experience, vol. 21, no. 11, pp. 1129–1164, 1991. View at Publisher · View at Google Scholar· View at Scopus
  29. A. J. Enright, S. Van Dongen, and C. A. Ouzounis, “An efficient algorithm for large-scale detection of protein families,” Nucleic Acids Research, vol. 30, no. 7, pp. 1575–1584, 2002. View at Publisher · View at Google Scholar · View at Scopus
  30. U. Brandes, M. Eiglsperger, J. Lerner, and C. Pich, “Graph markup language (GraphML),” in Handbook of Graph Drawing and Visualization, pp. 517–541, 1999. View at Google Scholar
  31. T. Kamada and S. Kawai, “An algorithm for drawing general undirected graphs,” Information Processing Letters, vol. 31, no. 1, pp. 7–15, 1989. View at Publisher · View at Google Scholar · View at MathSciNet ·View at Scopus
  32. M. Chimani, C. Gutwenger, M. Jünger, G. W. Klau, and K. Klein, The Open Graph Drawing Framework (OGDF), Chapman & Hall, London, UK, 2014.
  33. V. D. Blondel, J. Guillaume, R. Lambiotte, and E. Lefebvre, “Fast unfolding of communities in large networks,” Journal of Statistical Mechanics: Theory and Experiment, vol. 2008, no. 10, Article ID P10008, 2008. View at Publisher · View at Google Scholar · View at Scopus
  34. J. H. Morris, L. Apeltsin, A. M. Newman et al., “ClusterMaker: a multi-algorithm clustering plugin for Cytoscape,” BMC Bioinformatics, vol. 12, article 436, 2011. View at Publisher · View at Google Scholar ·View at Scopus
  35. A. M. Newman and J. B. Cooper, “AutoSOME: A clustering method for identifying gene expression modules without prior knowledge of cluster number,” BMC Bioinformatics, vol. 11, article no. 117, 2010.View at Publisher · View at Google Scholar · View at Scopus
  36. M. B. Eisen, P. T. Spellman, P. O. Brown, and D. Botstein, “Cluster analysis and display of genome-wide expression patterns,” Proceedings of the National Academy of Sciences of the United States of America, vol. 95, no. 25, pp. 14863–14868, 1998. View at Publisher · View at Google Scholar · View at Scopus
  37. B. J. Frey and D. Dueck, “Clustering by passing messages between data points,” American Association for the Advancement of Science. Science, vol. 315, no. 5814, pp. 972–976, 2007. View at Publisher · View at Google Scholar · View at MathSciNet · View at Scopus
  38. M. E. J. Newman and M. Girvan, “Finding and evaluating community structure in networks,” Physical Review E - Statistical, Nonlinear, and Soft Matter Physics, vol. 69, no. 2, Article ID 026113, pp. 1–26113, 2004. View at Publisher · View at Google Scholar · View at Scopus
  39. G. D. Bader and C. W. Hogue, “An automated method for finding molecular complexes in large protein interaction networks,” BMC Bioinformatics, vol. 4, no. 2, 2003. View at Google Scholar
  40. T. Nepusz, R. Sasidharan, and A. Paccanaro, “SCPS: A fast implementation of a spectral method for detecting protein families on a genome-wide scale,” BMC Bioinformatics, vol. 11, article no. 120, 2010.View at Publisher · View at Google Scholar · View at Scopus
  41. T. Wittkop, D. Emig, S. Lange et al., “Partitioning biological data with transitivity clustering,” Nature Methods, vol. 7, no. 6, pp. 419-420, 2010. View at Publisher · View at Google Scholar · View at Scopus
  42. M. Hucka, A. Finney, H. M. Sauro et al., “The systems biology markup language (SBML): a medium for representation and exchange of biochemical network models,” Bioinformatics, vol. 19, no. 4, pp. 524–531, 2003. View at Publisher · View at Google Scholar · View at Scopus
  43. J. S. Luciano and R. D. Stevens, “E-Science and biological pathway semantics,” BMC Bioinformatics, vol. 8, no. 3, article no. S3, 2007. View at Publisher · View at Google Scholar · View at Scopus
  44. H. Hermjakob, L. Montecchi-Palazzi, G. Bader et al., “The HUPO PSI's Molecular Interaction format—a community standard for the representation of protein interaction data,” Nature Biotechnology, vol. 22, no. 2, pp. 177–183, 2004. View at Publisher · View at Google Scholar · View at Scopus
  45. M. Ashburner, C. A. Ball, J. A. Blake et al., “Gene ontology: tool for the unification of biology,” Nature Genetics, vol. 25, no. 1, pp. 25–29, 2000. View at Publisher · View at Google Scholar · View at Scopus
  46. C. T. Lopes, M. Franz, F. Kazi, S. L. Donaldson, Q. Morris, and G. D. Bader, “Cytoscape web: An interactive web-based network browser,” Bioinformatics, vol. 26, no. 18, Article ID btq430, pp. 2347-2348, 2010. View at Publisher · View at Google Scholar · View at Scopus
  47. J. Leskovec and R. Sosi, “SNAP: a general-purpose network analysis and graph-mining library,” ACM Transactions on Intelligent Systems and Technology, vol. 8, no. 1, pp. 1–20, 2016. View at Google Scholar
  48. A. T. Adai, S. V. Date, S. Wieland, and E. M. Marcotte, “LGL: Creating a map of protein function with an algorithm for visualizing very large biological networks,” Journal of Molecular Biology, vol. 340, no. 1, pp. 179–190, 2004. View at Publisher · View at Google Scholar · View at Scopus
  49. A. Hagberg, D. Schult, and P. Swart, “Exploring Network Structure, Dynamics, and Function using Network,” in Proceedings of the 7th Python in Science Conference (SciPy 2008), pp. 11–15, 2008.
  50. E. R. Gansner and S. C. North, “An open graph visualization system and its applications to software engineering,” Software—Practice & Experience, vol. 30, no. 11, pp. 1203–1233, 2000. View at Google Scholar
  51. M. Krzywinski, J. Schein, I. Birol et al., “Circos: An information aesthetic for comparative genomics,” Genome Research, vol. 19, no. 9, pp. 1639–1645, 2009. View at Publisher · View at Google Scholar · View at Scopus
  52. M. Krzywinski, I. Birol, S. J. Jones, and M. A. Marra, “Hive plots-rational approach to visualizing networks,” Briefings in Bioinformatics, vol. 13, no. 5, pp. 627–644, 2012. View at Publisher · View at Google Scholar · View at Scopus
  53. W. J. R. Longabaugh, “Combing the hairball with BioFabric: A new approach for visualization of large networks,” BMC Bioinformatics, vol. 13, no. 1, article no. 275, 2012. View at Publisher · View at Google Scholar · View at Scopus