martes, 29 de julio de 2014

Detectando robots sociales en Twitter

Cómo detectar un Bot Social en Twitter 
Bots sociales están enviando una cantidad significativa de información a través del Twittersphere. Ahora hay una herramienta para ayudar a identificarlos. 
MIT Technology Review



Ya en 2011, un equipo de la Universidad de Texas A & M University llevó a cabo una trampa cibernética para atrapar a los usuarios de Twitter no humanos que estaban contaminando la Twittersphere con spam. Su enfoque fue la creación de cuentas "honeypot" que publican contenido sin sentido que ningún usuario humano jamás se interese. Cualquier cuenta que retweeted este contenido, o se amigue al propietario, seguramente debe ser un usuario no-humano conocido como un robot social.

El equipo creó 60 honeypots y cosechó unos 36.000 potenciales cuentas bot sociales. El resultado sorprendió a muchos observadores debido a la gran cantidad de cuentas de no humanos que estaban activas. Estos robots eran en general poco sofisticadas y simplemente retweeteaban más o menos cualquier contenido que encontraban.

Desde entonces, los robots sociales se han convertido en mucho más avanzado. Buscan las redes sociales para las personas populares e influyentes, los siguen y capturar su atención mediante el envío de mensajes. Estos bots pueden identificar palabras clave y encontrar contenido en consecuencia y algunos incluso pueden responder preguntas utilizando algoritmos en lenguaje natural.

Eso hace que la identificación de los robots sociales mucho más difícil. Pero hoy en día, Emilio Ferrara y sus amigos en la Universidad de Indiana en Bloomington, dicen que han desarrollado una forma de detectar sofisticados robots sociales y distinguirlos de los usuarios humanos ordinarios.

La técnica es relativamente sencillo. Comienzan reuniendo a un conjunto de robots sociales del grupo original marginado en 2011. Eligieron 15.000 de ellos y se recogieron sus 200 Tweets más recientes, así como los 100 Tweets más recientes que mencionan ellos. Eso produjo un conjunto de datos de unos 2,6 millones de tweets. Posteriormente, el equipo reunió a un conjunto de datos similar para 16.000 usuarios humanos que consisten en más de 3 millones de tweets.

Por último, los investigadores crearon un algoritmo llamado Bot o no? para extraer estos datos en busca de diferencias significativas entre las propiedades de los usuarios humanos y los robots sociales. El algoritmo miró más de 1.000 funciones asociadas a estas cuentas, como el número de tweets y retweets cada usuario publicado, el número de respuestas, menciones y retweets cada uno recibió, la longitud nombre de usuario, e incluso de la edad de la cuenta.

Resulta que hay diferencias significativas entre las cuentas humanos y cuentas bot. Motores de búsqueda tienden a Retweet mucha más frecuencia que los seres humanos y también tienen nombres de usuario largos y cuentas más jóvenes. Por el contrario, los seres humanos reciben más respuestas, menciones y retweets.

En conjunto, estos factores crean un tipo de huella digital que se puede utilizar para detectar los robots. "Bot o no? logra la precisión de detección muy prometedor ", dicen Ferrara y amigos.

Hay algunas limitaciones, sin embargo. En primer lugar, el equipo tomó los robots sociales identificados originalmente en el año 2011 por lo que es muy posible que ahora hay robots más avanzados que son menos fáciles de detectar.

Y también hay casos límite que contienen mensajes de los seres humanos y los robots sociales, por ejemplo, cuando los seres humanos prestan sus cuentas de bots o cuando las cuentas han sido hackeadas por los robots. "La detección de estas anomalías es imposible en la actualidad," admitir Ferrara y co.

Sin embargo, este es un interesante comienzo en el proceso de identificación de los robots sociales. Pero es una tarea que pueda ser más difícil, ya que pasa el tiempo. Con sólo 140 caracteres, Twitter impone limitaciones significativas en el tipo de comunicación que sea posible. Por lo tanto, es mucho más fácil para un ordenador para recrear el comportamiento muy limitado que los seres humanos demuestran en este espacio.

Para los interesados, Ferrara y co han hecho su Bot o no? algoritmo disponible en este sitio web. Basta con introducir el nombre de usuario del usuario de Twitter y analizará sus características y la mayoría de los mensajes recientes para determinar la probabilidad de que sea un bot social.

No estaba funcionando en el momento de la escritura, tal vez víctima de un bot sociales agraviados. Pero si está funcionando ahora, darle una oportunidad y publicar sus pensamientos en la sección de comentarios a continuación.


Ref: http://arxiv.org/abs/1407.5225 : The Rise of Social Bots

No hay comentarios:

Publicar un comentario