martes, 2 de enero de 2018

Sesgo de selección al trabajar con datos de Facebook

Cómo Facebook estila las ciencias sociales

Cuando las empresas privadas tienen datos que necesitan los estudiosos, ¿qué sucede con la investigación académica?

Por Henry Farrell || The Chronicle of Higher Education

Brian Taylor para The Chronicle Review

¿Cuál fue exactamente el alcance de la intromisión rusa en la campaña electoral de 2016? ¿Qué tan extendida fue su infiltración de las redes sociales? ¿Y cuánta influencia tuvo su propaganda en la opinión pública y el comportamiento de los votantes?

Los académicos solo ahora están empezando a abordar esas preguntas. Pero para responderlas, los académicos necesitan datos, y obtener esos datos ha sido un problema.

Tomemos un ejemplo reciente: Jonathan Albright, un investigador de la Universidad de Columbia, investigó varias páginas compradas en Rusia que Facebook había anotado. Concluyó que habían acumulado potencialmente cientos de millones de visitas. David Karpf, profesor asociado de medios y asuntos públicos en la Universidad George Washington, no estaba convencido, argumentando que la mayoría de las "personas" a las que les habían gustado estas páginas eran muy probablemente bots rusos. (Divulgación completa: encargué y edité la publicación de Karpf en el blog Monkey Cage de The Washington Post).

Por lo general, tales desacuerdos se resuelven a través de los datos. El problema al que se enfrentan académicos como Albright y Karpf es que hay pocos datos públicamente disponibles en Facebook. Para su estudio, Albright tuvo que usar una herramienta poco convencional propiedad de Facebook llamada CrowdTangle para encontrar cualquier cosa. Después de haber publicado sus hallazgos iniciales, Facebook anunció rápidamente que había "corregido un error" en el software utilizado por Albright, lo que hacía imposible que otros investigadores replicaran lo que hizo. Albright y Karpf se quedan en una situación muy desdichada: los datos que necesitan para comprender lo que sucedió simplemente ya no están disponibles.

Las grandes empresas como Google, Facebook y Apple tienen datos mucho mejores y menos accesibles que el gobierno. Esto está remodelando la investigación en ciencias sociales.

Ese es un ejemplo de un cambio extraordinario en la política y la práctica de las ciencias sociales. Las empresas como Facebook tienen información crucial sobre el comportamiento social y político de las personas. Pero son extremadamente reacios a proporcionar esa información a personas ajenas, a menos que esas personas externas firmen acuerdos de confidencialidad (NDA, por sus siglas en inglés) que otorguen a Facebook el poder de demandar si la información se utiliza de manera que la empresa considere objetable.

Esto marca un cambio significativo para los investigadores. Solía ​​ser que los estados eran la fuente más importante de datos sobre sus ciudadanos, la economía y la sociedad. Tuvieron que recopilar y agregar grandes cantidades de información, por ejemplo, censos de personas y empresas, para sus propios fines. Además, las agencias estatales ayudaron a financiar proyectos de ciencias sociales en la recopilación de datos, como el apoyo de la National Science Foundation a los American National Election Studies durante décadas.

En consecuencia, la política de acceso a los datos solía estar más centrada en el estado. Algunas veces, el estado era reacio a proporcionar información, ya sea para proteger la privacidad, ocultar sus errores o mantener el control de la información confidencial. Pero en su mayor parte, normalmente proporcionaba acceso, y los académicos podían presionarlo cuando se estancaba. En ese mundo, los académicos podían recurrir a fuentes comunes, y generalmente (aunque no siempre) tenían un acceso más o menos igualitario.

Hubo un inconveniente: las preguntas de los académicos se formaron por los datos que podían obtener. Pero lo bueno fue que la investigación generalmente era reproducible. Los desacuerdos como ese entre Albright y Karpf podrían llevarse a cabo en igualdad de condiciones.

Ahora estamos entrando en una nueva era para las ciencias sociales. Para muchos propósitos académicos, las grandes empresas como Google, Facebook y Apple tienen datos mucho mejores que el gobierno, y esos datos son mucho menos accesibles. Este nuevo universo de datos privados está remodelando la investigación en ciencias sociales de maneras que se comprenden mal.

En este nuevo mundo valiente, el acceso a los datos es una jungla. No existen reglas universales: las empresas tienen sus propias políticas individuales sobre cuándo proporcionan a los científicos sociales acceso común a los datos, o pueden hacerlo de forma ad hoc, o pueden negarse por completo. Cuando estas firmas construyen relaciones, generalmente es con investigadores individuales o pequeños grupos de investigadores, cuyo trabajo puede ser valioso para la empresa. Y esas relaciones generalmente están cubiertas por NDA u otras reglas contractuales que restringen cómo los investigadores pueden usar los datos y resumirlos en investigaciones publicadas.

Eso puede tener grandes consecuencias para las carreras académicas. Algunos académicos, aquellos con conexiones con las firmas adecuadas, pueden prosperar. Aquellos sin conexiones tienen que ser creativos para hacer su trabajo. A veces es posible que obtengan acceso directo a datos agregados sin cadenas, a través de herramientas como Google Trends. A veces pueden reutilizar las herramientas que Facebook y otras compañías ponen a disposición de los anunciantes u otros clientes comerciales (CrowdTangle es un ejemplo). Sin embargo, los datos recopilados de esa manera pueden no ser adecuados para fines específicos de investigación.

Eso no quiere decir que los datos que provienen directamente de las empresas sean perfectos, ni nada por el estilo. Detrás de cada gran conjunto de datos existe un gran crimen. Casi todos los datos de las ciencias sociales están sesgados por las suposiciones y las metodologías (a veces problemáticas) que se utilizaron para recopilarlas. Los conjuntos de datos construidos por el Estado en su apogeo fueron defectuosos en muchos sentidos y continúan siéndolo. Sin embargo, a medida que los estándares profesionales mejoraron, los defectos se entendieron mejor y fueron más transparentes.

Las nuevas formas de datos de compañías privadas son más problemáticas. Se recolectan principalmente con fines comerciales en lugar de investigación. A menudo se recolectan mediante técnicas de aprendizaje automático, que producen clasificaciones que son oscuras incluso para sus creadores. Los hallazgos basados ​​en estos datos se retroalimentan para remodelar los algoritmos con miras a cambiar el comportamiento humano, por ejemplo, hacer que los individuos sean más propensos a hacer clic en los anuncios, para que los datos a menudo no sean comparables con el tiempo.

En combinación, esos factores pueden significar que es realmente difícil interpretar los datos. Por ejemplo, ¿hasta qué punto los cambios en el comportamiento en Facebook pueden ser impulsados ​​por cambios subyacentes en la sociedad, y en qué medida por los cambios a los algoritmos de Facebook? Excepto bajo ciertas circunstancias, digamos, cuando Facebook ejecuta experimentos controlados, puede ser difícil de decir.

Las restricciones de acceso presentan desafíos adicionales. Las NDA y otros acuerdos pueden no solo evitar que los investigadores compartan datos con sus colegas, sino que también pueden evitar que brinden información valiosa sobre cómo se recopilaron y procesaron los datos.

Juntos, esos factores significan que podemos estar a punto de presenciar una colisión entre el movimiento de reproducibilidad, que está ganando terreno en las ciencias sociales, y el nuevo mundo de datos patentados, que socava la reproducibilidad porque la información es inaccesible para otros y susceptible de ser destruido si no conserva el valor comercial.

Si los académicos comienzan a confiar en las empresas privadas para obtener datos, los contornos de campos académicos completos pueden estar sujetos a formas generalizadas de sesgo de selección.

 Aún más preocupante, el control corporativo de los datos puede conducir a dos tipos de sesgo de selección. Más obviamente, los hallazgos poco favorecedores probablemente no se publicarán si las corporaciones tienen algo que decir. Por ejemplo, Uber financió a científicos sociales para llevar a cabo investigaciones sobre si su servicio era más barato o más rápido que los taxis estándar. La investigación sugirió que Uber era de hecho más barato y más rápido, pero Uber insistió en mantener el control sobre si los resultados se publicaron o no. No se necesita una mente especialmente sospechosa para adivinar que Uber habría retenido el permiso para la publicación si los resultados hubieran sugerido que su servicio era peor que los taxis. Cuando las empresas utilizan el acceso propietario a los datos y los acuerdos legales para mantener el control sobre la publicación, tienen fuertes incentivos para permitir la publicación de solo material que los favorece. Con el tiempo, esto llevará a sesgar la investigación públicamente disponible.

De manera más insidiosa, si los académicos comienzan a depender de las empresas privadas para obtener datos, los contornos de campos académicos completos pueden estar sujetos a formas generalizadas de sesgo de selección. Ciertos temas y métodos de investigación serán favorecidos, mientras que otros se quedan en el camino. Facebook es muy sensible a la sugerencia de que su servicio puede tener consecuencias políticas, salvo las más inocuas. Sus investigadores y politólogos colaboraron en un importante experimento que muestra que los mensajes de Facebook podrían hacer que la gente tenga más probabilidades de votar, pero fue especialmente sensible a nuevas consultas sobre cómo la ubicación de noticias de Facebook influye en el comportamiento político, eliminando un video de YouTube en el que un investigador de Facebook había descrito lo que habían hecho con un poco de detalle. Facebook bien puede tener grandes efectos en la política, no solo en las elecciones de los EE. UU., Sino en otros contextos (como la Primavera Árabe). Pero no tiene ningún incentivo para permitir que los expertos utilicen sus datos para llevar a cabo investigaciones sobre la mayoría de esos efectos, por lo que líneas de investigación completas pueden terminar muertas.

Luego está el aspecto ético de realizar investigaciones utilizando datos de empresas privadas. Las empresas como Facebook, que no están sujetas a normas académicas, pueden verse tentadas a tomar decisiones éticas dudosas, cuando, por ejemplo, tratan los ecosistemas de medios de países enteros como ratones en un experimento de laboratorio. Sin embargo, los académicos no pueden lidiar mejor con la tentación. El personaje de los Simpson, el Dr. Marvin Monroe, tiene la ambición de construir una "caja Monroe", en la que mantendrá a un bebé hasta la edad de 30 años, sometiéndolo a momentos aleatorios a electrocución y duchas de agua helada para probar la hipótesis de que resentir a su captor. Todos los científicos sociales tienen un poco de Marvin Monroe en sus corazones, y muchos podrían verse tentados, si tan solo tuvieran los medios, de enviar multitudes de seres humanos corriendo como ratas a través de laberintos de información social sutilmente sesgada para ver qué caminos toman. En un mundo dominado por datos de empresas privadas, es más fácil para los académicos llevar a cabo el trabajo fuera de las restricciones éticas habituales. Los autores de un estudio de 2014 sobre las redes sociales y el "contagio emocional" no tuvieron que someterse a la aprobación del IRB para su trabajo, ya que el experimento ya había sido llevado a cabo por Facebook. Espere que esta tendencia continúe a medida que crezca el uso de datos privados.

Como muestra la historia de Albright-Karpf, estos problemas ya no son meramente académicos. Facebook está sometido a un intenso escrutinio político debido a su aparente ceguera ante las operaciones de influencia rusa. Los investigadores del Congreso son más propensos que los académicos externos a tener éxito en insistir en el acceso a los datos. La política de los datos está cambiando, tal vez de manera significativa. Muchos miembros del Congreso consideran que ya no es apropiado que gran parte de la conversación nacional tenga lugar dentro de una caja negra. Otros servicios que también están bajo un mayor escrutinio, como Twitter, han sido más abiertos, aunque también ha sido caprichoso en su disposición a permitir que otros obtengan acceso a sus datos.

Esto probablemente terminará en frustración y confrontación mutua. Los miembros del Congreso no son especialmente expertos técnicamente y, a lo largo de las décadas, han despojado a muchas de las instituciones (como la Oficina de Evaluación Tecnológica) que podrían haberles proporcionado una guía autorizada.

Sin embargo, hay otro camino posible hacia adelante. Facebook y los otros grandes jugadores en el mundo de los datos sociales podrían aliviar parte de la presión política sobre ellos al rehacer su relación con la academia. Va a ser difícil para estas empresas mantener la postura de "mantener las manos fuera" que han tenido sobre sus datos en el pasado. Si van a tener que ser más responsables públicamente, probablemente estén mejor construyendo relaciones con académicos, que tengan un conocimiento técnico, que con personas designadas por razones políticas, que normalmente no lo hacen.

Facebook, Google y Twitter podrían acordar proporcionar datos a un observatorio académico independiente. Este acuerdo funcionaría bajo reglas éticas explícitas y ampliamente acordadas. El observatorio llevaría a cabo y publicaría investigaciones sobre problemas derivados del abuso de los servicios de medios sociales por parte de terceros (como ocurrió con Rusia), acreditaría a investigadores confiables que podrían tener acceso a datos tanto para fines de investigación original como de replicación, y coordinaría con gobierno y otras partes con un interés claro y legítimo en combatir el comportamiento abusivo.
En términos más generales, este observatorio podría proporcionar un ancla real para el debate sobre las consecuencias reales de los medios sociales para la sociedad y la política. Si bien a las compañías de tecnología a veces no les gustarían sus hallazgos, estarían mejor si los debates políticos se basasen en hechos y datos en lugar de en especulaciones de segunda mano mal informadas, a veces alarmistas.

Tal acuerdo podría proporcionar supervisión sin requerir que las compañías sacrifiquen por completo sus modelos comerciales. También podría ayudar a resolver los problemas de seguridad transversales mejor de lo que cualquier empresa podría hacerlo. Las empresas comerciales tienen pocos incentivos para compartir datos con sus competidores, ya que estos datos suelen estar en el corazón de sus modelos comerciales. Esto lleva a una fragmentación general del conocimiento, en la que las empresas competidoras tienen diferentes tipos de datos que podrían ilustrar un problema desde múltiples perspectivas. Las operaciones de influencia rusa han involucrado acciones combinadas en Facebook, YouTube, Twitter y Google. Un centro independiente podría rastrear esas relaciones a través de diferentes servicios sin comprometer las necesidades comerciales de las empresas individuales.

Todo esto implicaría una gran creatividad e ingenio por parte de los propios negocios, así como de los investigadores con quienes podrían trabajar. Tendrían que crear un nuevo tipo de acuerdo para dicho observatorio, que sería similar a algunas organizaciones existentes, como los equipos de preparación para emergencias informáticas, o CERT, que ya desempeñan un papel clave en la ciberseguridad. Tal organización requeriría un financiamiento independiente sustancial, probablemente canalizado a través de una fundación u otro acuerdo sin fines de lucro. Eso no solo resolvería algunos de los problemas más complicados de la relación entre la erudición y el comercio electrónico, sino que también integraría la investigación académica y las capacidades de los grandes datos en la búsqueda de objetivos sociales y políticos importantes.

No está claro que este resultado sea políticamente factible en este momento. Es muy probable que Facebook, Twitter y Google piensen en su situación como un problema de relaciones públicas a corto plazo en lugar de una crisis existencial que amenaza con convertirse. Eso es miope. Las crisis y los escándalos tienden a escalar, especialmente cuando la falta de datos significa que incluso los investigadores más sofisticados se ven obligados a adivinar lo que realmente está sucediendo. Si las empresas de medios sociales no se despiertan a los problemas del mundo que están construyendo, en el que la información más crucial sobre cómo el trabajo de la política y la sociedad está escondido detrás de los muros de propiedad y los acuerdos de confidencialidad, es probable que encuentren su negocio básico modelos bajo ataque después del próximo gran escándalo, o el siguiente después.

No hay comentarios:

Publicar un comentario