Redes

Los algoritmos de Facebook solo eliminan el 0,6% del contenido inapropiado

Documentos internos de la compañía muestran las dudas de sus ingenieros sobre la moderación de contenidos realizada por inteligencia artificial

En noviembre, Facebook se convirtió en “Meta”, que aunque no afectaba a sus redes sociales (Instagram, WhatsApp y Facebook), la modificación tendría un objetivo de “lavado de imagen"
En noviembre, Facebook se convirtió en “Meta”, que aunque no afectaba a sus redes sociales (Instagram, WhatsApp y Facebook), la modificación tendría un objetivo de “lavado de imagen"MICHAEL REYNOLDSEFE

Mark Zuckerberg suele hablar de la moderación efectuada por sus algoritmos como el padre orgulloso lo hace de sus hijos, pero la realidad es muy diferente de acuerdo con un nuevo reportaje publicado por The Wall Street Journal. El décimo dentro de la serie The Facebook Files, basados en documentación interna de la compañía y el testimonio de exempleados como Frances Haugen. A la larga lista de problemas documentados por el periódico se añade ahora la moderación de contenido realizada por algoritmos basados en inteligencia artificial.

La investigación del periódico señala que la inteligencia artificial de Facebook no puede identificar de “forma consistente los vídeos con asesinatos grabados en primera persona, las diatribas racistas e incluso, en un episodio que confundió durante semanas a los investigadores, la diferencia entre peleas de gallos y accidentes de tráfico”.

El matiz “de forma consistente” tiene un abanico muy amplio de interpretaciones, pero documentos internos y declaraciones de ingenieros de Facebook lo cifran en porcentajes por debajo de los dos dígitos. Por ejemplo, en un informe de 2019 sobre los discursos de odio, un ingeniero senior escribió que los sistemas automáticos de Facebook solo eliminaban un 2% de las publicaciones que violaban las normas de uso en este aspecto: “el problema es que no tenemos ni posiblemente tendremos un modelo que capture una mayoría de daños a la integridad, particularmente en las áreas sensibles”. Su perspectiva para el futuro no era optimista: “estimaciones recientes sugieren que, sin un cambio importante en la estrategia, será muy difícil mejorar más allá de un 10 o 20% en el corto y medio plazo.”

Y en este mismo mes de marzo un equipo de empleados de Facebook llegaba a conclusiones similares. En otro informe estimaban que los algoritmos eliminaban los posts que generaban entre el 3 y el 5% de las visualizaciones que reciben los contenidos de odio en la plataforma, y que la cifra baja hasta un 0,6 % si se considera todo el contenido publicado en Facebook que viola sus políticas contra la violencia.

Oficialmente, Facebook lo ve mucho mejor

Andy Stone, portavoz de Facebook, puntualiza a Wall Street Journal que esos porcentajes se refieren solo a la moderación por IA y que no incluyen otras medidas que toma la compañía como disminuir la visibilidad de las publicaciones infractoras, de forma que su impacto es mucho menor. También argumenta que un 98% de las denuncias de contenido que realizan usuarios ya han sido identificadas por la inteligencia artificial antes de ser reportadas y que en 2021 solo 5 de cada 10.000 contenidos vistos contienen discursos de odio, mientras que en 2020 eran 10 de cada 10.0000.  En 2017, sólo el 24% del contenido eliminado había sido detectado por IA y el resto provenía de las denuncias de otros usuarios.

Facebook denomina Clasificadores a los algoritmos que detectan las violaciones de uso de sus políticas y que actualmente son la base de su sistema de moderación. Eficaces para detectar spam, pero no tanto con asuntos complejos donde importa el contexto cultural y las, en ocasiones, complejas normas de la plataforma. En otro documento interno de 2019, un ingeniero explicaba que “los clasificadores son como estudiantes de primaria que necesitan un profesor (un revisor humano) para llegar a licenciarse, pero aún son bastante ingenuos”.

Hace cinco años la detección dependía principalmente de las denuncias de usuarios y desde entonces Zuckerberg ha apostado por las herramientas de IA para identificar el contenido problemático. En este periodo de tiempo, la compañía ha gastado 13.000 millones de dólares en seguridad para sus usuarios.

El desarrollo de los algoritmos también tiene que ver con los elevados costes de mantener moderadores humanos, dado que la persecución de discursos del odio es el problema más caro dentro del presupuesto total de la compañía y el 75% de los costes para esta área proviene de la contratación de personal para revisar las denuncias realizadas por usuarios. En documentos de 2019 se cifraba en 104 millones de dólares al año el coste de los moderadores humanos para el contenido de odio.

El reportaje de Wall Street Journal también acusa a Facebook de haber mejorado sus porcentajes de detección en 2019 reduciendo el tiempo que los moderadores humanos dedicaban a la revisión de las denuncias de los usuarios para depender más de la IA e inflar sus estadísticas. Igualmente se enrevesó el procedimiento de denuncia que debían seguir los usuarios para reducir el número de denuncias.

Zuckerberg se ha mostrado muy optimista en numerosas declaraciones sobre los resultados que ofrecerán los algoritmos de la compañía e incluso hace tres años dio un plazo de entre cinco y diez para que la gran mayoría del contenido de odio fuera detectado. Y anteriormente había declarado que para finales de 2019 la IA detectaría la mayor parte del contenido problemático. La documentación interna de la compañía muestra lo lejos que aún están de ese objetivo.

El caso de las peleas de gallos y los accidentes de tráfico

A mediados de 2018, usuarios veían aparecer en su feedvideos de accidentes de coches y de peleas de gallos que la IA debía detectar y eliminar, pero no estaba sucediendo.  Las propias reglas de Facebook, por las que peleas de gallos en las que las aves no fueran seriamente heridas eran permitidas, dificultaban afinar la detección.

Así que los ingenieros de Facebook comenzaron a entrenar un sistema de IA mediante programas de aprendizaje automático al respecto, para encontrarse con otro problema una vez la IA conseguía distinguir el nivel de violencia en las peleas. En algunos casos se etiquetaban como “accidentes de tráfico” en lugar de “peleas de gallos”.

Y algo parecido sucedía con material mucho más sensible como el streaming de tiroteos en la plataforma como sucedió en el atentado de Nueva Zelanda de 2019 donde murieron 51 personas y el asesino lo retransmitió a través de Facebook.  En algunos casos la IA no reconocía estos tiroteos mientras que en otros etiquetaba videos inocuos con escenas de paintball e, incluso, túneles de lavado de coches.