Biblioteca digital
El entrenamiento de una inteligencia artificial tumba Internet Archive
El repositorio de Internet, en el que se almacenan webs y otros contenidos digitales, es una de las fuentes de datos que emplean las empresas para entrenar sus inteligencias artificiales
Creado en 1996, el Archivo de Internet es una biblioteca digitalgestionada por la organización sin ánimo de lucro del mismo nombre y dedicada a preservar y proporcionar acceso gratuito a una vasta cantidad de contenido digital que incluye páginas web, libros, música, películas, programas de televisión y más. Su web, que recibe cada día en torno a los 4 millones de visitas según Similarweb, se vio este fin de semana sobrecargada e inaccesible en varios momentos. ¿El motivo? Una desconocida inteligencia artificial que estaba entrenándose con sus datos.
Usuarios de todo el mundo, la caída fue general, se encontraron este domingo con un mensaje de Server error 502 al intentan acceder al repositorio. No solo a la web principal sino también a su popular Wayback Machine que permite acceder a copias almacenadas de más de 600 mil millones de páginas web. El problema duró en torno a una hora hasta que los ingenieros de Internet Archive lo identificaron y solucionaron.
Según ha explicado Mark Graham, responsable de Wayback Machine, a Forbes la caída de la web se debía a la actividad de una inteligencia artificial que estaba recopilando archivos OCR de Internet Archive. En una publicación en el blog de Internet Archive, Brewster Kahle explica que empezaron a recibir decenas de miles de peticiones por segundo provenientes de 64 máquinas virtuales hospedadas en la plataforma AWS de Amazon.
“Incluso para los estándares web, decenas de miles de solicitudes por segundo es un montón”, ha señalado Kahle sobre la sobrecarga que tumbó la web. Los ingenieros de Internet Archive decidieron bloquear las direcciones IP de las que provenían la inusual avalancha de peticiones y consiguieron que Internet Archive volviera a funcionar con normalidad.
Pero el problema no había finalizado. Dos horas más tarde, otras 64 IPs repitieron el mismo comportamiento y volvieron a bloquear el acceso a Internet Archive durante otra hora, hasta que de nuevo fueron bloqueadas, sin que se haya vuelto a repetir el incidente.
Que grandes repositorios de Internet como GitHub, Wikipedia o este Internet Archive formen parte de los conjuntos de datos con los que las compañías entrenan sus herramientas de inteligencia artificial es común, pero este es el primer caso conocido en el que tumban una web mientras acceden a ella.
Internet Archive ha afirmado que no tiene inconveniente en que se usen sus datos para entrenar una inteligencia artificial, pero pide a las compañías que lo hagan que “comiencen lentamente y después aumenten”. También que si se trata de un proyecto de gran envergadura, contacten con ellos para colaborar o si se da el caso de que los bloqueen como ha sucedido en esta ocasión, pero no “que empiecen de nuevo”.
✕
Accede a tu cuenta para comentar