El pasado mes de junio trajo dos buenas noticias para las empresas que desarrollan herramientas de inteligencia artificial generativa. Dos sentencias emitidas en California, que afectan a Anthropic en un caso y a Meta en otro, encuadran el haber alimentado con libros protegidos por derechos de autor a sus modelos de inteligencia artificial dentro del fair use o uso justo que permite la legislación estadounidense. Es decir, no tenían que compensar económicamente a nadie por hacerlo. Sin embargo, no todo rema en esa dirección y ahora ha sido Cloudflare, uno de los principales proveedores de la infraestructura de Internet, quien ha tomado una medida que pondrá las cosas más difíciles a los chatbots que generan sus respuestas a partir de la información que encuentran en la Red.

Cloudflare bloqueará a partir de ahora de forma predeterminada a los rastreadores web de IA conocidos para evitar que ‘accedan a contenido sin permiso ni compensación’, según anunció este martes. Con este cambio, Cloudflare comenzará a preguntar a los nuevos propietarios de sitios web si autorizan el acceso de los rastreadores de IA, y permitirá que apliquen una tarifa de ‘Pago por Rastreo’ (Pay Per Crawl).

Si esto es importante, es porque Cloudflare es una de las patas sobre las que se asienta Internet proporcionando servicios como CDN (que distribuye el contenido por servidores en todo el mundo para que las webs carguen más rápido desde cualquier lugar), DNS (traduce los nombres de los dominios en direcciones IP que entienden los ordenadores) y protección contra ataques, entre otros. Buena parte de Internet pasa por sus servidores y servicios.

Paga por rastrear

Así, el programa Pay Per Crawl permitirá a los editores fijar un precio para que los rastreadores de IA accedan a su contenido. Las empresas de IA podrán consultar las tarifas y decidir si se registran para pagar la cuota o si desisten. Por ahora, esto solo está disponible en fase beta para ‘un grupo de algunos de los principales editores y creadores de contenido’, entre los que se encuentran The Associated Press, The Atlantic, Fortune, Stack Overflow, Quora y otros, pero Cloudflare asegura que garantizará que ‘las empresas de IA puedan utilizar contenido de calidad de la forma correcta: con permiso y compensación’. Los administradores de sitios web que estén interesados pueden apuntarse a la beta aquí.

Cloudfare quiere poner freno a la voracidad de la IA

Cloudflare lleva tiempo ayudando a los propietarios de webs a defenderse de los rastreadores de IA. Una de las preocupaciones del sector es que, desde que ha explotado la IA y Google la ha añadido a su Buscador, han visto cómo se reducen las visitas a sus páginas, dado que el usuario ya encuentra lo que busca en un chatbot como ChatGPT o en las Vistas creadas con IA que resumen la información que los usuarios buscan en Google. El acceso a la información con la que alimentan las respuestas de los chatbots ha sido, hasta ahora, una barra libre para las empresas de IA, pero Cloudflare quiere que eso cambie.

‘La gente confía más en la IA en los últimos seis meses, lo que significa que no leen el contenido original’, afirmó el CEO de Cloudflare, Matthew Prince, durante el evento Axios Live la semana pasada.

La compañía empezó a permitir que los sitios web bloquearan a los rastreadores de IA en 2023, aunque esto solo se aplicaba a aquellos que respetaban el archivo robots.txt del sitio. Este es un archivo de texto alojado en el servidor que los sitios web usan para indicar a los bots y rastreadores qué partes de su contenido pueden o no explorar e indexar. La empresa identifica a los rastreadores que debe bloquear comparándolos con su lista de bots de IA conocidos.

El año pasado, Cloudflare permitió que los sitios bloquearan a ‘todos’ los bots de IA, independientemente de si respetaban o no el robots.txt, y ahora esta configuración está activada por defecto para los nuevos clientes de Cloudflare.

Además, Cloudflare lanzó en marzo una función que desvía a los bots rastreadores hacia un ‘Laberinto de IA’ para desincentivar extraer contenido sin permiso. Este sistema disuade el scraping (recopilar de forma automática datos de los sitios web) redirigiendo a los bots rastreadores a enlaces falsos o que no contienen información útil, haciéndoles gastar tiempo y recursos en procesos inútiles.

Cloudflare señala que está colaborando con empresas de IA para ayudar a verificar sus rastreadores y permitirles ‘declarar claramente su propósito’, como si usan el contenido para entrenamiento, inferencia o búsqueda. Los propietarios de los sitios web podrán revisar esta información y decidir a qué rastreadores permiten el acceso.

‘El contenido original es lo que hace de Internet uno de los mayores inventos del último siglo, y tenemos que unirnos para protegerlo’, señala Prince en el comunicado de prensa. ‘Los rastreadores de IA han estado extrayendo contenido sin límites. Nuestro objetivo es devolver el poder a los creadores, sin dejar de ayudar a las empresas de IA a innovar’, añade.