¿Cuántos tipos de bot de LLM andan sueltos?
6 de nov. de 2024 - #Informática
A día de hoy estoy bloqueando desde están pequeña página nada menos que 37 bots de recopilación de datos para LLM o Inteligencia Artifical Generativa. Como estoy ampliando los 15 proporcionados originalmente por la página de expecificación del standard robots.txt
, os comparto mi lista actual:
1 | User-agent: AI2Bot |
Yo tengo principalmente cuatro razones para bloquear:
- Evitar colapso de acceso a la página por un volumen de peticiones equivalente a un ataque de denegación de servicio.
- Ganar tiempo hasta que exista un marco legal sólido que garantice el cumplimiento de las licencias.
- No colaborar en la centralización de conocimiento tras un muro de pago.
- Tener pocas ganas de hacerle el trabajo a otro cuando un LL regurgite lo que llevo años escribiendo.
El precio a pagar es que mi sitio desaparece de algunos motores de búsqueda mayoritarios. Para mi no es ninguna crisis, pero si eres propietario de un sitio con finalidad comercial esta postura puede ser muy radical. En tu mano queda emplear la lista de forma parcial o completa, puesto que cada uno utiliza las herramientas según sus necesidades.
Como nota final, recordad que el uso de estos ficheros de configuración no es una solución infalible: se trata de una solicitud a los bots que éstos podría ignorar, tal como hizo Perplexity con Wired, o directamente el bot podría mentir en la identificación de su parámetro User-Agent, tal como hemos visto hacer a Perplexity con Robb Knight.