ENTRE DRAGONES Y PINGÜINOS


¿Cuántos tipos de bot de LLM andan sueltos?

6 de nov. de 2024 - #Informática

A día de hoy estoy bloqueando desde están pequeña página nada menos que 37 bots de recopilación de datos para LLM o Inteligencia Artifical Generativa. Como estoy ampliando los 15 proporcionados originalmente por la página de expecificación del standard robots.txt, os comparto mi lista actual:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
User-agent: AI2Bot
User-agent: Ai2Bot-Dolma
User-agent: Amazonbot
User-agent: Applebot
User-agent: Applebot-Extended
User-agent: Bytespider
User-agent: CCBot
User-agent: ChatGPT-User
User-agent: Claude-Web
User-agent: ClaudeBot
User-agent: Diffbot
User-agent: FacebookBot
User-agent: FriendlyCrawler
User-agent: GPTBot
User-agent: Google-Extended
User-agent: GoogleOther
User-agent: GoogleOther-Image
User-agent: GoogleOther-Video
User-agent: ICC-Crawler
User-agent: ImagesiftBot
User-agent: Meta-ExternalAgent
User-agent: Meta-ExternalFetcher
User-agent: OAI-SearchBot
User-agent: PerplexityBot
User-agent: PetalBot
User-agent: Scrapy
User-agent: Timpibot
User-agent: VelenPublicWebCrawler
User-agent: Webzio-Extended
User-agent: YouBot
User-agent: anthropic-ai
User-agent: cohere-ai
User-agent: facebookexternalhit
User-agent: iaskspider/2.0
User-agent: img2dataset
User-agent: omgili
User-agent: omgilibot

Yo tengo principalmente cuatro razones para bloquear:

El precio a pagar es que mi sitio desaparece de algunos motores de búsqueda mayoritarios. Para mi no es ninguna crisis, pero si eres propietario de un sitio con finalidad comercial esta postura puede ser muy radical. En tu mano queda emplear la lista de forma parcial o completa, puesto que cada uno utiliza las herramientas según sus necesidades.

Como nota final, recordad que el uso de estos ficheros de configuración no es una solución infalible: se trata de una solicitud a los bots que éstos podría ignorar, tal como hizo Perplexity con Wired, o directamente el bot podría mentir en la identificación de su parámetro User-Agent, tal como hemos visto hacer a Perplexity con Robb Knight.

,