Cómo bloquear el nuevo rastreador web de entrenamiento de IA de OpenAI para que no ingiera tus datos

Cómo bloquear el rastreador web de IA de OpenAI para proteger tus datos

OpenAI, el creador de ChatGPT, ha lanzado un nuevo rastreador web, llamado GPTBot, junto con instrucciones sobre cómo bloquearlo.

ChatGPT es uno de los sistemas de inteligencia artificial más capaces jamás construidos, a pesar de los informes recientes sobre su inteligencia fluctuante. OpenAI, la empresa detrás del chatbot de IA, continúa entrenando sus grandes modelos de lenguaje (LLMs), como GPT-3.5 y GPT-4.

También: ChatGPT está recibiendo una serie de actualizaciones esta semana. Esto es lo que necesitas saber

Los rastreadores web, utilizados por los motores de búsqueda como Google y Bing para escanear sitios web e indexar contenido, también son utilizados por empresas de IA para entrenar LLMs. Estos modelos aprenden del contenido de los sitios web y de cualquier otro dato que sus desarrolladores elijan para entrenarlos. El uso de un rastreador web acelera este proceso al permitir que los LLMs se entrenen con grandes cantidades de datos.

“Permitir que GPTBot acceda a tu sitio puede ayudar a que los modelos de IA sean más precisos y mejoren sus capacidades generales y su seguridad”, indica OpenAI en su documentación sobre GPTBot. La empresa afirma que está filtrando las páginas web que requieren acceso a una barrera de pago, recopilan información de identificación personal y contienen texto que viola las políticas de OpenAI.

Los desarrolladores tienen la opción de bloquear a GPTBot para que no acceda a sus sitios y no utilice su información para entrenar sistemas de IA.

OpenAI explica cómo prohibir o personalizar el acceso de GPTBot a tu sitio.

Para bloquear completamente el acceso de GPTBot a un sitio, el propietario del sitio puede agregar el token de GPTBot al archivo robots.txt del sitio y “Disallow: /”.

OpenAI también permite a los usuarios personalizar el acceso de GPTBot al permitirle rastrear solo ciertas partes de su sitio. Para bloquear el acceso de GPTBot a partes de un sitio web, agrega GPTBot al archivo robots.txt del sitio y “Allow: /directorio-1/” y “Disallow: /directorio-2/” y personalízalos según sea necesario.

También: Nvidia potencia su ‘superchip’ Grace-Hopper con memoria más rápida para IA

OpenAI no había anunciado previamente el uso de rastreadores web para entrenar a GPT-3.5, el LLM detrás de la versión gratuita de ChatGPT, o GPT-4, su nuevo LLM disponible para los suscriptores de ChatGPT Plus y que alimenta la IA de Bing.

Aunque no está claro si GPTBot se utilizó para entrenar a los LLMs actualmente disponibles de OpenAI, podría tratarse del rastreador web que entrena a GPT-5, especialmente debido a que la empresa solicitó el registro de la marca en julio. Aunque OpenAI no ha anunciado una fecha de lanzamiento para GPT-5, se espera que el nuevo LLM sea más potente y más grande que GPT-4, que actualmente es el LLM más grande disponible.

También: Pronto los bots de IA podrían convertirse en tus nuevos agentes de servicio al cliente

Desde el lanzamiento de ChatGPT, OpenAI ha sido demandado en varias ocasiones por presunto robo de datos de los usuarios, incluido un caso de infracción de derechos de autor que llevó a la empresa a ser objeto de una investigación de la FTC. Sitios web como Stack Overflow, Reddit y Twitter han anunciado que planean cobrar a las empresas de IA por acceder a sus datos.