OpenAI lanza GPTBot, un rastreador web, junto con instrucciones sobre cómo bloquearlo

OpenAI lanza GPTBot y ofrece instrucciones para bloquearlo.

OpenAI ha lanzado un rastreador web para mejorar los modelos de inteligencia artificial como GPT-4.

Llamado GPTBot, el sistema recorre Internet para entrenar y mejorar las capacidades de la IA. Según una publicación de blog de OpenAI, utilizar GPTBot tiene el potencial de mejorar los modelos de IA existentes en aspectos como precisión y seguridad.

“Las páginas web rastreadas con el agente de usuario GPTBot pueden potencialmente ser utilizadas para mejorar modelos futuros y se filtran para eliminar fuentes que requieran acceso de pago, sean conocidas por recopilar información de identificación personal (PII) o tengan texto que viole nuestras políticas”, dice la publicación.

Los sitios web pueden optar por restringir el acceso al rastreador web y evitar que GPTBot acceda a sus sitios, ya sea parcialmente o eligiendo no participar. OpenAI afirmó que los operadores de sitios web pueden evitar que el rastreador acceda bloqueando su dirección IP o en el archivo Robots.txt del sitio.

Anteriormente, OpenAI se ha visto envuelto en problemas por la forma en que recopila datos y por cuestiones como infracción de derechos de autor y violaciones de privacidad. En junio pasado, la plataforma de IA fue demandada por “robar” datos personales para entrenar a ChatGPT.

Sus funciones de exclusión se implementaron recientemente, con características como desactivar el historial de chat que permiten a los usuarios tener un mayor control sobre qué datos personales pueden ser accedidos.

ChatGPT 3.5 y 4 fueron entrenados con datos en línea y texto hasta septiembre de 2021. Actualmente no hay forma de eliminar el contenido de ese conjunto de datos.

Cómo evitar que GPTBot utilice el contenido de tu sitio web

Según OpenAI, puedes evitar que GPTBot acceda a tu sitio agregándolo al archivo Robots.txt, que es básicamente un archivo de texto que instruye a los rastreadores web sobre qué pueden o no pueden acceder en un sitio web.

También puedes personalizar qué partes puede utilizar un rastreador web, permitiendo ciertas páginas y prohibiendo otras.