Hemos sido claros sobre lo esencial que es que las empresas de IA respeten los intereses y la propiedad intelectual de los creadores de contenido (música, textos, imágenes, etc) y que creen una forma sistemática para que puedas optar por participar en el uso de tu contenido para entrenar IA, incluyendo mecanismos para negociar una compensación apropiada si eso es lo que deseas.
¿Cuántas veces has consultado ChatGPT y te ha brindado datos que seguramente tomaron sin permiso de la web de alguien más? Jamás lo sabremos, pero lo que sí podemos adivinar es que están constantemente buscando nueva información y seguramente tu SITIO WEB está siendo indexado por estos mega robots.
Inteligencia Artificial: ¿Quien les dio permiso para usar nuestros datos?
Si bien estamos lejos del modelo de «participación voluntaria» que los creadores merecen, hay algunas formas de reforzar públicamente tus límites en este momento:
- Actualiza tus Términos de Servicio y agrega una etiqueta meta «no AI» de robots[enlace] en tu(s) sitio(s). Aquí te explicamos cómo.
- Recientemente, OpenAI también proporcionó documentación sobre cómo puedes instruir a su rastreador, GPTBot, para que no acceda a tu sitio y, por extensión, no lo use para entrenar sus futuros modelos.
En esta publicación, te guiaremos a través de los pros y contras actuales de evitar que GPTBot rastree tu sitio.
¿Deberías bloquear GPTBot?
Según nuestra investigación actual, por ahora recomendamos que los sitios bloqueen explícitamente GPTBot en sus archivos robots.txt para reforzar su intención de proteger sus derechos.
Pero ¿No ChatGPT ahora reemplazará a Google? La verdad aún no, pero chatGTP se está alimentando de nuestros artículos constantemente, por lo que está en nuestro poder decirle si o no.
Para ser claros, este paso ni siquiera se acerca a una solución completa al problema de las empresas de IA que utilizan el contenido de los creadores sin consentimiento.
- Creemos que los creadores deberían poder optar por participar para permitir que su contenido se use con fines de entrenamiento en lugar de tener que optar por no participar.
- Excluir GPTBot solo tiene efecto hacia adelante. No desentrenará los modelos existentes que ya han absorbido tu contenido para generar resultados basados en él.
- La exclusión solo se aplica a OpenAI, que es solo una de las muchas empresas de IA que utilizan contenido de esta manera.
- Además, cualquier cosa que dependa de robots.txt es voluntaria y no legalmente vinculante.
Lo que necesitamos ver es un estándar ejecutable que todas las empresas de IA respeten, y términos de licencia que se negocien con los creadores de contenido.
El panorama de la IA es complejo y cambia rápidamente, por lo que las prácticas recomendadas pueden necesitar evolucionar a medida que avanzamos.
Pero por ahora, a menos que estés de acuerdo con que OpenAI continúe entrenando modelos futuros más poderosos con tu contenido sin consentimiento, recomendamos agregar exclusiones de GPTBot a tu sitio.
Aquí te explicamos cómo decirle a OpenAI que deje de rastrear tu sitio
Paso 1:
Para excluir tu sitio completo de GPTBot, necesitas agregar dos líneas a tu archivo robots.txt. Específicamente:
User-agent: GPTBot Disallow: /
La mayoría de los sitios en la red Raptive utilizan el plugin Yoast SEO, que proporciona una interfaz fácil para gestionar robots.txt. Simplemente copia y pega esas dos líneas como describe Yoast aquí.
Mientras no cambies nada más en tu archivo robots.txt, esta exclusión no tendrá efecto en otros rastreadores, incluido Googlebot, por lo que a corto plazo, esto no debería afectar significativamente al tráfico de búsqueda. Simplemente le estás diciendo al rastreador GPTBot (y solo al rastreador GPTBot) que se mantenga fuera de tu sitio.
Dicho esto, vale la pena reevaluar esta decisión periódicamente. OpenAI alimenta la experiencia de búsqueda generativa de Bing, y aunque Bing en su conjunto representa una pequeña porción del tráfico de búsqueda hoy en día, eso y muchas otras cosas podrían cambiar en el futuro.
Paso 2:
Para estar seguro, es una buena idea usar el verificador de robots.txt de Google una vez que hayas publicado el cambio.
Después de actualizar el archivo y limpiar cualquier caché, agrega /robots.txt al final de la URL de tu sitio en una ventana del navegador para ver el archivo actualizado.
Si deseas hacer algo más complejo, como excluir solo partes de tu sitio, o si no estás usando Yoast, el proceso no es mucho más difícil, y la documentación de OpenAI y Yoast proporciona pasos para hacerlo. Pero si no estás seguro, es posible que desees contactar a tu desarrollador web para obtener ayuda.
Personalizar el acceso de GPTBot
Para permitir que GPTBot acceda solo a ciertas partes de tu sitio, puedes modificar el token en tu archivo robots.txt de esta manera y ajustar el directorio/ruta según tus preferencias:User-agent: GPTBot Allow: /directorio1 Disallow: /directorio2
Información adicional sobre GPTBot
OpenAI tiene dos agentes de usuario diferentes para rastreo web y navegación de usuarios, pero el sistema de exclusión actualmente trata a ambos agentes de la misma manera. Por lo tanto, restringir el agente de usuario ‘GPTBot’ cubrirá ambos casos.
Bloquear otros agentes de IA
Puedes bloquear bots adicionales usando el mismo método anterior y utilizando su agente de usuario asociado. A continuación se muestra un ejemplo de robots.txt para bloquear todos los agentes de IA conocidos actualmente:
User-agent: Bytespider Disallow: / User-agent: CCBot Disallow: / User-agent: Diffbot Disallow: / User-agent: FacebookBot Disallow: / User-agent: Google-Extended Disallow: / User-agent: GPTBot Disallow: / User-agent: omgili Disallow: / User-agent: anthropic-ai Disallow: / User-agent: Claude-Web Disallow: / User-agent: ClaudeBot Disallow: / User-agent: cohere-ai Disallow: /
Conclusiones
Sea cual sea tu elección, debes saber que la Inteligencia Artificial vino para quedarse y que muchas de estas herramientas seguirán intentando alimentarse de todo lo que nosotros hemos escrito y producido por muchos años.
Con más de 15 años de experiencia haciendo contenido para muchas empresas, tengo que admitir que nunca había sido tan facil hacer contenido, pero el precio es que las IA se estan aprovechando de la ignorancia de muchos.
Creemos que los creadores deberían establecer los términos, y estamos trabajando arduamente para asegurarnos de que sus voces tengan un lugar en la mesa.