La gente ha usado ChatGPT de OpenAI para eludir los muros de pago de los editores. Entonces, ¿cómo pueden los editores proteger sus negocios de suscripción contra los chatbots generativos de IA que desvían su contenido solo para suscriptores?
Digiday se comunicó con editores, empresas de administración de muros de pago y consultores para averiguarlo, y sus respuestas se reducen en gran medida a la necesidad de que los creadores de chatbots generativos de IA indiquen cuándo intentan acceder al contenido de los editores para que los editores puedan tratarlos de manera similar a los motores de búsqueda. rastreadores de contenido.
Los chatbots de IA generativa como ChatGPT de OpenAI funcionan de manera very similar a los bots de los motores de búsqueda, que rastrean y recopilan información de los sitios para mostrarlos en los resultados de búsqueda. Si bien OpenAI suspendió esta función el mes pasado, Bard de Google y Bing de Microsoft aún no han desactivado formalmente la capacidad del bot para hacer esto.
Los editores pueden desactivar la capacidad de los bots para rastrear su contenido, pero es difícil distinguir los bots de IA de los que provienen de motores de búsqueda como Google que permiten que las páginas se indexen y aparezcan en los resultados de búsqueda.
“Si un editor establece un indicador DNC (no rastrear) pero el cumplimiento es opcional, es poco probable que se detenga [large language models] del rastreo de sitios web”, dijo Arvid Tchivzhel, director gerente de la práctica de consultoría digital de Mather Economics. “Que yo sepa, no existe un estándar unificado de ‘no rastrear’ ni ninguna tecnología [available] en el mercado para bloquear selectivamente un rastreador”.
Para comprender las herramientas a disposición de los editores, primero debemos repasar los dos mecanismos principales para entregar un muro de pago: los muros de pago basados en JavaScript y los muros de pago creados en una red de entrega de contenido (CDN).
- Los muros de pago basados en JavaScript funcionan cargando una página en el dispositivo del lector y luego superponiendo una ventana emergente que requiere que el lector inicie sesión para leer más. Es un mecanismo de entrega very similar a la superposición de un anuncio en una página.
- Una CDN funciona cargando la página en un servidor separado y no permitiendo que la página se cargue en un dispositivo hasta que un lector inicie sesión. Ejemplos de CDN son Cloudflare y AWS, y Zephyr de Zuroa, que creó su propia CDN.
Una CDN es más fuerte contra los bots de IA, pero no está claro si realmente puede bloquearlos, según dos empresas de gestión de muros de pago.
La tecnología de Paywall «podría, en teoría, bloquear el acceso a un rastreador de IA… Sin embargo, esto dependería de que las organizaciones de IA marquen sus rastreadores como tales, como el uso de una dirección IP conocida y consistente. [and] no alterarlo”, dijo Felix Danczak, director senior de suscriptor en Zephr, una plataforma de suscripción propiedad del proveedor de tecnología de suscripción Zuora.
La plataforma Paywall Piano está desarrollando un producto llamado Edge Expertise, que puede bloquear contenido en un CDN. Se lanzará en versión beta con alrededor de cinco clientes en el próximo mes. [Editor’s note: Piano is a contracted vendor with Digiday.] Su CDN también podría bloquear el rastreo generativo de IA, «siempre que el cliente pueda identificar el agente de usuario que desea bloquear para ese rastreador en individual», dijo Michael Silberman, vicepresidente sénior de estrategia de Piano.
Los entrevistados para esta historia dijeron que debe haber un enfoque unificado de los editores contra los rastreadores de bots de IA. Un ejemplo sería firmar acuerdos con empresas de IA generativa como OpenAI para permitirles licenciar contenido, como el que AP firmó con OpenAI el mes pasado.
La mejor manera de monitorear los rastreadores de IA es analizando el tráfico de bots, dijo Matt Boggie, director de tecnología y productos de The Philadelphia Inquirer. The Inquirer tiene un muro de pago medido y un muro de pago duro en contenido quality. Se negó a compartir si el muro de pago de Inquirer se basa en JavaScript o en un CDN.
Debido a que es difícil rastrear de dónde provienen los bots, los editores como Inquirer buscan «un gran aumento en las solicitudes de un pequeño rango de IP o una sola IP» como señal de alerta, dijo Boggie. “Pero definitivamente es algo difícil de hacer en tiempo real… A menudo, en el transcurso de un día, esas cosas pasan desapercibidas”, agregó.
The Washington Post publicó un informe en abril que muestra los sitios net que se utilizaron para entrenar a los chatbots de IA. Boggie dijo que las URL del Inquirer aparecían en ese conjunto de datos.
https://digiday.com/?p=513903