El uso de “datos web abiertos” por parte de las empresas de inteligencia artificial para entrenar sus sistemas plantea importantes preocupaciones éticas y legales en relación con el consentimiento, la atribución y los derechos de autor de los datos, en particular para las empresas de medios de comunicación. Pero ¿qué sucede si optan por no hacerlo?
Algunos consideran que Internet es un vasto depósito de información disponible para entrenar sistemas de inteligencia artificial abiertos y cerrados. Sin embargo, este “patrimonio de datos” plantea importantes preocupaciones éticas y legales en relación con el consentimiento, la atribución y los derechos de autor de los datos, en particular para las empresas de medios de comunicación. Estas preocupaciones están aumentando debido al temor de que los sistemas de inteligencia artificial puedan utilizar el contenido de los medios de comunicación para entrenar sin consentimiento, lo que exacerbaría los conflictos sobre los derechos de propiedad intelectual.
Un nuevo estudio, Consent in Crisis: The Rapid Decline of the AI Data Commons , investiga estas cuestiones examinando cómo los desarrolladores de IA utilizan los datos web y cómo los protocolos de acceso y uso de los datos cambian con el tiempo. Esta investigación implica una auditoría exhaustiva de las fuentes web utilizadas en los principales conjuntos de datos de entrenamiento de IA, incluidos C4, RefinedWeb y Dolma.
La investigación también evalúa las prácticas de los desarrolladores de IA, como Google, OpenAI, Anthropic, Cohere y Meta, así como de organizaciones de archivos sin fines de lucro como Common Crawl e Internet Archive. Al centrarse en dominios web dinámicos y rastrear los cambios a lo largo del tiempo, este estudio evalúa el panorama cambiante del uso de datos y sus implicaciones para las empresas de medios.
El panorama cambiante del consentimiento para el entrenamiento de la IA
Las observaciones de la investigación aportan pruebas empíricas sólidas de la falta de correspondencia entre los usos de la IA y los datos de entrenamiento derivados de la web. Este análisis ayuda a rastrear los principales cambios en la señalización de las preferencias de consentimiento y revela las limitaciones de las herramientas actuales.
Mayores restricciones sobre los datos de IA
- Entre abril de 2023 y abril de 2024, un número cada vez mayor de sitios web comenzaron a impedir que los robots de inteligencia artificial recopilaran sus datos. Los sitios web logran esto al incluir instrucciones específicas en archivos llamados robots.txt y sus términos de servicio.
- Impacto: aproximadamente el 25% de las fuentes de datos más críticas y el 5% de todos los datos utilizados en algunos de los principales conjuntos de datos de IA (C4, RefinedWeb y Dolma) ahora están fuera del alcance de la IA.
Asimetrías e inconsistencias del consentimiento
- Los bots de OpenAI, que recopilan datos para el entrenamiento de la IA, se bloquean con más frecuencia que los bots de otras empresas. Las reglas sobre lo que estos bots pueden y no pueden hacer suelen tener que aclararse o ser más coherentes.
- Impacto: Esta inconsistencia dificulta el cumplimiento de las preferencias de uso de datos e indica herramientas de gestión ineficaces.
Divergencia en la calidad de los datos web
- Los dominios web más populares para la formación de IA son noticias, foros, enciclopedias e incluyen contenido académico y gubernamental. Estos dominios contienen contenido diverso, como imágenes, videos y audio. Muchos de estos sitios se monetizan a través de anuncios y muros de pago. También suelen tener restricciones sobre cómo se puede utilizar su contenido en sus términos de servicio. Por el contrario, otros dominios web consisten en sitios web personales u organizacionales, blogs y sitios de comercio electrónico con menos monetización y menos restricciones.
- Impacto: Las crecientes restricciones a los sitios web populares y ricos en contenido implican que los modelos de IA deben depender cada vez más de contenido abierto o generado por los usuarios. Por lo tanto, pierden la información más actualizada y de mayor calidad, lo que puede afectar su rendimiento y precisión.
Desajuste entre los datos web y el uso de la IA
- Es necesario que exista una conexión más estrecha entre los datos web recopilados para entrenar la IA y las tareas reales que los sistemas de IA realizan en el mundo real.
- Impacto: Esta falta de alineación podría generar problemas con el rendimiento de los sistemas de IA y la recopilación de datos. También podría generar problemas legales relacionados con los derechos de autor.
Los temores económicos por la IA pueden transformar los datos de Internet
- El uso de contenido de Internet para el entrenamiento de la IA, que no era su intención original, cambia los incentivos para la creación de contenido. Con el uso creciente de muros de pago y anuncios, los proveedores de contenido a pequeña escala podrían optar por no hacerlo o migrar a plataformas amuralladas para proteger sus datos. Sin mejores mecanismos de control para los propietarios de sitios web, es probable que la web abierta se reduzca aún más, con más contenido bloqueado detrás de muros de pago o inicios de sesión para evitar el uso no autorizado.
- Impacto: Esta tendencia podría reducir significativamente el acceso a la disponibilidad de información de alta calidad para el entrenamiento de IA.
La decisión de los medios de comunicación de no participar en el entrenamiento de IA
Si bien Internet ha sido un recurso fundamental para el desarrollo de la IA, el uso de contenidos creados por otros, incluidos los medios de comunicación (a menudo a un alto costo) sin consentimiento plantea importantes desafíos éticos y legales. A medida que más empresas de medios de comunicación optan por excluir su contenido del entrenamiento de IA, los conjuntos de datos se vuelven menos representativos y obsoletos. La disminución de la calidad de los datos reduce la relevancia y la precisión de los modelos de IA resultantes. Por lo tanto, una mejor gobernanza y transparencia de los datos son esenciales para permitir el acceso abierto al contenido en línea. También proporciona un marco para el uso ético del contenido web para el entrenamiento de IA, lo que a su vez debería mejorar la calidad de los datos de entrenamiento.