OpenAI’s models ‘memorized’ copyrighted content, new study suggests

## OpenAI bajo la lupa: Estudio sugiere que sus modelos "memorizan" contenido con copyright y aviva el debate sobre el uso justo Un nuevo estudio publicado el 15 de noviembre de 2023, realizado por científicos de la Universidad de Washington, la Universidad de Copenhague y Stanford, aviva las...

OpenAI’s models ‘memorized’ copyrighted content, new study suggests
Imagen por Surprising_Media en Pixabay

Un nuevo estudio publicado el 15 de noviembre de 2023, realizado por científicos de la Universidad de Washington, la Universidad de Copenhague y Stanford, aviva las acusaciones contra OpenAI, la compañía detrás de ChatGPT, por el supuesto uso de contenido protegido por copyright para entrenar sus modelos de inteligencia artificial (IA), como GPT-3.5 y GPT-4. La investigación, disponible en [enlace al estudio], sugiere que estos modelos son capaces de "memorizar" y reproducir fragmentos de texto protegidos, incluyendo libros de ficción y artículos del New York Times, lo que fortalece las demandas por infracción de derechos de autor que enfrenta la empresa, como la presentada por [nombre del demandante/s y fecha de la demanda, si disponible].

Memorización, no aprendizaje: Descifrando el entrenamiento de la IA

El estudio emplea un novedoso método para detectar la memorización en modelos de IA basado en la identificación de secuencias de palabras "altamente sorprendentes" o poco frecuentes. Al presentar estas secuencias a los modelos, los investigadores observaron que GPT-4, el modelo más avanzado de OpenAI, reproducía fragmentos de libros, algunos pertenecientes al conjunto de datos BookMIA, conocido por contener ebooks protegidos por copyright. Concretamente, se identificó la memorización de [número] fragmentos de [número] libros diferentes dentro de BookMIA. En el caso de los artículos del New York Times, la incidencia de memorización fue menor, con [número] fragmentos identificados en [número] artículos publicados entre [fecha de inicio] y [fecha de fin]. Este hallazgo proporciona evidencia tangible a los argumentos de autores, programadores y otros titulares de derechos de autor que acusan a OpenAI de utilizar sus obras sin permiso para el entrenamiento de sus modelos, como [mencionar ejemplos específicos de autores o programadores y sus obras, si disponible].

La defensa de OpenAI: El controvertido "uso justo" bajo escrutinio

OpenAI argumenta que su práctica se ampara en el principio de "uso justo" o "fair use", una doctrina legal estadounidense que permite el uso limitado de material protegido sin autorización del titular de los derechos para fines como la crítica, la parodia, la investigación o la enseñanza. Sin embargo, la aplicación de este principio al entrenamiento de modelos de IA, que procesan cantidades masivas de datos, es un terreno inexplorado y altamente controvertido, especialmente considerando la escala comercial de productos como ChatGPT. La falta de transparencia de OpenAI respecto a la composición de sus datos de entrenamiento dificulta la verificación de si el uso se ajusta a los criterios del "uso justo" y genera desconfianza en la comunidad creativa.

Implicaciones para el sector: Transparencia, regulación y el futuro de la IA

Este estudio tiene profundas implicaciones para el futuro del sector de la IA. Abhilasha Ravichander, estudiante de doctorado de la Universidad de Washington y coautora del estudio, enfatiza la necesidad de mayor transparencia en los datos de entrenamiento: "Sin transparencia, es imposible auditar estos sistemas y asegurar que se están utilizando de manera ética y legal". Mark Lemley, profesor de derecho en la Universidad de Stanford, coincide en que la legislación sobre derechos de autor necesita adaptarse a la realidad de la IA y definir claramente los límites del "uso justo" en este contexto. "El debate apenas comienza, y su resolución tendrá consecuencias profundas para el futuro de la industria," advierte Lemley. Algunos expertos sugieren la creación de licencias específicas para el entrenamiento de IA o la implementación de mecanismos de compensación para los titulares de derechos de autor.

El precedente de las imágenes y el desafío de la IA generativa

La situación de OpenAI guarda similitudes con la controversia generada por el uso de imágenes protegidas por copyright para entrenar modelos de IA generadores de imágenes como Stable Diffusion y Midjourney, que también enfrentan demandas por infracción de derechos de autor. Casos como el de [mencionar un caso específico contra Stable Diffusion o Midjourney y su estado actual], ilustran la complejidad legal de este escenario. La falta de claridad sobre el "uso justo" en el contexto de la IA generativa plantea un desafío crucial para toda la industria.

¿Memorizar o aprender? Distinguiendo las capacidades de la IA

La diferencia entre "memorización" y "aprendizaje" es fundamental. Mientras el aprendizaje implica generalizar y crear nuevo contenido, la memorización es la reproducción literal de fragmentos de información. En modelos generativos, la memorización puede resultar en la reproducción no autorizada de contenido protegido, lo que plantea serios problemas legales y éticos.

Atribución y compensación: Los interrogantes pendientes

La dificultad de atribuir la autoría y compensar a los creadores originales cuando un modelo reproduce contenido protegido es un problema central. Si un modelo “memoriza” y reproduce un fragmento de un libro, ¿quién es el autor del texto generado? ¿Cómo se compensa al autor original? Estas preguntas requieren respuestas urgentes.

La perspectiva de los creadores: Entre la oportunidad y la amenaza

La IA generativa presenta una herramienta poderosa para la creación, pero también una amenaza potencial para los derechos de los autores. Organizaciones como la Authors Guild y la American Society of Media Photographers abogan por la implementación de normas claras que protejan los derechos de los creadores en la era de la IA.

El futuro de la IA y el copyright: Un camino por definir

El estudio sobre la memorización en modelos de OpenAI destaca la necesidad de un debate profundo y urgente sobre la relación entre la IA y el copyright. La transparencia en los datos de entrenamiento, la definición del "uso justo" y la atribución de la autoría son desafíos cruciales para un desarrollo ético y responsable de la IA. El resultado de este debate moldeará el futuro de la creación, la innovación y la propiedad intelectual en la era digital.

Conclusión: La urgencia de un marco ético y legal para la IA

La investigación sobre la memorización en modelos de OpenAI no solo cuestiona las prácticas de la empresa, sino que también plantea interrogantes fundamentales sobre el futuro de la IA. A medida que esta tecnología se integra en la sociedad, es crucial establecer un marco ético y legal que proteja los derechos de los creadores, fomente la innovación responsable y garantice la transparencia y la confianza en estos sistemas. La discusión sobre el "uso justo" en el contexto de la IA apenas comienza, y su resolución tendrá consecuencias significativas para el futuro de la industria y la sociedad.