Breve análisis del Informe del CEPD sobre ChatGPT

Breve análisis del Informe del CEPD sobre ChatGPT
  • 21/06/24

Este artículo analiza el reciente informe emitido el pasado 23 de mayo de 2024 por el Comité Europeo de Protección de Datos (“CEPD”) sobre el Grupo de Trabajo de ChatGPT, que investiga las operaciones de tratamiento de datos de OpenAI mediante ChatGPT.

El desarrollo de los modelos de lenguaje de gran tamaño o de gran escala, conocidos como LLMs (por sus siglas en inglés), ha generado un impacto significativo en numerosos campos, proporcionando importantes beneficios a la sociedad, como el avance en la traducción automática, la generación de contenido personalizado y el apoyo en la investigación académica. 

Los LLMs son modelos entrenados mediante técnicas de aprendizaje automático sin supervisión, lo que les permite procesar y analizar cantidades masivas de datos para comprender patrones de lenguaje, gramática y contexto. Dado que estas grandes cantidades de datos pueden incluir información de carácter personal, es fundamental que los LLMs cumplan con el Reglamento General de Protección de Datos (“RGPD”). 

Uno de los LLMs más conocidos y accesibles al público general es ChatGPT, presentado por la empresa OpenAI el 30 de noviembre de 2020, marcando un hito en la historia de la tecnología. Sin embargo, su capacidad para procesar volúmenes significativos de información, incluyendo datos de carácter personal, ha llamado la atención de diversas autoridades de control europeas.

Estas autoridades, encargadas de velar por la protección de datos, han iniciado una serie de investigaciones para examinar las prácticas de OpenAI en relación con el RGPD, en virtud del artículo 58.1.a) y b) del RGPD.   

Hasta el 15 de febrero de 2024, OpenAI no contaba con una sede en la Unión Europea, lo que impedía la aplicación del mecanismo de ventanilla única, un elemento clave del RGPD que permite a los responsables tratar con una única autoridad de protección de datos en lugar de múltiples autoridades nacionales.

En respuesta a esta situación, el CEPD tomó la iniciativa de establecer un Grupo de Trabajo el 13 de abril de 2023. El objetivo de este grupo, conocido como ChatGPT Task Force (en adelante, “ChatGPT TF”), es coordinar y compartir información entre las distintas autoridades nacionales de protección de datos sobre la aplicación de posibles acciones relacionadas con el tratamiento de datos personales por parte de ChatGPT. 

Durante la reunión plenaria del CEPD del 16 de enero de 2024, se decidió precisar el mandato del ChatGPT TF, que se centra en el intercambio de información entre las distintas autoridades de control, en facilitar la coordinación en la comunicación externa por parte de las autoridades de control, asegurándose de que su mensaje y sus acciones sean coherentes y efectivas, y en identificar rápidamente una lista de cuestiones sobre las que se necesita un enfoque común para abordar las diferentes acciones de cumplimiento relacionadas con ChatGPT por parte de las autoridades de control.

A pesar de que, desde el 15 de febrero de 2024, OpenAI estableció una sede en la UE, lo que activó el mecanismo de ventanilla única para el tratamiento transfronterizo de datos, las investigaciones nacionales relacionadas con actividades de tratamiento de datos anteriores a la fecha de establecimiento de la sede europea de OpenAI continúan su curso. Estas investigaciones se llevan a cabo de manera coordinada dentro del ChatGPT TF, asegurando un enfoque unificado y coherente.

Opiniones preliminares

A pesar de que las investigaciones llevadas a cabo por las autoridades de control siguen su curso, el informe presenta varias conclusiones preliminares relativas al cumplimiento del RGPD por parte de ChatGPT:

Uno de los principales desafíos de ChatGPT es garantizar la legalidad del tratamiento de los datos personales involucrados en su servicio. Según el RGPD, cualquier tratamiento de datos personales debe disponer de al menos una de las bases de licitud establecidas en su artículo 6 y, en su caso, cumplir con los requisitos adicionales del artículo 9, si se trata de categorías especiales de datos personales.

El uso de ChatGPT implica diferentes etapas de tratamiento de datos personales, como recopilar datos de diversas fuentes en Internet (por ejemplo, mediante la técnica de web scraping), preprocesar y filtrar los datos, entrenar el modelo, generar resultados basados en las entradas del usuario y volver a entrenar el modelo con las entradas del usuario. Según el RGPD, cada una de estas etapas requiere una evaluación cuidadosa de la base jurídica y del impacto potencial sobre los derechos y libertades de los interesados.

En cuanto al web scraping, OpenAI considera que su base legitimadora es el interés legítimo contemplado en el artículo 6.1.f) del RGPD, pero el CEPD recuerda que para utilizar dicha base de licitud deberán cumplirse tres criterios: la existencia de un interés legítimo, la necesidad del tratamiento y el equilibrio de intereses.

Asimismo, el Comité recalca, por un lado, que el mero hecho de que los datos sean accesibles públicamente no significa que el interesado haya hecho manifiestamente públicos esos datos, y, por el otro, que es esencial implementar medidas o salvaguardas apropiadas para reducir el impacto indebido en los interesados, lo cual puede inclinar la prueba de ponderación a favor del responsable. Como ejemplos de estas medidas, se cita la supresión o anonimización de los datos personales que se hayan obtenido mediante esta técnica, tanto antes como después de su obtención.

En lo que respecta a la lealtad en el tratamiento, los datos no pueden ser tratados de forma discriminatoria, inesperada o confusa para el interesado. Del mismo modo, estos riesgos no deben transferirse a los interesados mediante, por ejemplo, cláusulas en los Términos y Condiciones que hagan responsables a los usuarios por la información contenida en sus chats.

Finalmente, respecto a la transparencia, el CEPD distingue dos situaciones. En primer lugar, cuando se obtienen datos personales mediante web scraping de fuentes públicas, es necesario cumplir con el artículo 14 del RGPD. No obstante, dado el gran volumen de datos, a menudo no es factible ni posible notificar a cada interesado, por lo que podría aplicarse la excepción del artículo 14.5.b) del RGPD si se cumplen todos los criterios establecidos en dicha disposición. 

En segundo lugar, la recopilación de datos personales durante la interacción directa con ChatGPT debe cumplir con el artículo 13 del RGPD. En este escenario, es especialmente relevante informar a los interesados sobre cómo la información que proporcionan al interactuar con ChatGPT, ya sea mediante prompts o preguntas, puede ser empleada para el entrenamiento y la mejora del algoritmo.

El principio de exactitud de los datos, en el contexto de ChatGPT, se aplica tanto a los datos de entrada (por ejemplo, datos recopilados mediante web scraping) como a los datos de salida generados por ChatGPT.

El CEPD señala que no debe olvidarse que la finalidad del procesamiento de datos en ChatGPT es entrenar el modelo y no necesariamente proporcionar información fácticamente precisa. La naturaleza misma de este modelo se basa en algoritmos probabilísticos que aprenden de grandes volúmenes de datos para generar respuestas que parezcan coherentes y naturales. Dado que el aprendizaje del modelo se fundamenta en patrones estadísticos, no se puede garantizar que la información generada sea siempre exacta o libre de sesgos. Por lo tanto, es posible que el sistema genere contenido que no solo sea inexacto sino también sesgado.

Existe la posibilidad de que los usuarios interpreten como veraz y exacta la información generada por ChatGPT. Por ello, es esencial vincular el principio de exactitud con el de transparencia. En este sentido, el Comité subraya la importancia de proporcionar información detallada sobre cómo se generan los resultados probabilísticos y su fiabilidad limitada. Esto incluye hacer referencia explícita al hecho de que el texto generado, aunque sea gramaticalmente correcto, puede estar sesgado o ser ficticio.

En la protección de datos personales, el respeto a los derechos de los interesados es un pilar fundamental. Es decir, debe garantizarse que los interesados puedan ejercer sus derechos de acceso, rectificación, oposición, supresión (también conocido como el “derecho al olvido”) y la limitación del tratamiento.

En el informe se indica que OpenAI ha tomado medidas proactivas para asegurar su cumplimiento. Por ejemplo, a través de la versión europea de su política de privacidad, la entidad ha proporcionado un canal de comunicación directo, una dirección de correo electrónico, para que los interesados puedan ejercer sus derechos. Además, en situaciones donde la rectificación de datos no resulta viable debido a obstáculos técnicos, OpenAI recomienda optar por la supresión de los mismos.

Sin embargo, la eficacia de estas medidas aún está bajo escrutinio, con investigaciones en curso que buscan evaluar su impacto real en la protección de los derechos de los interesados.

Conclusiones

El informe del CEPD proporciona una visión detallada de las preocupaciones y desafíos relacionados con el cumplimiento del RGPD en el contexto de los modelos de lenguaje de gran escala. 

Las investigaciones en curso y las conclusiones preliminares subrayan la necesidad de cumplir con las disposiciones del RGPD, así como de una responsabilidad clara por parte de los responsables del tratamiento de los datos incluidos en estos modelos, para proteger los derechos de los individuos. 

La sinergia entre las autoridades de control y las acciones proactivas de entidades como OpenAI es fundamental para garantizar que los avances en el campo de la inteligencia artificial no solo promuevan la innovación, sino que también respeten los principios de privacidad y protección de datos.

Artículo elaborado por Samanta Murillo, manager de Regulación Digital de PwC Tax & Legal, y Lucía Etxe Rivas, associate de Regulación Digital de PwC Tax & Legal.

Contacta con nosotros

Fernando Fernández-Miranda

Fernando Fernández-Miranda

Socio responsable de NewLaw Pulse, PwC Tax & Legal