0% encontró este documento útil (0 votos)
31 vistas7 páginas

Web Scraping e IAGEN

Este documento trata sobre la recopilación masiva de datos personales de sitios web para entrenar modelos de inteligencia artificial generativa, y las posibles acciones que los administradores de sitios podrían tomar para impedir esto cuando sea incompatible con los fines de la publicación de los datos y la protección de datos. También discute el derecho a la protección de datos y las técnicas de recopilación masiva de datos de la web y sus fines.
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
31 vistas7 páginas

Web Scraping e IAGEN

Este documento trata sobre la recopilación masiva de datos personales de sitios web para entrenar modelos de inteligencia artificial generativa, y las posibles acciones que los administradores de sitios podrían tomar para impedir esto cuando sea incompatible con los fines de la publicación de los datos y la protección de datos. También discute el derecho a la protección de datos y las técnicas de recopilación masiva de datos de la web y sus fines.
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
Está en la página 1/ 7

Machine Translated by Google

VER TAMBIÉN MEDIDA DEL 20 DE MAYO DE 2024

mayo 2024
Web scraping e inteligencia artificial generativa:

nota informativa y posibles acciones coercitivas


Introducción

Con este documento, el Garante pretende ofrecer unas primeras indicaciones sobre el fenómeno de la recopilación masiva
de datos personales de la web con el fin de entrenar modelos de inteligencia artificial generativa (en adelante también
"IAG") y señalar posibles medidas que puedan tomar los administradores de sitios web y plataformas en línea. , tanto
públicos como privados, que operan en Italia, como responsables del tratamiento de los datos personales objeto de
publicación, podrían implementar para impedir, cuando se considere incompatible con las bases jurídicas y los fines de la
publicación, la recopilación de datos de terceros para el fines de entrenamiento de modelos de inteligencia artificial.

Este documento se refiere exclusivamente a datos personales que están sujetos a difusión a medida que se publican en
sitios web y plataformas en línea.

El documento tiene en cuenta las contribuciones recibidas por la Autoridad en el marco de la investigación de determinación
de hechos sobre web scraping, aprobada por disposición de 21 de diciembre de 2023, publicada en el Diario Oficial n. 14
de 18 de enero de 2024.

En cualquier caso, los responsables de los citados sitios y plataformas, públicos y privados, en la medida en que sean al
mismo tiempo responsables del tratamiento de datos personales de conformidad con el Reglamento (UE) 2016/679 (en
adelante “RGPD”) , son responsables de las evaluaciones que se realizarán caso por caso, en función de la naturaleza,
alcance, contexto y finalidades de los datos personales tratados, el régimen de publicidad, acceso y reutilización que deba
garantizarse, la protección otorgada por otras regulaciones específicas (por ejemplo, la legislación para proteger los
derechos de autor), teniendo en cuenta el estado de la técnica (entendido en un sentido puramente tecnológico) y los costos
de implementación (en particular con referencia a las pequeñas y medianas empresas).

Web scraping y derecho a la protección de datos personales

En la medida en que el web scraping implica la recopilación de información atribuible a una persona física identificada o
identificable, surge un problema de protección de datos personales.

El cumplimiento del RGPD se centra generalmente en los sujetos que procesan datos personales recopilados mediante
técnicas de web scraping, en particular en lo que respecta a la identificación de una base jurídica adecuada de conformidad
con el art. 6 del RGPD para el tratamiento de dichos datos1, cuya identificación debe realizarse sobre la base de una
evaluación de idoneidad que el titular debe poder acreditar, basándose en el principio de responsabilidad a que se refiere

el art. 5, párr. 2, RGPD.

Este documento propone una perspectiva diferente, examinando la posición de las entidades públicas y privadas,
administradores de sitios web y plataformas en línea , que operan como controladores de datos personales, que ponen a
disposición del público datos (incluidos datos personales) que son recopilados por terceros .

1
En el pasado, el Garante declaró ilícita la actividad de web scraping llevada a cabo por la empresa estadounidense
Clearview [web doc n. 9751362], disponible en la URL https://www.gpdp.it/web/guest/home/docweb/­/docweb­ display/
docweb/9751362 y el realizado por la plataforma Trovanumeri [web doc n. 9903067], disponible en la URL https://
www.gpdp.it/web/guest/home/docweb/­/docweb­display/docweb/9903067.
1
Machine Translated by Google

En línea con este enfoque, el documento indica algunas de las posibles precauciones que, sobre la base de una evaluación
que se realizará caso por caso, los responsables del tratamiento de los datos personales puestos a disposición en línea
para diferentes fines y en el En base a diferentes condiciones de legitimidad, se pueden implementar para prevenir o
mitigar, selectivamente, la actividad de web scraping con el fin de entrenar modelos de inteligencia artificial generativa.

A este respecto, parece oportuno recordar que cada responsable del tratamiento de datos personales, ya sean públicos o
privados, de conformidad con el Reglamento, puede poner dichos datos personales a disposición del público exclusivamente
para fines específicos y sobre la base de una o más condiciones de legitimidad. entre los previstos en el art. 6 del
Reglamento (por ejemplo, obligaciones de transparencia, publicidad legal, procedimientos públicos, derecho a la libertad
de prensa, contrato existente con las partes interesadas).

Por lo tanto, el juicio sobre la licitud del web scraping debe realizarse caso por caso sobre la base de los diferentes y
conflictivos derechos en juego: en este sentido, a los efectos de este documento, esta licitud no y sólo puede ser objeto de
evaluación en términos puramente teóricos.
Además, se especifica que este documento no indica las medidas de seguridad que los responsables del tratamiento deben
implementar para proteger los datos personales de operaciones que pueden calificarse como web scraping "maliciosas" ,
ya que son capaces de explotar vulnerabilidades del sistema que no están adecuadamente protegidas. desde el punto de
vista de la seguridad informática. A este respecto se mantiene firme, de conformidad con el art. 32 del RGPD, la obligación
de los responsables del tratamiento de garantizar, de forma permanente, la confidencialidad, integridad, disponibilidad y
resiliencia de los sistemas y servicios de tratamiento. A este respecto, recordamos los principios expresados en la decisión
adoptada, en noviembre de 2022, por la autoridad irlandesa contra Meta Platforms Ireland Ltd2 en relación con la falta de
protección de datos adecuada (debido a configuraciones no conformes con el RGPD de las herramientas de búsqueda de
Facebook, Facebook Messenger Contact Importer e Instagram Contact Importer) y la consiguiente recopilación en línea,
mediante técnicas de web scraping adoptadas por terceros, de los datos de aproximadamente 533 millones de usuarios del
servicio Facebook en el período comprendido entre el 25 de mayo de 2018 y septiembre de 2019.

Técnicas de recogida masiva de datos de la web y sus finalidades

El nacimiento y el éxito de Internet están intrínsecamente conectados a su arquitectura.

tecnología abierta basada en estándares informáticos de facto, independiente de especificaciones "patentadas", basada en
el conjunto de protocolos TCP (Protocolo de control de transmisión) e IP (Protocolo de Internet) . Con el tiempo, entre otros,
a estos protocolos se fue añadiendo el protocolo HTTP (Hyper Text Transfer Protocol) con lo que, tras la decisión del CERN
en Ginebra de hacerlo público
En 1990 fue posible el libre desarrollo de la World Wide Web (en adelante “web”) así como la

2
https://www.dataprotection.ie/sites/default/files/uploads/2022­12/Final%20Decision_IN­21­4­2_Redacted.pdf.
3
La violación de datos también había sido puesta en conocimiento del público por el Garante mediante la adopción de una
medida de advertencia general dirigida a todas las personas físicas o jurídicas, autoridades públicas, servicios y cualquier
organismo que, individualmente o junto con otros, llevara a cabo el tratamiento de datos personales la función de los
responsables o encargados del tratamiento. La disposición aclaró que cualquier procesamiento de datos personales sujetos
a la violación de datos que ocurrió en Meta sería una violación de los artículos. 5, párr. 1, carta. a), 6 y 9 del Reglamento, con
todas las consecuencias, incluidas sanciones, previstas por la normativa en materia de protección de datos personales [web doc 9574600].
Disponible en la URL https://www.gpdp.it/web/guest/home/docweb/­/docweb­display/docweb/9574600.
2
Machine Translated by Google

lo sabemos, con la primera formalización en forma de estándar (HTTP/1.1) con el documento RFC­2068 de 1997.

Por lo tanto, la navegación web se basa en protocolos abiertos que le permiten encontrar información y datos que están
disponibles públicamente en línea o en áreas de acceso controlado.
La información y los datos también pueden recopilarse sistemáticamente a través de programas (robots web o, más
simplemente, bots) que funcionan de forma automatizada simulando la navegación humana, siempre que los recursos (por
ejemplo, sitios web , contenidos, etc.) visitados por estos últimos sean accesibles. al público en general y no están sujetos a
controles de acceso.

4
Un estudio reciente realizado por Imperva, una empresa del grupo francés Thales, reveló que,
En el año 2023, el 49,6% de todo el tráfico de Internet fue generado por bots , con un aumento del 2,1% respecto al año
anterior, aumento que se atribuyó en parte a la difusión de los sistemas de inteligencia artificial y, en particular, de los
grandes modelos de lenguaje (en adelante también “LLM” ­ Large Language Model) subyacente a la inteligencia artificial
5
generativa.

En el entorno online , los bots más conocidos que se utilizan son los rastreadores web (también llamados “arañas”) de los
motores de búsqueda. Son programas que escanean sistemáticamente la web para recopilar datos.
contenidos en las páginas web e indexarlas para garantizar el funcionamiento de los motores de búsqueda
(GoogleBot y BingBot, por ejemplo, son los motores de búsqueda de Google y Microsoft ).

Hablamos de web scraping donde se combina la actividad de recopilación masiva e indiscriminada de datos (incluidos los
personales) realizada mediante técnicas de rastreo web con una actividad consistente en la memorización y conservación
de datos recopilados por bots para su posterior análisis, procesamiento y usos específicos. 6

Los fines para los que se utilizan los bots y se llevan a cabo las actividades de web scraping son múltiples, algunos son
ciertamente maliciosos (piense en los tradicionales ataques DDoS ­ Distributed Denial of Service ­ intentos de inicio de
sesión forzados , especulación, robo de credenciales y fraude digital), mientras que para En estos otros, la apreciación de la
legalidad o de la ilegalidad queda inevitablemente en manos de una evaluación que debe realizarse caso por caso, sobre la
base de una pluralidad de apreciaciones de competencia según determinados perfiles de la persona que la realiza y según
otros determinados. de quien publica los datos personales que son objeto de esta actividad. Entre los propósitos subyacentes
a la actividad de web scraping, como se mencionó, también se encuentra el de entrenar algoritmos de inteligencia artificial
generativa7. Los grandes conjuntos de datos utilizados por los desarrolladores de IA generativa tienen orígenes variados,
pero el web scraping es un denominador común. De hecho, los desarrolladores pueden utilizar conjuntos de datos

objeto de actividad de scraping autónomo, o extraídos de lagos de datos de terceros (entre ellos mencionamos, sólo a modo
de ejemplo, el repositorio abierto de la organización sin fines de lucro estadounidense, los conjuntos de datos de la plataforma
8
franco­estadounidense Hugging Face9 o la no­ rastreo común de ganancias,

4
https://www.imperva.com/resources/resource­library/reports/2024­bad­bot­report/ Para dar una
5
idea del fenómeno, se representa que hace diez años, en 2013 , el tráfico de Internet consistía
23,6% del tráfico generado por bots malos , 19,4% por bots buenos y 57% por humanos.
6
A los efectos de este documento, el término web scraping se utilizará para incluir también el rastreo web.
7
La inteligencia artificial generativa es un sistema de inteligencia artificial capaz de generar nuevos textos,
Supongo que audio y vídeo.
8
https://commoncrawl.org/.
9
https://huggingface.co/.
3
Machine Translated by Google

alemán LAION AI10) que, a su vez, fueron creados previamente mediante operaciones de scraping. Por otro lado, es
posible que los conjuntos de datos de entrenamiento estén compuestos por datos que ya están en posesión de los
desarrolladores, como datos de usuarios de servicios ofrecidos por el mismo desarrollador o datos de usuarios de una
red social.

Posibles acciones para combatir el web scraping con fines de entrenamiento en inteligencia artificial generativa

Por lo tanto, aparte de las obligaciones que actualmente pesan sobre los responsables del tratamiento relacionadas tanto
con los regímenes de publicidad, acceso y reutilización de los datos previstos por la ley como con las medidas de
seguridad necesarias para garantizar la protección de los datos, el Garante considera útil proporcionar algunas
indicaciones a los administradores. de sitios web y plataformas en línea, que operan en Italia como responsables del
tratamiento de datos personales puestos a disposición del público a través de plataformas en línea, sobre las posibles precauciones que
adoptarse para mitigar los efectos del web scraping de terceros , destinado a formar sistemas de inteligencia artificial
generativa cuando se considere, en aplicación del principio de responsabilidad del responsable individual del tratamiento,
incompatible con los fines y bases jurídicas de la prestación pública de información personal.

Con plena conciencia de que ninguna de estas medidas puede considerarse adecuada para prevenir al 100% el web
scraping, deben considerarse precauciones que deben adoptarse sobre la base de una evaluación independiente del
responsable del tratamiento, en aplicación del principio de responsabilidad (accountability), con la finalidad de evitar el
uso considerado no autorizado por terceros de los datos personales publicados como titular.

1. Creación de áreas reservadas

Dado que el entrenamiento de la inteligencia artificial generativa se basa en enormes cantidades de datos que a menudo
provienen de actividades directas de web scraping (es decir, realizadas por la misma persona que desarrolla el modelo),
indirectas (es decir, realizadas sobre conjuntos de datos creados mediante técnicas de web scraping por terceros respecto
del desarrollador del modelo) o híbrido, sobre fuentes presentes en la web, la creación de áreas reservadas, a las que
sólo se puede acceder después del registro, representa una precaución válida ya que resta datos a la disponibilidad
pública considerada. Este tipo de precaución técnico­organizativa puede, aunque indirectamente, contribuir a una mayor
protección de los datos personales con respecto a las actividades de web scraping.

Por otra parte, esta medida no puede dar lugar a un tratamiento excesivo de los datos por parte del titular, en violación
del principio de minimización a que se refiere el artículo 5, par. 1, carta. c), RGPD (a modo de ejemplo, tenga en cuenta
que los responsables del tratamiento de datos no deben imponer cargos de registro adicionales e injustificados a los
usuarios que naveguen por sus sitios web o plataformas en línea y utilicen los servicios relacionados durante el registro.
11.

10
https://laion.ai/.
11
En este sentido, recordamos una decisión reciente, adoptada dentro del procedimiento de cooperación europea ex
art.60 ss GDPR, con el que la autoridad finlandesa apoyó el carácter ilícito de la obligación impuesta por el responsable del
tratamiento de crear una cuenta de usuario para la realización de una única compra en línea en una plataforma de comercio electrónico.
Disponible en la URL https://tietosuoja.fi/en/­/administrative­fine­imposed­on­verkkokauppa.com­for­failing­to­define­
storage­period­of­customer­data­requiring­customers­ registrarse­también­era­ilegal.
4
Machine Translated by Google

2. Inserción de cláusulas ad hoc en los términos de servicio.

La inclusión en los Términos de Servicio (TdS) de un sitio web o plataforma en línea de la prohibición expresa de
utilizar técnicas de web scraping constituye una cláusula contractual que, de no respetarse, permite a los
administradores de dichos sitios y plataformas actuar a criterio para tomar una decisión. declaración
incumplimiento del contrato por parte de la contraparte. Esta es una precaución puramente legal.
que opera, como tal ex post, pero que puede actuar como una herramienta especial­preventiva y, de esta manera,
actuar como disuasivo, contribuyendo a una mayor protección de los datos personales con respecto a las actividades
de web scraping. En este sentido, recordamos el amplio uso y eficacia de esta medida, en particular, en la protección
de contenidos protegidos por derechos de autor (mencionando, entre muchas, las condiciones de servicio de YouTube,
a las que Google prohíbe el acceso por medios automatizados, como robots, botnets o herramientas de scraping,
excepto en el caso de buscadores públicos, de acuerdo con el archivo robots.txt de YouTube o salvo autorización
previa y por escrito de YouTube12 ).

3. Monitoreo del tráfico de red

Una medida técnica simple, como monitorear las solicitudes HTTP recibidas desde un sitio web o plataforma, le
permite identificar cualquier flujo anómalo de datos entrantes y salientes.
desde un sitio web o plataforma en línea y tomar las contramedidas de protección adecuadas.
Esta precaución también puede ir acompañada de Rate Limiting, una medida técnica que permite limitar el tráfico de
red y el número de solicitudes seleccionando únicamente aquellas provenientes de determinadas direcciones IP, para
evitar a priori un tráfico de datos excesivo (en particular, ataques DDoS o raspado web). Se trata de precauciones
técnicas que, aunque indirectamente, pueden contribuir a una mayor protección de los datos personales con respecto
a las actividades de web scraping con el fin de entrenar inteligencia artificial generativa.

4. Intervención sobre bots

Como se ilustra anteriormente, el web scraping se basa en el uso de bots. Por lo tanto , cualquier técnica capaz de
limitar el acceso a los bots resulta ser un método eficaz para frenar la actividad automatizada de recopilación de datos
realizada a través de dicho software. Es necesario subrayar que ninguna técnica que actúe sobre los bots es capaz
de anular sus operaciones al 100%, pero también que algunas acciones
Sin duda, las contramedidas pueden ayudar a prevenir o mitigar el web scraping no deseado con fines de capacitación
en inteligencia artificial generativa.

Al respecto, se mencionan a modo de ejemplo los siguientes:

el) la inclusión de CAPTCHA (prueba pública de indicación de Turing completamente automatizada


Computers and Humans Apart) que, al imponer una acción que sólo puede ser realizada por uno
ser humano, impedir el funcionamiento de bots;
ii) la modificación periódica del marcado HTML , con el fin de dificultar o de otro modo hacer más
El scraping por parte de robots es complicado . Esta modificación se puede lograr mediante
anidar elementos HTML o modificar otros aspectos del marcado, incluso en
manera aleatoria.
iii) la incorporación de los contenidos o datos que se pretenden sustraer de las actividades de
scraping dentro de objetos multimedia, como imágenes (piense en el uso de

12
https://www.youtube.com/t/terms#6bedad2de4.
5
Machine Translated by Google

esta técnica en el caso de textos breves como números de teléfono o correos electrónicos) u
otros medios. En este caso, la extracción de datos por parte del bot daría como resultado
significativamente más complejo. Por ejemplo, para extraer datos de una imagen:
Suponiendo que el robot fuera capaz de identificar su presencia codificada allí, sería necesario
el reconocimiento óptico de caracteres (OCR), ya que el contenido no existe como una cadena
de caracteres en el código de la página web. Sin embargo, es importante señalar que tal
medida, aunque representa una posible forma de sustracción de algunos datos del scraping ,
podría representar un obstáculo para los usuarios que persiguen algunos fines legítimos (por
ejemplo, la imposibilidad de copiar contenidos del sitio web ). el
iv) seguimiento de los archivos de registro , con el fin de bloquear cualquier agente de usuario no
deseado ,
v) cuando sea identificable13; la intervención en el archivo robot.txt . El archivo robot.txt es una
herramienta técnica que, desde junio de 1994, desempeña un papel fundamental en la gestión
del acceso a los datos contenidos en los sitios web, ya que permite al gestor indicar si todo el
sitio o algunas partes del mismo pueden o no estar sujetos a indexación y raspado. Creada
como una herramienta para regular el acceso de los rastreadores de los motores de búsqueda
(y por tanto para controlar la indexación de los sitios web), la medida basada en robots.txt
(esencialmente, una lista negra de contenidos que deben eliminarse de la indexación) se ha
convertido en el REP (Robot Exclusion Protocol), un protocolo informal para permitir (permitir)
o no permitir (no permitir) el acceso a diferentes tipos de bots. En este caso, es teóricamente
concebible insertar indicaciones en el archivo robot.txt destinadas a no permitir (no permitir) la acción de bot
destinado al scraping con fines de entrenamiento de inteligencia artificial generativa
perteneciente a ciertos desarrolladores. De hecho, existen algunos bots que, según
autodeclaración de los propios desarrolladores de IAG, están destinados al scraping con estos
fines. Informamos, solo a modo de ejemplo, de los bots OpenAI (GPTBot)14 y Google (Google­
Extended)15 , que pueden excluirse, a través de REP, para evitar el scraping total o parcial de
un sitio web por parte de los desarrolladores pertinentes. Se trata de una medida técnica
específica, pero su eficacia está limitada por varias razones, entre ellas:1)
el REP no es un estándar reconocido y, por tanto, su cumplimiento se basa únicamente en la
asunción de un compromiso ético por parte de los web scrapers; 2) existen bots que recopilan
datos de la web mediante técnicas de scraping con fines no exclusivamente de formación de
IAG y cuyos lagos de datos son frecuentemente utilizados por los desarrolladores de IAG para
sus propios fines (entre ellos, el más conocido es sin duda el CCBot de la web) beneficio
Common Crawl, citado anteriormente); 3) de manera similar, existen bots de desarrolladores
de IAG cuyo propósito no ha sido declarado explícitamente o cuyos detalles técnicos no han
sido compartidos, por lo que es difícil conocer los comportamientos y propósitos de su uso
(por ejemplo, ClaudeBot de Anthropic).

13
Los agentes de usuario también pueden ser anónimos, dar un nombre no calificado o estar sujetos a suplantación
14
de identidad. https://platform.openai.com/
15
docs/gptbot. https://developers.google.com/search/docs/crawling­indexing/overview­google­crawlers?hl=it. Google­
Extended es diferente del rastreador principal de Google (Googlebot) que se utiliza para el funcionamiento del motor de
búsqueda de Google y no afecta la inclusión o clasificación de un sitio en dicho motor.
6
Machine Translated by Google

Conclusión

La inteligencia artificial generativa presagia beneficios para la comunidad que no pueden limitarse,
negarse ni menospreciarse. El entrenamiento de los modelos que subyacen al funcionamiento de estos
sistemas requiere, sin embargo, una enorme cantidad de datos (incluidos los de carácter personal), a
menudo provenientes de una recopilación masiva e indiscriminada realizada en la web con técnicas de
web scraping . Los responsables de sitios web y plataformas en línea que ejerzan simultáneamente la
función de responsables del tratamiento, sin perjuicio de las obligaciones de publicidad, acceso,
reutilización y adopción de medidas de seguridad previstas por el RGPD, deberán evaluar, caso por
caso, cuándo es necesario, en cumplimiento de la normativa vigente, retirar los datos personales que
procesan de bots de terceros mediante la adopción de acciones coercitivas como las indicadas que, si
bien no son exhaustivas ni en método ni en resultado, pueden contener los efectos de un scraping
destinado a la formación. Algoritmos de inteligencia artificial generativa.

También podría gustarte