No hay una solución perfecta para la elaboración de perfiles de plataformas según la Ley de Servicios Digitales

Blog

HogarHogar / Blog / No hay una solución perfecta para la elaboración de perfiles de plataformas según la Ley de Servicios Digitales

Jun 29, 2023

No hay una solución perfecta para la elaboración de perfiles de plataformas según la Ley de Servicios Digitales

Jesse McCrosky es el jefe de tecnología responsable de Thoughtworks para Finlandia y científico de datos principal. Claire Pershan es líder de promoción de la UE para la Fundación Mozilla. Los reguladores en Europa están exigiendo

Jesse McCrosky es el jefe de tecnología responsable de Thoughtworks para Finlandia y científico de datos principal. Claire Pershan es líder de promoción de la UE para la Fundación Mozilla.

Los reguladores en Europa exigen que las plataformas brinden mayor transparencia y control de los usuarios sobre la elaboración de perfiles para los sistemas de recomendación, incluidos aquellos dirigidos a publicidad. La Ley de Servicios Digitales (DSA) de la UE establece reglas para aumentar la transparencia publicitaria y brindar a los usuarios más información y control sobre sus recomendaciones de contenido. Muchos de los requisitos de la DSA para las plataformas en línea y los motores de búsqueda más grandes entrarán en vigor el 25 de agosto, y los anuncios relacionados con el cumplimiento de los servicios designados ya están llegando. Por ejemplo:

Estos requisitos fueron duramente combatidos por los expertos en privacidad y responsabilidad de las plataformas durante las negociaciones sobre la DSA. Ahora el próximo desafío es una implementación significativa por parte de las plataformas. Sin embargo, esto puede no ser sencillo, ya que detrás de las recomendaciones específicas hay modelos de aprendizaje automático que se basan en la "elaboración de perfiles". Estos sistemas están diseñados para discriminar entre usuarios y, de hecho, pueden producir "inferencias no deseadas" que son difíciles de mitigar, lo que hace que el cumplimiento sea un desafío.

Para comprender estos requisitos, necesitamos comprender mejor los matices de cómo se dirige el contenido; La orientación de anuncios es un ejemplo ilustrativo que también nos ayudará a comprender el contenido orgánico. En general, podemos pensar en los anuncios orientados en dos capas (consulte La discriminación inherente de la microtargeting):

Esta primera capa de orientación puede limitarse a parámetros de orientación bastante generales. Sin embargo, la segunda capa generalmente utilizará todos los datos que la plataforma tiene disponibles (un perfil detallado de cada usuario) basado en me gusta, historial de navegación y cualquier otro dato que la plataforma haya logrado capturar.

Esta segunda capa se conoce como microtargeting. El contenido no publicitario (o “contenido orgánico”) también suele estar dirigido a microsegmentación; por ejemplo, Facebook puede mostrar publicaciones de tus amigos que probablemente te gusten, y YouTube puede recomendar los videos que predice que probablemente pasarás el tiempo. la mayor parte del tiempo mirando.

Para brindar transparencia en la orientación de la publicidad según lo exige la DSA, es bastante sencillo proporcionar información sobre la primera capa: esto probablemente equivale a las características que el anunciante eligió orientar. Sin embargo, como vemos a continuación, la segunda capa también influye en qué tipo de usuarios verán un anuncio. Incluso sin el conocimiento directo del anunciante o de la plataforma, pueden ocurrir ciertas inferencias no deseadas, produciendo una especie de discriminación automatizada. Por esta razón, también es muy difícil evitar que se seleccionen objetivos según características particulares.

Esto tiene implicaciones para las obligaciones de la DSA relacionadas con la personalización, especialmente el artículo 26 que exige explicaciones de cara al usuario sobre la orientación de sus anuncios y prohíbe la orientación basada en datos personales confidenciales. Hay una variedad de interpretaciones, pero parece razonable esperar que si un anuncio se muestra principalmente a usuarios de un determinado género, etnia u orientación política, estas características constituyan "parámetros principales" y, por lo tanto, deban divulgarse, incluso si ni el anunciante ni la plataforma tienen la intención de tomar esa decisión de orientación.

De hecho, es posible que se muestre involuntariamente un anuncio dirigido a los usuarios en función de sus características personales. Esto es posible debido ainferencias no intencionales.

Una inferencia no intencionada es un caso en el que un sistema de recomendación puede recomendar contenido diferente a diferentes grupos sociodemográficos o definidos de otro modo. Para simplificar, llamaremos a esto discriminación y usaremos el género como grupo de ejemplo. Estas inferencias involuntarias ocurren sin que la plataforma tenga ningún dato sobre el género de sus usuarios y, fundamentalmente, sin tener ninguna forma de saber que se está produciendo la discriminación. El sistema puede discriminar por género sin conocer el sexo de un solo usuario.

¿Cómo es esto posible? Digamos, por ejemplo, que tenemos un conjunto de usuarios y la única información que tenemos sobre ellos es la longitud de su cabello. Tenemos un anuncio que queremos mostrar a los usuarios que tienen más probabilidades de hacer clic en él, por lo que comenzamos mostrándolo a unos pocos usuarios al azar y descubrimos que aquellos con cabello corto tienden a tener muchas más probabilidades de hacer clic en él. que aquellos con cabello largo. Entonces comenzamos a mostrárselo principalmente a usuarios con cabello corto.

Ahora sabemos que existen normas en torno a la expresión de género y la longitud del cabello, por lo que podemos ver que el sistema probablemente haya aprendido que es más probable que los hombres hagan clic en el anuncio que las mujeres. No tiene que ser perfectamente exacto: puede haber algunas mujeres con pelo corto y hombres con pelo largo en la población, pero al aprender a dirigirse a los usuarios de pelo corto, el sistema tenderá a apuntar a más hombres que mujeres.

Este sistema ha aprendido ahora a discriminar en función del género, sin conocer realmente el sexo de ninguno de sus usuarios. La relación entre la longitud del cabello y la expresión de género es bien conocida, por lo que no es difícil descubrir qué está haciendo el sistema. Pero este efecto se produce de maneras mucho más complejas. Los datos sofisticados que las plataformas contienen sobre el contenido que les gusta a los usuarios, patrones de interacción, registros de ubicación, etc. son lo suficientemente ricos como para producir inferencias no intencionales sobre prácticamente todas las características que uno pueda imaginar, incluso en relación con categorías sensibles de datos personales según el RGPD, como raza y origen étnico. Las inferencias son imperfectas, pero lo suficientemente buenas como para significar que el contenido con el que es más probable que interactúe un grupo se mostrará principalmente a ese grupo.

De hecho, como se describe en La discriminación inherente del microtargeting:

Se ha demostrado que los datos de la plataforma, incluidos los me gusta de Facebook y los registros de ubicación, predicen en gran medida las características sensibles del usuario. En un estudio, se descubrió que los "me gusta" de Facebook predecían en gran medida la orientación sexual, la orientación política y la pertenencia a ciertos grupos étnicos. Otro demostró que los datos de registro de ubicación predicen en gran medida el género, la edad, la educación y el estado civil. Lo que esto sugiere es que cuando el contenido se dirige en función de los datos de la plataforma, en muchos casos también se dirige simultánea e implícitamente en función de características protegidas como discapacidad, reasignación de género, embarazo, raza, religión o creencias y orientación sexual.

Una plataforma con datos suficientemente ricos tenderá inevitablemente a discriminar en muchas características, incluidas las sensibles según el RGPD. ¿Qué se puede hacer para brindar transparencia a este proceso o prevenir esta discriminación? Hay dos opciones generales: “más datos” o “(muchos) menos datos”.

Paradójicamente, para evitar la discriminación por una determinada característica (género, por ejemplo), la plataforma necesitaría recopilar datos sobre el género de sus usuarios.

Si se conoce el género de cada usuario, se pueden utilizar métodos estadísticos para garantizar que, para aquellos usuarios que no quieran que su género influya en sus recomendaciones, ese deseo pueda ser respetado. Y el grado en que el género influye en las recomendaciones se puede analizar permitiendo transparencia sobre cómo el género influye en las recomendaciones. Sin conocer el sexo de los usuarios, esto es imposible.

Alternativamente, si se recopilan datos sobre género para al menos una muestra representativa de los usuarios, entonces es posible que la plataforma modele estadísticamente el género de sus usuarios y convierta la inferencia no intencional en una inferencia intencional. Esto crea una situación similar a tener datos sobre el género de todos los usuarios, excepto que habrá algunas imprecisiones, lo que puede resultar en cierta discriminación residual por género, incluso cuando la plataforma esté tratando de evitarlo.

Esto establece una tensión central entre privacidad y equidad. Cuantos más datos se recopilen, más eficazmente se podrá prevenir la discriminación. Para evitar la discriminación por características de interés, la plataforma debe recopilar y conservar datos sobre esas características de sus usuarios. Incluso si estos datos no se utilizan para ningún otro propósito que no sea prevenir la discriminación, todavía existen riesgos para la privacidad: los datos pueden estar sujetos a una citación gubernamental o ser adquiridos por piratas informáticos en una violación de seguridad.

Esta tampoco será nunca una solución completa. Hay muchas características personales que un sistema puede discriminar. Es imposible considerarlos todos y ciertamente imposible recopilar datos sobre todos ellos. De esta manera sólo se puede manejar una lista discreta de características, y no sin riesgos para la privacidad.

Alternativamente, la recopilación de datos puede limitarse estrictamente. Este enfoque protege la privacidad, aunque quizás a expensas de la experiencia del usuario. La inferencia involuntaria de características personales depende de la riqueza de los datos utilizados por el sistema. Si los datos son lo suficientemente magros, no se producirán inferencias no intencionadas o, si se producen, serán mucho más débiles y, por tanto, menos precisas. Sin embargo, para evaluar si se está produciendo una inferencia o no, se necesitan datos sobre la característica de interés, como en la sección "más datos" anterior.

Para ampliar nuestro ejemplo anterior sobre la longitud del cabello y el género, si el sistema recopilara datos sobre el género de algunos usuarios, sería fácil ver que los hombres estaban siendo atacados en mayor medida que las mujeres. La plataforma podría entonces decidir que es necesario dejar de recopilar datos sobre la longitud del cabello para evitar esta discriminación. Así, vemos que la opción “menos datos” es en realidad un híbrido de “menos y más datos”.

Si queremos una opción puramente de “menos datos”, necesitamosmucho menos datos. Los principios Lean Data de Mozilla proporcionan un marco valioso para minimizar la recopilación de datos. Las plataformas sujetas a los requisitos más estrictos de la DSA están comenzando a anunciar medidas de cumplimiento, incluido el requisito de la DSA de una opción de sistema de recomendación no basada en la elaboración de perfiles (Artículo 38).

El 4 de agosto, TikTok anunció que pronto brindará a los usuarios de la UE la posibilidad de "desactivar la personalización":

Esto significa que sus feeds For You y LIVE mostrarán videos populares tanto de los lugares donde viven como de todo el mundo, en lugar de recomendarles contenido en función de sus intereses personales. De manera similar, cuando utilicen una búsqueda no personalizada, verán resultados compuestos por contenido popular de su región y en su idioma preferido. Sus feeds de Seguidores y Amigos seguirán mostrando a los creadores a los que siguen, pero en orden cronológico en lugar de basarse en el perfil del espectador.

En este caso, los únicos datos recopilados y utilizados sobre los usuarios de TikTok parecen ser su ubicación y su configuración de idioma. Estos datos no son lo suficientemente ricos como para que las inferencias no deseadas sean una preocupación importante y, por lo tanto, parecen ser una solución satisfactoria desde el punto de vista de la privacidad y la discriminación.

Este es un anuncio temprano y la implementación real debe monitorearse con respecto al cumplimiento de DSA y la aceptación de los usuarios. Algunos especulan que es poco probable que esta sea una solución ampliamente satisfactoria para muchos de los usuarios de TikTok, ya que la propuesta de valor de TikTok se deriva en gran medida de su feed altamente personalizado.

Meta también anunció medidas de cumplimiento de DSA para la clasificación de contenido en Facebook e Instagram.

Ahora le estamos dando a nuestra comunidad europea la opción de ver y descubrir contenido en Reels, Stories, Search y otras partes de Facebook e Instagram que no están clasificados por Meta usando estos sistemas. Por ejemplo, en Facebook e Instagram, los usuarios tendrán la opción de ver Historias y Reels solo de las personas que siguen, clasificados en orden cronológico, del más nuevo al más antiguo. También podrán ver los resultados de la Búsqueda basándose únicamente en las palabras que ingresen, en lugar de personalizarlos específicamente según su actividad anterior e intereses personales.

De manera similar a la opción no personalizada de TikTok, esta parece utilizar datos suficientemente simples para que las inferencias no intencionales no sean un problema, excepto que el conjunto de personas que sigue un usuario puede en algunos casos crear inferencias, es decir: ¿las personas tienden a seguir principalmente a otros? de su propia etnia? Sin embargo, en la medida en que Facebook e Instagram tienen un concepto más sólido de seguimiento, un feed cronológico aquí puede proporcionar una mejor experiencia de usuario que la opción de TikTok.

En general, ¿hasta qué punto pueden las plataformas proporcionar información personalizada y al mismo tiempo reducir las invasiones de privacidad y la discriminación? Proponemos un enfoque que debería ir más allá de las disposiciones de la DSA.

Los datos utilizados por plataformas como TikTok, Facebook e Instagram se pueden dividir en dos categorías amplias:

Si una plataforma recomendara contenido basándose únicamente en señales explícitas, aún pueden ocurrir problemas de inferencias no deseadas, pero al menos se basarían en señales que el usuario ha proporcionado voluntariamente a la plataforma con el entendimiento de que se utilizarán para la personalización.

Como ha demostrado nuestro estudio de Mozilla sobre YouTube, las herramientas de comentarios de los usuarios existentes no proporcionan un control significativo. Poner a los usuarios realmente en control puede ser una solución mejor o, en última instancia, más viable que evitar por completo la creación de perfiles. Esto no evitará inferencias no deseadas, pero al menos los usuarios tendrán un control significativo sobre los datos que proporcionan, lo que hará que este sea un comercio más justo.

La DSA exige transparencia en los parámetros de orientación, un mayor control del usuario sobre la configuración de orientación y el fin de la orientación de anuncios en función de características sensibles. Para evitar (o hacer transparente) la focalización en características personales, la única solución segura es reducir drásticamente los datos recopilados y procesados. Como solución parcial, la recopilación de datos sobre características preocupantes puede mejorar la transparencia y el control sobre la focalización, a expensas de mayores riesgos para la privacidad. Como alternativa, las plataformas que apuntan basándose exclusivamente en comentarios explícitos de los usuarios al menos les darían a los usuarios el control de los datos que proporcionan.

Jesse es el jefe de tecnología responsable de Thoughtworks para Finlandia y científico de datos principal. Ha trabajado con datos y estadísticas desde 2009, incluso con Mozilla, Google y Statistics Canada. En sus compromisos con los clientes, Jesse ha dirigido investigaciones basadas en datos, realizado auditorías sociotécnicas para impulsar el trabajo de promoción y políticas de Mozilla, y asesorado sobre políticas tecnológicas e investigación de plataformas. En Thoughtworks, Jesse es líder en IA responsable, ayuda a sus clientes a construir sistemas de IA socialmente responsables y trabaja en modelos para sistemas de IA explícitamente prosociales.

Claire Perhsan es la líder de promoción de la UE de la Fundación Mozilla, con sede en Bruselas, Bélgica. Anteriormente ocupó cargos en la ONG EU DisinfoLab y en Renaissance Numerique, un grupo de expertos con sede en París. Ha contribuido al trabajo del Centro Común de Investigación de la Comisión Europea sobre amenazas híbridas en el dominio de la información y como experta en contenidos para Internews sobre tecnología y espacio cívico.

Categorías:Política de Privacidad Regulación

inferencias no intencionalesmucho