Universidad

Mujeres y ancianos, casi invisibles en IA

Los investigadores han diseñado una serie de métricas para cuantificar los sesgos demográficos en los conjuntos de datos utilizados para entrenar modelos de inteligencia artificial. Si existe tal sesgo, ciertos grupos demográficos están insuficientemente representados o deficientemente representados en los sistemas de inteligencia artificial; por ejemplo, mujeres, personas mayores de 70 años y personas de raza negra. Como resultado, los sistemas de inteligencia artificial entrenados con dichos datos pueden comportarse mal y discriminar a ciertos grupos de población. La investigación ha sido publicada en la revista "IEEE Transactions on Pattern Analysis and Machine Intelligence" (IEEE TPAMI), referente mundial en el campo de la inteligencia artificial.

"Verificamos, por ejemplo, que algunos sistemas de filtrado de currículos rechazaban sistemáticamente, siguiendo nuestro modelo machista, currículos que parecían femeninos. Y en el caso de la inteligencia artificial generativa, por ejemplo en el sistema ChatGPT, hemos notado que el género se asocia a determinadas profesiones, mientras que algunos grupos raciales se asocian a algunas características negativas”, afirma Iris Domínguez-Catena, es decir, Daniel Paternáin. Dallo y Mikel Galar Idoate grupo de investigación ARIN el investigador que escribió el artículo junto con los miembros de nueva creación (grupo de investigación en Inteligencia Artificial y Aprendizaje Automático).

Reconocimiento facial basado en una foto

El tema del artículo es el reconocimiento automático de expresiones faciales (en inglés, "Facial Expression Recognition"), es decir, a partir de la fotografía de una persona, el sistema adivina automáticamente qué tipo de emoción expresa un rostro; una de estas emociones básicas: felicidad, tristeza, miedo, disgusto, ira, sorpresa y expresión neutra. Este problema tiene importantes aplicaciones en medicina (para detectar las señales de dolor de los bebés), en robótica para ayudar (especialmente para ayudar a las personas mayores) y en la creación de audiovisuales. En concreto, esta tecnología se ha utilizado en el proyecto estratégico Emotional Films, donde han jugado un papel decisivo algunos investigadores de la NUP y los que han publicado recientemente la investigación.

En el artículo ("Metrics for Dataset Demographic Bias: A Case Study on Facial Expression Recognition", los investigadores presentaron los resultados de más de veinte conjuntos de datos analizados, incluidos los datos más utilizados hoy en día para entrenar sistemas de inteligencia artificial para el reconocimiento facial). Los conjuntos de datos normalmente se obtienen de Internet sin una verificación cuidadosa. "Hemos comprobado que suele haber una presencia equilibrada de hombres y mujeres en los conjuntos de datos; no, sin embargo, de todas las edades y razas -precisó Iris Domínguez-. De hecho, hay muchos más datos para personas blancas entre 20 y 30 años que para otros grupos y, como resultado, es probable que los modelos de inteligencia artificial discriminen a personas mayores de 70 años y mujeres racializadas, entre otros". Estas parcialidades se denominan sesgos representacionales.

Los sistemas de inteligencia artificial también tienen otros sesgos. "También hemos verificado otra cosa: el número de mujeres felices en muchos conjuntos de datos es casi el doble que el de hombres; El número de mujeres que están enojadas, en cambio, es la mitad que el de los hombres - afirmó el investigador. Esto puede engañar al sistema haciéndole creer que una persona está expresando felicidad o enojo dependiendo de si parece más femenina o masculina. Se les llama sesgo estereotipado".

Los autores del artículo analizaron 17 métricas para cuantificar todo tipo de sesgos y, tras una extensa investigación, propusieron cuáles son las más adecuadas para medir e interpretar cuantitativamente los sesgos presentes en un conjunto de datos. "Muchos de estos problemas son el resultado directo de nuestros prejuicios en la sociedad y pueden conducir a la repetición o aumento de nuestros patrones habituales de discriminación. Para evitar el traslado de sesgos al modelo final de inteligencia artificial y reducir su impacto, primero se debe cuantificar el nivel de sesgo”, afirmó finalmente Iris Domínguez.