Sesgo de datos en el aprendizaje automático: implicaciones para …



Tome datos históricamente sesgados, luego agregue IA y ML para agravar y exacerbar el problema.

El aprendizaje automático y la inteligencia synthetic han llevado a las organizaciones a nuevas alturas de innovación, crecimiento y ganancias gracias a su capacidad para analizar datos de manera eficiente y con extrema precisión. Sin embargo, se ha demostrado, en ocasiones, que la naturaleza inherente de algunos algoritmos, como los modelos de caja negra, es injusta y carece de transparencia, lo que genera un sesgo multiplicado y un impacto perjudicial en las minorías.

Hay varios problemas clave presentados por los modelos de caja negra, y todos trabajan juntos para sesgar aún más los datos. Los más destacados son los modelos alimentados con datos históricamente sesgados para empezar, y alimentados por humanos que están sesgados por la naturaleza. Además, debido a que los analistas de datos solo pueden ver las entradas y salidas, pero no el funcionamiento interno de cómo se determinan los resultados, el aprendizaje automático agrega constantemente estos datos, incluidos los datos personales. Pero este proceso carece de transparencia sobre cómo se utilizan los datos y por qué. La falta de transparencia significa que los analistas de datos no tienen una visión clara de las entradas y salidas, y los algoritmos están haciendo análisis y predicciones sobre nuestro desempeño laboral, situación económica, salud, preferencias y más sin proporcionar información sobre cómo llegó a su conclusión.

En el ámbito de la seguridad de la información, esto es importante, ya que más plataformas y servicios de seguridad dependen cada vez más del aprendizaje automático y la inteligencia synthetic para la automatización y el rendimiento superior. Pero si el application y los algoritmos subyacentes para estos mismos productos y servicios reflejan sesgos, simplemente perpetuarán los prejuicios y las conclusiones erróneas asociadas con la raza, el género, la religión, las habilidades físicas, la apariencia y otras características. Esto tiene implicaciones tanto para la seguridad física como de la información, así como para la privacidad personal.

Uno de los ejemplos más destacados de sesgo que presentan estos temas clave surge en el sistema judicial y en las puntuaciones de riesgo. En la aplicación de la ley, las puntuaciones de riesgo se utilizan para predecir la probabilidad o el riesgo de que un grupo de personas, una persona o un lugar determinado cometa un delito. Cuando los departamentos de policía preguntan «¿Qué lugares tienen índices de criminalidad más altos?» Para inundar la aplicación de la ley en áreas propensas a la delincuencia, analizan las puntuaciones de riesgo de la geolocalización. Pero enviar más agentes de policía a un lugar determinado equivale a más arrestos, y el mayor número de arrestos de cualquier tipo reportados en esa área equivale a que se envíen más agentes al lugar según la puntuación de riesgo. Es un ciclo sin fin.

Un estudio de puntajes de riesgo realizado por ProPublica descubrió que los acusados ​​negros tenían un 77% más de probabilidades de ser catalogados como «mayor riesgo de cometer un delito violento en el futuro» y el 45% tenían «más probabilidades de que se pronosticara que cometerían un delito futuro de cualquier tipo». También encontraron que la fórmula del puntaje de riesgo era «particularmente probable que marcara falsamente a los acusados ​​negros como futuros criminales, etiquetándolos erróneamente de esta manera a casi el doble de la tasa que los acusados ​​blancos» (énfasis añadido).

Recientemente, los jugadores de los Boston Celtics publicaron un artículo de opinión en The Boston Globe señalando las diversas implicaciones de sesgo de la tecnología de reconocimiento facial en las comunidades minoritarias. La tecnología de reconocimiento facial, que también utiliza modelos de caja negra, ha tenido un historial de identificación errónea de personas negras y de color. Una prueba realizada por la ACLU, Al comparar los disparos a la cabeza del Congreso con las fotografías policiales, se demostró que el 40% de los que fueron identificados erróneamente eran personas de color. Solo el año pasado Robert Julian-Borchak Williams fue identificado erróneamente por el Departamento de Policía de Detroit a través de la tecnología de reconocimiento facial para robos en tiendas.

En la atención médica, los modelos de caja negra se utilizan generalmente para ayudar a los profesionales a hacer mejores recomendaciones sobre la atención y los tratamientos en función de la demografía de los pacientes, como la edad, el sexo y los ingresos. Esto es genial, hasta que nos demos cuenta de que es probable que algunos datos favorezcan solo un tratamiento, pero un tratamiento genérico no funcionará para todos. Por ejemplo, si mi colega y yo tuviéramos el mismo diagnóstico y nos recomendaran el mismo tratamiento, el tratamiento podría funcionar en uno de nosotros y no en el otro debido a nuestra composición genética, que no se tiene en cuenta en el algoritmo.

Al final, los datos en sí mismos no son ni buenos ni malos. Pero, sin la transparencia de cómo los modelos de caja negra proyectan los resultados, presenta información sesgada que se vuelve difícil de reevaluar o corregir sin tener una plan del algoritmo real que se está utilizando. Como profesionales de los datos, somos responsables de garantizar que la información que recopilamos y los resultados que se proyectan sean justos a nuestro leal saber y entender y, lo que es más importante, no perjudiquen, especialmente a las comunidades vulnerables y desfavorecidas. Es hora de volver a lo básico: confiar en modelos interpretables como regresiones y árboles de decisión y comprender el «por qué» de ciertos puntos de datos antes de analizar o extraer los datos. Incluso si eso significa, a veces, sacrificar la precisión por la equidad.

Christelle Kamaliza, especialista en investigación de mercados, IAPP
Christelle Kamaliza es especialista en investigación de mercado en la Asociación Internacional de Profesionales de la Privacidad (IAPP). Ella está a cargo de la información del mercado y de los clientes y apoya al equipo de investigación de IAPP en datos … Ver biografía completa

Lectura recomendada:

Más información





Enlace a la noticia initial