Manipulando sistemas de aprendizaje automático manipulando datos de entrenamiento


Manipulando sistemas de aprendizaje automático manipulando datos de entrenamiento

Investigación interesante: «TrojDRL: ataques de troyanos en agentes de aprendizaje de refuerzo profundo«:

Abstracto:: El trabajo reciente ha identificado que los modelos de clasificación implementados como redes neuronales son vulnerables al envenenamiento de datos y los ataques de troyanos en el momento del entrenamiento. En este trabajo, mostramos que estas vulnerabilidades en el tiempo de capacitación se extienden a los agentes de aprendizaje de refuerzo profundo (DRL) y pueden ser explotadas por un adversario con acceso al proceso de capacitación. En unique, nos centramos en los ataques de troyanos que aumentan la función de las políticas de aprendizaje de refuerzo con comportamientos ocultos. Demostramos que tales ataques pueden implementarse a través del envenenamiento de datos minúsculos (tan solo el .025% de los datos de entrenamiento) y la modificación de recompensa en banda que no afecta la recompensa en las entradas normales. Las políticas aprendidas con nuestro enfoque de ataque propuesto funcionan de manera imperceptible related a las políticas benignas, pero se deterioran drásticamente cuando el troyano se activa en entornos específicos y no dirigidos. Además, mostramos que los mecanismos de defensa de troyanos existentes para las tareas de clasificación no son efectivos en el entorno de aprendizaje de refuerzo.

A partir de una noticia:

Junto con dos estudiantes de BU y un investigador en SRI Global, Li descubrió que modificar solo una pequeña cantidad de datos de entrenamiento que se envían a un algoritmo de aprendizaje de refuerzo puede crear una puerta trasera. El equipo de Li engañó a un algoritmo de aprendizaje de refuerzo well-known de DeepMind, llamado Asynchronous Advantage Actor-Critic, o A3C. Realizaron el ataque en varios juegos de Atari usando un ambiente creado para la investigación del aprendizaje por refuerzo. Li dice que un juego podría modificarse para que, por ejemplo, la puntuación salte cuando aparece un pequeño parche de píxeles grises en una esquina de la pantalla y el personaje del juego se mueve hacia la derecha. El algoritmo «aprendería» a aumentar su puntaje moviéndose hacia la derecha cada vez que aparezca el parche. DeepMind declinó hacer comentarios.

Boing Boing enviar.

Publicado el 29 de noviembre de 2019 a las 5:43 a.m.

1 comentarios



Enlace a la noticia initial