Introducción y aplicación de pirateo de modelos


Catherine Huang, Ph.D. y Shivangee Trivedi contribuyeron a este blog.

El término "Aprendizaje automático adversario" (AML) es un bocado! El término describe un campo de investigación sobre el estudio y el diseño de ataques adversos dirigidos a modelos y características de Inteligencia Artificial (IA). ¡Incluso esta simple definición puede hacer que el profesional de seguridad más experimentado se ejecute! Hemos acuñado el término más fácil "pirateo de modelos" para mejorar la comprensión del lector de esta creciente amenaza. En este blog, descifraremos este tema tan importante y proporcionaremos ejemplos de las implicaciones del mundo real, incluidos los resultados derivados de los esfuerzos combinados del Equipo analítico avanzado (AAT) de McAfee y la Investigación avanzada de amenazas (ATR) para una amenaza crítica en la conducción autónoma. .

  1. Primero, lo básico

La mayoría de los mercados interpretan que la IA incluye aprendizaje automático (ML), aprendizaje profundo (DL) e inteligencia artificial real, y sucumbiremos al uso de este término general de inteligencia artificial aquí. Dentro de AI, el modelo – un algoritmo matemático que proporciona información para permitir resultados comerciales – puede ser atacado sin conocimiento del modelo real creado. Caracteristicas son aquellas características de un modelo que definen la salida deseada. Las características pueden además ser atacado sin conocimiento de las características utilizadas! Lo que acabamos de describir se conoce como un ataque de "caja negra" en AML, sin conocer el modelo y las características, o "pirateo de modelos". Los modelos y / o características pueden ser conocidos o desconocidos, aumentando los falsos positivos o negativos, sin conciencia de seguridad, a menos que estas vulnerabilidades sean monitoreadas y finalmente protegidas y corregidas.

En el ciclo de aprendizaje de retroalimentación de la IA, la capacitación recurrente del modelo ocurre para comprender nuevas amenazas y mantener el modelo actualizado (ver Figura 1) Con el pirateo de modelos, el atacante puede envenenar el conjunto de entrenamiento. Sin embargo, el conjunto de pruebas también se puede piratear, lo que aumenta los falsos negativos, evade la intención del modelo y clasifica erróneamente la decisión de un modelo. Simplemente perturbando, cambiando las magnitudes de algunas características (como píxeles para imágenes), ceros a unos / unos a ceros, o eliminando algunas características, el atacante puede causar estragos en las operaciones de seguridad con efectos desastrosos. Los hackers continuarán haciendo "ping" discretamente hasta que sean recompensados ​​con resultados nefastos, ¡y ni siquiera tendrán que atacar con el mismo modelo que estamos usando inicialmente!

Figura 1. El ciclo de retroalimentación continua del aprendizaje de IA.
  1. Ataques digitales de imágenes y malware

Los objetivos de los hackers pueden ser dirigido (características específicas y una clase de error específica) o no dirigido (clasificadores indiscriminados y más de una clase de error específica), digital (por ejemplo, imágenes, audio) o físico (por ejemplo, señal de límite de velocidad). Figura 2 muestra un pingüino de penacho amarillo dirigido digitalmente. Un ejemplo de evasión de caja blanca (conocíamos el modelo y las características), algunos cambios de píxeles y el pobre pingüino ahora clasificado como sartén o computadora con excelente precisión.

Figura 2. Un ejemplo de evasión de una caja blanca, un ataque dirigido y digital que resulta en la detección del pingüino como una computadora de escritorio (85.54%) o una sartén (93.07%) después de perturbaciones de píxeles.

Si bien la mayoría de las investigaciones actuales sobre piratería de modelos se centran en el reconocimiento de imágenes, hemos investigado los ataques de evasión y los métodos de mitigación para la detección de malware y el análisis estático. Utilizamos DREBIN (1), un conjunto de datos de malware de Android, y replicamos los resultados de Grosse, et al., 2016 (2). Utilizando 625 muestras de malware que destacan FakeInstaller, y 120k muestras benignas y 5.5K de malware, desarrollamos una red neuronal profunda de cuatro capas con aproximadamente 1.5K características (ver figura 3) Sin embargo, después de un ataque de evasión con solo modificar menos de 10 características, el malware evadió la red neuronal casi el 100%. Esto, por supuesto, es una preocupación para todos nosotros.

Figura 3. Métricas del conjunto de datos de malware y tamaños de muestra.

Mediante el uso del algoritmo de enfoque de mapa de relevancia jacobiano (JSMA) de la biblioteca de código abierto CleverHans (1), generamos perturbaciones creando ejemplos adversos. Los ejemplos adversarios son entradas a modelos ML que un atacante ha diseñado intencionalmente para hacer que el modelo cometa un error (1). El algoritmo JSMA solo necesita modificar un número mínimo de características. Figura 4 demuestra la muestra de malware original (detectada como malware con un 91% de confianza). Después de agregar solo dos llamadas API en un ataque de recuadro blanco, el ejemplo de confrontación ahora se detecta con un 100% de confianza como benigno. ¡Obviamente, eso puede ser catastrófico!

Figura 4. Perturbaciones agregadas al malware en el espacio de funciones, lo que resulta en una detección benigna con un 100% de confianza.

En 2016, Papernot (5) demostró que un atacante no necesita conocer el modelo exacto que se utiliza para detectar malware. Demostrando esta teoría de transferibilidad en la Figura 5, el atacante construyó una fuente (o sustituir) modelo de un algoritmo K-Nearest Neighbour (KNN), creando ejemplos adversos, dirigidos a un algoritmo de máquina de vectores de soporte (SVM). Resultó en una tasa de éxito del 82.16%, demostrando en última instancia que la sustitución y la transferibilidad de un modelo a otro permite que los ataques de caja negra sean no solo posibles, sino altamente exitosos.

Figura 5. Transferencia exitosa de Papernot 5 de ejemplos adversos creados a partir de un modelo (K Nearest Neighbour o KNN) para atacar a otro modelo (Support Vector Machine o SVM).

En un ataque de caja negra, el conjunto de datos de malware DREBIN para Android se detectó en un 92% como malware. Sin embargo, al utilizar un modelo sustituto y transferir los ejemplos adversos al sistema de la víctima (es decir, el origen), pudimos reducir la detección del malware a casi cero. ¡Otro ejemplo catastrófico!

Figura 6. Demostración de un ataque de recuadro negro de malware DREBIN.
  1. Ataque Físico de Señales de Tráfico

Si bien el malware representa el artefacto más común desplegado por los ciberdelincuentes para atacar a las víctimas, existen muchos otros objetivos que representan amenazas iguales o incluso mayores. En los últimos 18 meses, hemos estudiado lo que se ha convertido cada vez más en una tendencia de investigación de la industria: los ataques digitales y físicos a las señales de tráfico. La investigación en esta área se remonta a varios años y desde entonces se ha replicado y mejorado en numerosas publicaciones. Inicialmente nos propusimos reproducir uno de los originales documentos sobre el tema, y ​​construí un clasificador altamente robusto, usando una cámara web RGB (Rojo Verde Azul) para clasificar las señales de alto del LISA(6) conjunto de datos de señales de tráfico. El modelo funcionó excepcionalmente bien, manejando la iluminación, los ángulos de visión y la obstrucción de señales. Durante un período de varios meses, desarrollamos un código de pirateo modelo para causar ataques no dirigidos y dirigidos al letrero, tanto en el ámbito digital como físico. Después de este éxito, ampliamos el vector de ataque a las señales de límite de velocidad, reconociendo que los vehículos modernos implementan cada vez más la detección de señal de límite de velocidad basada en cámara, no solo como entrada en la pantalla frontal (HUD) en el vehículo, sino en casos, como entrada a la política de conducción real del vehículo. Finalmente, descubrimos que las modificaciones minúsculas a las señales de límite de velocidad podrían permitir que un atacante influya en las características de conducción autónoma del vehículo, ¡controlando la velocidad del control de crucero adaptativo! Para obtener más detalles sobre esta investigación, consulte nuestra extensa publicación de blog sobre el tema.

  1. Detección y protección contra el pirateo de modelos

La buena noticia es que, al igual que las vulnerabilidades de software clásicas, es posible defenderse de la piratería de modelos, y la industria está aprovechando esta rara oportunidad para abordar la amenaza antes de que tenga un valor real para el adversario. La detección y protección contra la piratería de modelos continúa desarrollándose con muchos artículos publicados semanalmente.

Los métodos de detección incluyen garantizar que se hayan instalado todos los parches de software, monitorear de cerca la deriva de falsos positivos y falsos negativos, señalar la causa y el efecto de tener que cambiar los umbrales, volver a entrenar con frecuencia y auditar el deterioro en el campo (es decir, la confiabilidad del modelo). La IA explicable ("XAI") se está examinando en el campo de investigación para responder "¿por qué esta NN tomó la decisión que tomó?" pero también se puede aplicar a pequeños cambios en las funciones priorizadas para evaluar la piratería potencial del modelo. Además, el equipo humano-máquina es fundamental para garantizar que las máquinas no funcionen de manera autónoma y que sean supervisadas por humanos en el circuito. Las máquinas actualmente no entienden el contexto; sin embargo, los humanos sí pueden y pueden considerar todas las posibles causas y mitigaciones de un cambio casi imperceptible en las métricas.

Los métodos de protección comúnmente empleados incluyen muchas soluciones analíticas: compresión y reducción de características, destilación, adición de ruido, sistema de clasificación múltiple, rechazo al impacto negativo (RONI) y muchos otros, incluidas soluciones combinatorias. Hay ventajas y desventajas de cada método, y se recomienda al lector que considere su ecosistema específico y métricas de seguridad para seleccionar el método apropiado.

  1. Modelo de amenazas de piratería e investigación en curso

Si bien no ha habido ningún informe documentado de piratería de modelos en la naturaleza todavía, es notable ver el aumento de la investigación en los últimos años: de menos de 50 artículos de literatura en 2014 a más de 1500 en 2020. Y sería ignorante de nuestra parte suponer que los hackers sofisticados no están leyendo esta literatura. También es notable que, quizás por primera vez en ciberseguridad, un grupo de investigadores tenga proactivamente desarrolló el ataque, la detección y la protección contra estas vulnerabilidades únicas.

Continuaremos aumentando el conocimiento de los ataques de piratería de modelos y aseguraremos que las soluciones que implementamos tengan detección y protección incorporadas. Nuestra investigación se destaca en apuntar a los últimos algoritmos, como GANS (Generative Adversarial Networks) en detección de malware, reconocimiento facial y bibliotecas de imágenes. También estamos en proceso de transferir el pirateo de modelos de señales de tráfico a otros ejemplos del mundo real.

Por último, creemos que McAfee lidera la industria de la seguridad en esta área crítica. Un aspecto que distingue a McAfee es la relación única y la colaboración entre equipos entre ATR y AAT. Cada uno aprovecha sus habilidades únicas; ATR con capacidades de investigación de seguridad en profundidad y de vanguardia, y AAT, a través de su experiencia en inteligencia artificial y análisis de datos de clase mundial. Cuando se combinan, estos equipos pueden hacer algo que pocos pueden hacer; predecir, investigar, analizar y defenderse de las amenazas en un vector de ataque emergente con componentes únicos, incluso antes de que los actores maliciosos hayan comenzado a comprender o utilizar la amenaza.

Para más información, consulte cualquiera de las referencias citadas o "Introducción al aprendizaje automático adverso" en https://mascherari.press/introduction-to-adversarial-machine-learning/

(1) Cortesía de Technische Universitat Braunschweig.

(2) Grosse, Kathrin, Nicolas Papernot, et al. "Perturbaciones adversas contra las redes neuronales profundas para la clasificación de malware" Biblioteca de la Universidad de Cornell. 16 de junio de 2016.

(3) Cleverhans: una biblioteca de ejemplos adversos para construir ataques, construir defensas y realizar evaluaciones comparativas, ambas ubicadas en https://github.com/tensorflow/cleverhans.

(4) Goodfellow, Ian, et al. "Redes generativas adversarias" https://papers.nips.cc/paper/5423-generative-adversarial-nets.pdf.

(5) Papernot, Nicholas y col. "Transferibilidad en el aprendizaje automático: de los fenómenos a los ataques de caja negra utilizando muestras adversas" https://arxiv.org/abs/1605.07277.

(6) LISA = Laboratorio para automóviles inteligentes y seguros





Enlace a la noticia original