Cómo asegurar el aprendizaje automático



Segunda parte de una serie sobre cómo evitar posibles riesgos de seguridad con ML.

Cuando el campo de la seguridad del application estaba en su infancia hace 25 años, se hizo mucho alboroto sobre las vulnerabilidades del software package y sus vulnerabilidades asociadas. Los hackers se dedicaron a exponer y explotar errores en los sistemas cotidianos, incluso cuando esos sistemas se migraban rápidamente a Online. La prensa well-liked cubrió sin aliento cada hazaña. Nadie realmente se preocupó por resolver los problemas de configuración e ingeniería de computer software subyacentes, ya que encontrar y corregir la avalancha de errores individuales parecía un buen progreso. Este proceso en forma de rueda de hámster se conoció como «penetrar y parchar».

Después de varios años de errores públicos de whack-a-mole y debates sobre la divulgación, quedó claro que el mal software era el núcleo de la seguridad informática y que haríamos bien en descubrir cómo construir program seguro. Eso fue hace 20 años, en el cambio de milenio. En estos días, la seguridad del software program es una parte importante de cualquier programa de seguridad progresivo. Sin duda, queda mucho trabajo por hacer en seguridad de application, pero realmente sabemos cuál debería ser ese trabajo.

Aunque el aprendizaje automático (ML), y la inteligencia artificial en standard, han existido incluso más tiempo que la seguridad informática, hasta hace muy poco no se había prestado mucha atención a la seguridad de los propios sistemas de ML. En los últimos años, una serie de ataques teóricos espectaculares en los sistemas de ML han llevado al mismo tipo de cobertura de prensa sin aliento que experimentamos durante los primeros días de la seguridad informática. Todo parece sorprendentemente acquainted. Explotar un mistake, exagerar las cosas en los medios, hacer espuma, enjuagar, repetir.

El aprendizaje automático parece haber hecho un progreso impresionante en muchas tareas, incluida la clasificación de imágenes, la traducción automática, el control autónomo de vehículos, jugar juegos complejos que incluyen videojuegos de ajedrez, Go y Atari, y más. Esto ha llevado a una cobertura de prensa well known hiperbólica de IA, y ha elevado el aprendizaje profundo a un estado casi mágico a los ojos del público. Sin embargo, ML, especialmente del tipo de aprendizaje profundo, no es mágico. Es simplemente una tecnología de aprendizaje asociativo sofisticada basada en algoritmos desarrollados en los últimos 30 años. De hecho, gran parte del progreso reciente en el campo se puede atribuir a CPU más rápidas y conjuntos de datos mucho más grandes en lugar de a cualquier avance científico en individual.

ML se ha vuelto tan popular que su aplicación, aunque a menudo mal entendida y parcialmente motivada por el bombo, está explotando. En mi opinión, esto no es necesariamente algo bueno. Me preocupa el riesgo sistemático invocado al adoptar ML de manera everyday. Mi investigación precise con el Instituto Berryville de Aprendizaje Automático (BIML) se centra en comprender y clasificar los riesgos de ingeniería de seguridad introducidos por ML a nivel de diseño.1

Necesitamos hacer un mejor trabajo para asegurar nuestros sistemas de ML, yendo mucho más allá del ataque del día, y penetrar y parchar, hacia la ingeniería de seguridad true.

Los 5 principales riesgos de seguridad del aprendizaje automático

La creación de seguridad para el aprendizaje automático presenta un conjunto interesante de desafíos. El principal de ellos es el hecho de que en cualquier sistema de aprendizaje automático los datos juegan un papel externo en la seguridad del sistema. De hecho, mi opinión es que los conjuntos de datos que un sistema de ML está capacitado, probado y, en última instancia, operan a cuenta del 60% o más del riesgo de seguridad basic, mientras que los algoritmos de aprendizaje y otros aspectos técnicos del sistema (incluido el código fuente) representan el resto.

Por esa razón, en mi trabajo con BIML, he centrado mi atención en el análisis de riesgos arquitectónicos, a veces llamado ARA (punto de contacto número dos para la seguridad del software), como el enfoque más efectivo para comenzar. Esto contrasta con comenzar con el punto de contacto uno (revisión de código), pero las razones por las cuales deberían ser más obvias.

En un informe de enero de 2020 titulado, «Un análisis de riesgo arquitectónico de los sistemas de aprendizaje automático: hacia un aprendizaje automático más seguro, «BIML publicó un ARA como un primer paso importante en su misión de ayudar a los ingenieros e investigadores a asegurar los sistemas de ML. En el informe, identificamos minuciosamente 78 riesgos. De esos 78 riesgos, presento los cinco primeros aquí. (Para un tratamiento de los 73 riesgos restantes y un conjunto de referencias científicas, consulte el informe en sí).

1) Ejemplos adversarios

Probablemente los ataques más comúnmente discutidos contra el aprendizaje automático se conocen como ejemplos adversos. La strategy básica es engañar a un sistema de aprendizaje automático al proporcionar información maliciosa que a menudo involucra perturbaciones muy pequeñas que hacen que el sistema haga una predicción o categorización falsa. Si bien la cobertura y la atención resultante pueden ser desproporcionadamente grandes, eliminando otros riesgos importantes de LD, los ejemplos adversos son muy reales.

2) Envenenamiento de datos

Los datos juegan un papel descomunal en la seguridad de un sistema ML. Esto se debe a que un sistema de ML aprende a hacer lo que hace directamente de los datos. Si un atacante puede manipular intencionalmente los datos que utiliza un sistema ML de manera coordinada, todo el sistema puede verse comprometido. Los ataques de envenenamiento de datos requieren atención especial. En certain, los ingenieros de ML deberían considerar qué fracción de los datos de entrenamiento puede controlar un atacante y en qué medida.

Hay varias fuentes de datos que están sujetas a ataques de envenenamiento por las cuales un atacante manipula intencionalmente datos, incluidos datos sin procesar en el mundo y conjuntos de datos que se ensamblan para entrenar, probar y validar un sistema de LD, posiblemente de manera coordinada, para provocar el entrenamiento de ML ir mal En cierto sentido, este es un riesgo relacionado tanto con la sensibilidad de los datos como con el hecho de que los datos mismos transportan gran parte del agua en un sistema de ML.

3) Manipulación del sistema en línea

Se dice que un sistema ML está «en línea» cuando continúa aprendiendo durante el uso operativo, modificando su comportamiento con el tiempo. En este caso, un atacante inteligente puede empujar el sistema de aprendizaje inmóvil en la dirección equivocada a propósito a través de la entrada del sistema y lentamente «volver a entrenar» el sistema ML para hacer lo incorrecto. Tenga en cuenta que dicho ataque puede ser sutil y razonablemente fácil de llevar a cabo. Este riesgo es complejo y exige que los ingenieros de ML consideren la procedencia de los datos, la elección de algoritmos y las operaciones del sistema para abordarlos adecuadamente.

4) Ataque de transferencia-aprendizaje

Muchos sistemas de ML se construyen ajustando un modelo base ya entrenado para que sus capacidades algo genéricas se ajusten con una ronda de entrenamiento especializado. Un ataque de transferencia presenta un riesgo importante en esta situación. En los casos en que el modelo previamente entrenado esté ampliamente disponible, un atacante puede idear ataques que lo usen y que sean lo suficientemente robustos como para tener éxito contra su modelo específico de tarea (no disponible para el atacante). También debe considerar si el sistema de ML que está afinando podría ser un troyano que incluye un comportamiento engañoso de ML inesperado.

Los sistemas de ML se reutilizan intencionalmente en situaciones de transferencia. Se aplica el riesgo de transferencia fuera del uso previsto. Los grupos que publican modelos para transferencia harían bien en describir con precisión exactamente qué hacen sus sistemas y cómo controlan los riesgos en este documento.

5) Confidencialidad de datos

La protección de datos es bastante difícil sin incluir ML en la mezcla. Un desafío único en ML es proteger los datos confidenciales o confidenciales que, a través de la capacitación, se integran en un modelo. Los ataques de extracción sutiles pero efectivos contra los datos de un sistema ML son una categoría importante de riesgo.

Preservar la confidencialidad de los datos en un sistema ML es más difícil que en una situación informática estándar. Esto se debe a que un sistema de ML que está capacitado en datos confidenciales o confidenciales tendrá algunos aspectos de esos datos integrados a través de la capacitación. Los ataques para extraer información confidencial y confidencial de los sistemas de ML (indirectamente a través del uso regular) son bien conocidos. Tenga en cuenta que incluso la extracción de «características» sub-simbólicas puede ser útil, ya que puede usarse para perfeccionar ataques de entrada adversos.

Asegurando ML

El análisis de riesgo arquitectónico básico de BIML identifica 78 riesgos específicos asociados con un sistema de ML genérico. El informe organiza los riesgos por componente común y también incluye algunos riesgos de todo el sistema. Los resultados del análisis de riesgos BIML están destinados a ayudar a los ingenieros de sistemas de ML a asegurar sus propios sistemas de ML particulares.

Desde mi punto de vista, los ingenieros de sistemas de ML pueden diseñar y colocar un sistema de ML más seguro al considerar cuidadosamente los riesgos BIML al diseñar, implementar y colocar su propio sistema de ML específico. En seguridad, el diablo está en los detalles, y BIML intenta proporcionar tantos detalles como sea posible con respecto a los riesgos de seguridad de ML y algunos controles básicos.

1. G. McGraw, H. Figueroa, V. Shepardson y R. Bonett, «Un análisis de riesgo arquitectónico de los sistemas de aprendizaje automático: hacia un aprendizaje automático más seguro». Informe técnico del Instituto Berryville de Aprendizaje Automático (BIML), https://berryvilleiml.com/success/ara.pdf (consultado el 6.3.20).

Gary McGraw es cofundador del Berryville Institute of Device Studying. Es una autoridad mundialmente reconocida en seguridad de computer software y el autor de ocho libros más vendidos sobre este tema. Sus títulos incluyen seguridad de program, explotación de software, creación de program seguro, … Ver biografía completa

Lectura recomendada:

Más ideas





Enlace a la noticia first