ID de análisis arquitectónicos 78 Riesgos específicos en …



El nuevo modelo de amenaza se centra en la seguridad de ML en el estado de diseño.

Investigadores del Instituto Berryville de Aprendizaje Automático (BIML) han desarrollado un marco official de riesgos para guiar el desarrollo de sistemas seguros de lenguaje de máquina (ML).

El análisis de riesgo arquitectónico de BIML de los sistemas de ML es diferente del trabajo previo en esta área, ya que se centra en cuestiones a las que los ingenieros y desarrolladores deben prestar atención desde el principio al diseñar y construir sistemas de ML. La mayor parte del trabajo anterior sobre la seguridad de los sistemas ML se ha centrado en cómo proteger mejor los sistemas operativos y los datos contra ataques particulares y no en cómo diseñarlos de forma segura en primer lugar.

«Este trabajo proporciona una base técnica muy sólida para analizar los riesgos asociados con la adopción y el uso de ML», dice Gary McGraw, destacado investigador de seguridad, autor y cofundador de BMIL. La necesidad de este tipo de análisis de riesgos es crítica porque muy pocos realmente están prestando atención a la seguridad de ML en el estado de diseño, incluso cuando el uso de ML está creciendo rápidamente, dice.

Para el análisis de riesgo arquitectónico, los investigadores de BIML consideraron nueve componentes separados que identificaron como comunes para establecer, capacitar y desplegar un sistema de ML típico: datos sin procesar conjunto de conjunto de datos conjuntos de datos algoritmos de aprendizaje evaluación insumos modelo entrenado algoritmo de inferencia y salidas. Luego identificaron y clasificaron múltiples riesgos de seguridad de datos asociados con cada uno de esos componentes para que los ingenieros y desarrolladores puedan implementar controles para mitigar esos riesgos cuando sea posible.

Por ejemplo, identificaron la confidencialidad de los datos, la confiabilidad de las fuentes de datos y el almacenamiento de datos como consideraciones clave de seguridad en torno a los datos sin procesar utilizados en los sistemas de ML, como los datos de capacitación, entradas de prueba y datos operativos. Del mismo modo, para los conjuntos de datos utilizados en los sistemas de ML, los investigadores identificaron el envenenamiento de datos, donde un atacante manipula los datos para hacer que los sistemas de ML salgan mal, como un riesgo importante. Para los algoritmos de entrenamiento, los investigadores de BIML identificaron el potencial de los atacantes para empujar sutilmente un sistema de aprendizaje en línea en una dirección que sus desarrolladores no pretenden como una preocupación importante.

En total, el análisis arquitectónico de BIML mostró que los sistemas ML típicos están expuestos a hasta 78 riesgos de seguridad específicos en todos los componentes individuales. Clasificaron los riesgos en múltiples categorías, incluyendo manipulación de entrada, manipulación de datos, manipulación de modelos y ataques de extracción donde los actores de amenazas intentan extraer datos confidenciales de un conjunto de datos del sistema ML.

McGraw dice que el análisis BIML se trata de identificar y discutir los riesgos de LA y discutirlos, y no tanto sobre qué hacer al respecto. «Identificar los riesgos es más de la mitad de la batalla», dice. «Una vez que sabes cuáles son los riesgos, es mucho más fácil diseñar a su alrededor».

los Informe BMIL enumeró los 10 riesgos principales que afectan los sistemas de ML. Según el grupo de expertos, los riesgos más grandes, y más comúnmente discutidos, para los sistemas de ML son los llamados «ejemplos adversos» que implican el uso de entradas maliciosas para hacer que el sistema haga predicciones o categorizaciones falsas. El envenenamiento de datos, la manipulación del sistema en línea y los ataques que afectan la confidencialidad de los datos, la integridad de los datos y la salida de datos se identificaron como otros riesgos principales de seguridad de ML.

La importancia de la seguridad de los datos
«Una de las diferencias notables en la seguridad de ML y, por ejemplo, la seguridad operativa standard es que los datos y la seguridad de los datos juegan un papel muy importante», dice McGraw. «Cuando estás entrenando un sistema, puedes entrenarlo para que sea racista, xenófobo y awful si tus datos se configuran de esa manera», dice.

Como ejemplo, señala el experimento de muy corta duración de Microsoft con Tay, un chatbot habilitado para IA que aprendió de las interacciones en Twitter y rápidamente comenzó a arrojar tuits venenosos. «Tay estaba aprendiendo sobre Twitter al estar en él, y lo que sucedió fue que se convirtió en un troll racista e intolerante», dice. «Tay aprendió cómo period estar en Twitter, y no fue bonito».

Tales incidentes destacan por qué las organizaciones necesitan pensar cuidadosamente sobre los datos que están utilizando para la capacitación de máquinas, cómo se obtienen los datos y si las fuentes son confiables, dice.

Al contrario de lo que algunos podrían suponer, atacar un sistema de aprendizaje automático no es tan complicado, señala McGraw. «Envision que los datos de entrada para Google Translate son cualquier cosa que escriba», dice. «Si está utilizando fuentes de datos públicas para entrenar su modelo de aprendizaje automático, debe pensar en lo que sucede cuando un atacante comienza a molestar».

«La buena noticia es que si usted es ingeniero o diseñador, puede dificultar que alguien ataque su sistema. Ese es el propósito de este trabajo».

Contenido relacionado:

Jai Vijayan es un experimentado reportero de tecnología con más de 20 años de experiencia en periodismo comercial de TI. Recientemente fue editor sénior en Computerworld, donde cubrió temas de seguridad de la información y privacidad de datos para la publicación. En el transcurso de sus 20 años … Ver biografía completa

Más concepts





Enlace a la noticia primary