Anuncio de la competencia de inferencia de membresía de aprendizaje automático de Microsoft (MICO) – Centro de respuesta de seguridad de Microsoft

Nos complace anunciar el lanzamiento de un nueva competencia centrándose en la seguridad y privacidad de los sistemas de aprendizaje automático (ML). El aprendizaje automático ya se ha convertido en un habilitador clave en muchos productos y servicios, y es possible que esta tendencia continúe. Por lo tanto, es essential comprender las garantías de seguridad y privacidad que brindan los algoritmos de ML de última generación de hecho, esta es una de Principios de IA responsable de Microsoft.

Fundamentalmente, los modelos de ML necesitan datos sobre los cuales se puedan entrenar. Estos datos de capacitación se pueden extraer de una variedad de fuentes, incluidos datos públicos y no públicos. En muchos dominios, los modelos de ML logran un mejor rendimiento si se entrenan en datos especializados o específicos del dominio. Estos datos especializados a menudo no están directamente disponibles para los usuarios del modelo (por ejemplo, para proteger la privacidad de los contribuyentes de datos o la propiedad intelectual del propietario del modelo). Idealmente, tener acceso a un modelo ML no debería revelar qué registros de datos individuales se usaron para entrenar el modelo. Sin embargo, un trabajo reciente sobre la inferencia de membresía ha demostrado que este no es siempre el caso.

¿Qué es la inferencia de pertenencia?

La inferencia de pertenencia es una clase de amenazas ampliamente estudiada contra los modelos de ML. Dado el acceso a un modelo, el objetivo es inferir si un registro de datos determinado se utilizó para entrenar ese modelo. Según la naturaleza de los datos de entrenamiento, un ataque de inferencia de membresía exitoso podría tener graves consecuencias negativas. Por ejemplo, un modelo para predecir la siguiente palabra en una oración podría entrenarse en un gran conjunto de datos de correos electrónicos y documentos de una empresa. Si el modelo fuera susceptible a la inferencia de membresía, cualquier usuario del modelo podría adivinar oraciones candidatas y usar el modelo para probar si se usaron para entrenar el modelo, indicando así que aparecían en los correos electrónicos o documentos de la empresa. De manera identical, un modelo para clasificar imágenes médicas podría entrenarse en un conjunto de datos de imágenes reales de pacientes en un clinic específico. Un ataque de inferencia de membresía exitoso podría permitir a los usuarios del modelo probar si las imágenes de una persona específica se incluyeron en el conjunto de datos de entrenamiento y, por lo tanto, saber que period un paciente en ese hospital.

Es importante destacar que la inferencia de pertenencia en sí misma puede no ser el objetivo last del atacante. Por ejemplo, el atacante puede realmente querer inferir atributos confidenciales sobre registros de datos de entrenamiento individuales (inferencia de atributos) o incluso reconstruir registros a partir de los datos de entrenamiento (ataques de reconstrucción). Sin embargo, tenga en cuenta que en estos ataques, el atacante intenta obtener más información sobre los datos de entrenamiento que en la inferencia de membresía, donde solo necesita inferir un solo bit (miembro o no miembro). Por lo tanto, si podemos demostrar que un modelo en certain es resistente a la inferencia de pertenencia, es un fuerte indicio de que el modelo también es resistente a estos otros ataques más devastadores.

¿Cómo funciona la inferencia de pertenencia?

En la literatura científica se han demostrado varios tipos diferentes de ataques de inferencia de membresía de diversa complejidad. Por ejemplo, en un caso easy, el modelo podría haberse sobreajustado a sus datos de entrenamiento, de modo que genera predicciones de mayor confianza cuando se consultan registros de entrenamiento que cuando se consultan registros que el modelo no ha visto durante el entrenamiento. Reconociendo esto, un atacante podría simplemente consultar el modelo con los registros de interés, establecer un umbral en la confianza del modelo e inferir que los resultados con confianza por encima del umbral son probablemente miembros de los datos de entrenamiento. En esta configuración, el atacante solo necesita la capacidad de consultar el modelo con entradas específicas y observar la salida. Por otro lado, el atacante puede tener acceso a las partes internas del modelo, por ejemplo, porque el modelo se implementó en dispositivos perimetrales, lo que podría permitir estrategias de ataque aún más sofisticadas.

¿Qué es MICO?

MICO es una competencia pública que tiene como objetivo reunir y comparar técnicas de vanguardia para la inferencia de membresía. La competencia consta de cuatro tareas separadas: inferencia de membresía contra modelos de clasificación para imágenes, texto y datos tabulares, así como una categoría especial de distinción de Privacidad Diferencial (DP) que abarca los 3 dominios. Para cada tarea, hemos entrenado 600 modelos de redes neuronales en diferentes divisiones de un conjunto de datos público. Para cada modelo, proporcionamos un conjunto de puntos de desafío extraídos del mismo conjunto de datos. Exactamente la mitad de los puntos de desafío son miembros (es decir, se usaron para entrenar el modelo) y la otra mitad no son miembros. El objetivo de los participantes es determinar cuáles de estos puntos de desafío son miembros y cuáles no. Los participantes tienen acceso completo a todos los modelos, lo que les permite realizar consultas arbitrarias ilimitadas a cada modelo e inspeccionar los parámetros de los modelos. Esto representa las capacidades de atacante más fuertes posibles.

Todos nuestros modelos fueron entrenados en conjuntos de datos públicos ampliamente utilizados, por lo que no hay riesgo para ningún dato privado o own. Esta competencia ha sido revisada de acuerdo con las pautas de IA responsable y de código abierto de Microsoft.

¿Cómo participo?

Por favor visite la principal Página de la competencia MICO en GitHub. Desde allí encontrará enlaces a las cuatro tareas diferentes. Estos están alojados en la plataforma CodaLab, que utilizamos para procesar las presentaciones y realizar un seguimiento de las puntuaciones. El repositorio de GitHub también contiene un cuaderno de «package de inicio» para cada tarea, que demuestra cómo descargar los datos de la competencia, ejecutar un ataque básico de inferencia de membresía y enviar sus resultados en CodaLab.
Para que esta competencia sea accesible a la audiencia más amplia posible, cada tarea se calificará por separado. Esto significa que puede participar en tantas o tan pocas tareas como desee, sin afectar su desempeño en el marcador.

Puntuación, ganadores y premios

  • La competencia se extenderá hasta 12 de enero de 2023 (23:59 en cualquier lugar del mundo).
  • Se mostrará un marcador en vivo, basado en parte de los datos de evaluación, durante todo el evento. Los puntajes finales se determinarán en un subconjunto separado de los datos.
  • El ganador de cada tarea será elegible para un premio de $ 2,000 USD y el finalista de cada tarea para un premio de $ 1,000 USD (en caso de empate en las entradas, estos premios pueden ajustarse). Estos premios están patrocinados por MSRC.
  • Esta competencia comparte ubicación con el Conferencia IEEE sobre aprendizaje automático seguro y confiable (SaTML) 2023. Los ganadores serán invitados a presentar sus estrategias en esta conferencia.

¿Cuáles son los objetivos de este concurso?

Aunque existe un cuerpo significativo de literatura científica que describe varios ataques (y defensas) de inferencia de membresía, hasta la fecha no existe un punto de referencia común para evaluar y comparar estas diferentes técnicas. Uno de nuestros objetivos en esta competencia es proporcionar este conjunto de datos de referencia. Esta es una tarea no trivial, ya que nuestro conjunto de datos consta de 2400 modelos entrenados, con un tamaño whole de más de 400 GB, con un tiempo de entrenamiento estimado de 600 horas de GPU. Somos afortunados de tener los recursos para crear un conjunto de datos de este tipo, por lo que esperamos que esto beneficie a la comunidad de investigación, incluso más allá de esta competencia. Después de que esta competencia haya concluido, planeamos publicar el conjunto de datos completo, junto con las etiquetas de los puntos de desafío y los guiones de entrenamiento, para que cualquiera los use.

En términos más generales, creemos que los concursos públicos, como MICO, tienen un papel importante que desempeñar en la definición de las mejores prácticas e incluso los estándares futuros para la privacidad digital. Los concursos públicos ya están bien establecidos en varios campos. Por ejemplo, organizaciones como NIST los utilizan en la evaluación y estandarización de algoritmos criptográficos. En el aprendizaje automático, existe una próspera tradición de concursos públicos para mejorar el rendimiento del modelo de última generación en diferentes tareas y conjuntos de datos. Vemos un valor identical en el uso de competencias para avanzar en la ciencia del aprendizaje automático confiable. Tener un punto de referencia común para evaluar los ataques es el primer paso hacia este objetivo, y el segundo es reunir, comparar y discutir los enfoques más avanzados en este campo. ¡Por estas razones le damos la bienvenida y le animamos a participar en MICO!

MICO está organizado por Ahmed Salem, Giovanni Cherubin, Santiago Zanella-Béguelin y Andrew Pavard de Microsoft, y Ana-Maria Cretu del Imperial College or university London.



Fuente del articulo