Extracción de información individual de modelos de idiomas grandes como GPT-2


Extracción de información individual de modelos de idiomas grandes como GPT-2

Los investigadores han podido encontrar todo tipo de información particular dentro de GPT-2. Esta información fue parte de los datos de entrenamiento y se puede extraer con el tipo de consultas adecuado.

Papel: «Extracción de datos de entrenamiento de modelos de idiomas grandes. «

Resumen: Se ha vuelto común publicar modelos de lenguaje grandes (miles de millones de parámetros) que han sido entrenados en conjuntos de datos privados. Este documento demuestra que en tales entornos, un adversario puede realizar un ataque de extracción de datos de entrenamiento para recuperar ejemplos de entrenamiento individuales consultando el modelo de lenguaje.

Demostramos nuestro ataque a GPT-2, un modelo de lenguaje entrenado en fragmentos de la World-wide-web pública, y somos capaces de extraer cientos de secuencias de texto textuales de los datos de entrenamiento del modelo. Estos ejemplos extraídos incluyen información de identificación own (pública) (nombres, números de teléfono y direcciones de correo electrónico), conversaciones de IRC, código y UUID de 128 bits. Nuestro ataque es posible a pesar de que cada una de las secuencias anteriores se incluyen en un solo documento en los datos de entrenamiento.

Evaluamos exhaustivamente nuestro ataque de extracción para comprender los factores que contribuyen a su éxito. Por ejemplo, encontramos que los modelos más grandes son más vulnerables que los modelos más pequeños. Concluimos extrayendo lecciones y discutiendo posibles salvaguardas para entrenar modelos de lenguaje grandes.

De un website enviar:

Generamos un whole de 600.000 muestras al consultar GPT-2 con tres estrategias de muestreo diferentes. Cada muestra contiene 256 tokens, o aproximadamente 200 palabras en promedio. Entre estas muestras, seleccionamos 1.800 muestras con una probabilidad anormalmente alta de inspección guide. De las 1.800 muestras, encontramos 604 que contienen texto que se reproduce literalmente del conjunto de formación.

El resto de la publicación del blog analiza los tipos de datos que encontraron.

Publicado el 7 de enero de 2021 a las 6:14 a.m. •
comentarios



Enlace a la noticia primary