Engañar a los sistemas de PNL a través del intercambio de palabras


Engañar a los sistemas de PNL a través del intercambio de palabras

Los investigadores del MIT han construido un sistema que tontos sistemas de procesamiento de lenguaje normal intercambiando palabras con sinónimos:

El program, desarrollado por un equipo de MIT, busca las palabras en una oración que son más importantes para un clasificador de PNL y las reemplaza con un sinónimo que un humano encontraría all-natural. Por ejemplo, cambiar la oración «Los personajes, lanzados en situaciones imposiblemente inventadas, están totalmente separados de la realidad» a «Los personajes, lanzados en circunstancias imposiblemente diseñadas, están completamente separados de la realidad» no hace una diferencia genuine en cómo lo leemos. Pero los ajustes hicieron que una IA interpretara las oraciones de manera completamente diferente.

Los resultados de este ataque de aprendizaje automático adversario son impresionantes:

Por ejemplo, la poderosa purple neuronal BERT de Google fue peor en un factor de cinco a siete al identificar si las reseñas en Yelp fueron positivas o negativas.

los papel:

Resumen: Los algoritmos de aprendizaje automático a menudo son vulnerables a ejemplos adversos que tienen alteraciones imperceptibles de las contrapartes originales pero que pueden engañar a los modelos más modernos. Es útil evaluar o incluso mejorar la robustez de estos modelos al exponer los ejemplos adversos creados con fines maliciosos. En este artículo, presentamos TextFooler, una línea de foundation simple pero fuerte para generar texto pure de confrontación. Al aplicarlo a dos tareas fundamentales del lenguaje natural, la clasificación de texto y la vinculación textual, atacamos con éxito tres modelos objetivo, incluido el poderoso BERT pre-entrenado y las redes neuronales recurrentes y convolucionales ampliamente utilizadas. Demostramos las ventajas de este marco de tres maneras: (1) eficaz: supera los ataques de última generación en términos de tasa de éxito y tasa de perturbación, (2) preservación de la utilidad: conserva el contenido semántico y la gramaticalidad , y permanece correctamente clasificado por los humanos, y (3) eficiente: genera texto contradictorio con complejidad computacional lineal a la longitud del texto.

Publicado el 28 de abril de 2020 a las 10:38 a.m.

comentarios



Enlace a la noticia initial