Los investigadores crean un nuevo enfoque para detectar la suplantación de marca



Los investigadores de seguridad han diseñado una nueva forma de detectar la suplantación de marca utilizando redes neuronales siamesas, que pueden aprender y hacer predicciones basadas en cantidades más pequeñas de datos.

Estos ataques, en los que los adversarios crean contenido para imitar marcas conocidas y engañar a las víctimas para que compartan información, se han vuelto más difíciles de detectar a medida que mejoran la tecnología y las técnicas, dice Justin Grana, investigador aplicado de Microsoft. Si bien las aplicaciones relacionadas con la empresa suelen falsificarse en este tipo de ataques, los delincuentes pueden falsificar logotipos de marcas para cualquier organización.

«La suplantación de marca ha aumentado en su fidelidad, en el sentido de que, al menos desde una [perspectiva] visible, algo que es una suplantación de marca maliciosa puede parecer idéntico al contenido authentic y legítimo», explica Grana. «No hay más copiar y pegar, ni logotipos irregulares». En los ataques actuales, los componentes visuales de la suplantación de marca imitan casi exactamente el contenido real.

Esto presenta un claro obstáculo de seguridad, continúa, porque las personas y la tecnología ya no pueden buscar artefactos que anteriormente distinguían el contenido falso del authentic. «Esas señales visuales ya no existen», dice Grana sobre un desafío clave que enfrentó el equipo de investigación.

La mayoría de la gente está familiarizada con el concepto de reconocimiento de imágenes. Lo que hace que la detección de la suplantación de marca sea diferente es doble: por un lado, una víctima puede recibir diferentes tipos de contenido que tienen como objetivo imitar la misma marca. Un ataque de suplantación de identidad de Microsoft, por ejemplo, podría enviar un correo electrónico malicioso que imita a Excel y otro diseñado para parecerse a Phrase.

«Son dos piezas de contenido muy diferentes, aunque ambas representan a Microsoft», dice Grana.

Si bien demasiados tipos de contenido pueden presentar un desafío de detección, muy pocos pueden hacer lo mismo. Muchas marcas, como los bancos regionales y otras organizaciones pequeñas, no se ven a menudo en la suplantación de marca, por lo que es posible que solo haya unos pocos ejemplos de capacitación de los que un sistema pueda aprender.

«El aprendizaje profundo estándar que requiere toneladas y toneladas de ejemplos por clase [la clase es la marca en este caso] realmente no funcionaría en nuestra situación», señala.

Para abordar el problema de la detección de ataques de suplantación de marca, Grana se asoció con el ingeniero de software program Yuchao Dai, el arquitecto de application Nitin Kumar Goel y el investigador aplicado senior Jugal Parikh. Juntos, desarrollaron y entrenaron una purple neuronal siamesa en imágenes etiquetadas para detectar este tipo de ataques. A diferencia del aprendizaje profundo estándar, que se entrena con muchos ejemplos, las redes neuronales siameses están diseñadas para generar mejores predicciones utilizando una menor cantidad de muestras.

[Los investigadores discutirán su enfoque, nuevas aplicaciones y mejoras planificadas en su próxima sesión informativa de Black Hat ".Redes neuronales siamesas para detectar la suplantación de marca"el miércoles 4 de agosto]

El conjunto de datos del equipo consta de más de 50.000 capturas de pantalla de páginas de inicio de sesión maliciosas que abarcan más de 1.000 suplantaciones de marca. Cada imagen es una colección de números, dice Grana, y el equipo tradujo esos números en lo que él explain como un «punto» en un plano de coordenadas 2D. En lugar de una imagen, que tiene tres dimensiones de todos sus píxeles diferentes, se convierte en números. El equipo buscó una manera de hacer que los números fueran significativos y, al hacerlo, distinguir las imágenes de marca falsas de las reales.

«Nuestro algoritmo que usamos, lo recompensamos por … traducir el contenido de la misma marca a números similares, y el contenido de diferentes marcas a números diferentes, de esa manera, cuando miramos estos nuevos números que ahora son significativos porque capacitamos a nuestros purple para hacerlo, es probable que cualquier número cercano sea de la misma marca «, explica.

Su crimson neuronal siamesa aprende a incrustar imágenes de la misma marca relativamente juntas en un espacio de baja dimensión, mientras que las imágenes de diferentes marcas se incrustan más separadas. Luego hacen una «clasificación de vecino más cercano» en el espacio incrustado.

Modelos de formación, lecciones de aprendizaje
Grana dice que el equipo enfrentó bastantes desafíos y aprendió algunas lecciones en el camino.

«Tratar con datos sesgados es un gran problema», señala. «Cuando tiene un conjunto de datos que solo tiene un par de observaciones por marca o por clase, realmente requiere técnicas especiales. Hicimos algunas pruebas con la purple neuronal normal, y simplemente no fue suficiente para nuestros propósitos».

Determinar las técnicas específicas que funcionarán requiere mucho ensayo y mistake, dice Grana sobre el proceso de investigación. ¿Qué método se adapta mejor a los datos que tiene? “Existe la ciencia detrás del aprendizaje automático, pero también está el arte de decir, &#39qué algoritmo de optimización deberíamos probar qué arquitectura de crimson deberíamos probar&#39”, explica.

El trabajo de los investigadores aún está en curso, agrega. Su próximo objetivo es examinar cómo este enfoque podría funcionar con un adversario inteligente y adaptable, como un medio para mejorar la tecnología y la respuesta a las técnicas en evolución de los atacantes. Las capturas de pantalla que usaron en esta investigación no serán las mismas que se usaron en futuros ataques, y la tecnología de seguridad debe mantener el ritmo.



Enlace a la noticia initial