El proyecto de Microsoft e Intel convierte el malware en imágenes antes de analizarlo


stamina-steps.png

Imagen: Microsoft

Microsoft e Intel han colaborado recientemente en un nuevo proyecto de investigación que exploró un nuevo enfoque para detectar y clasificar el malware.

Llamado AGUANTE (STAtic METROalware-as-yomago norteetwork UNAanálisis), el proyecto se basa en una nueva técnica que convierte las muestras de malware en imágenes en escala de grises y luego escanea la imagen en busca de patrones de textura y estructurales específicos de las muestras de malware.

Cómo funciona realmente Stamina

El equipo de investigación de Intel-Microsoft dijo que todo el proceso siguió unos simples pasos. El primero consistió en tomar un archivo de entrada y convertir su forma binaria en una secuencia de datos de píxeles sin procesar.

Luego, los investigadores tomaron esta secuencia de píxeles unidimensional (1D) y la convirtieron en una foto 2D para que los algoritmos normales de análisis de imágenes puedan analizarla.

El ancho de la imagen se seleccionó en función del tamaño del archivo de entrada, utilizando la tabla a continuación. La altura fue dinámica y resultó de dividir la secuencia de píxeles sin procesar por el valor de ancho elegido.

stamina-table.png "src =" https://zdnet1.cbsistatic.com/hub/i/2020/05/11/4c0165c5-a664-4282-b6cc-bfb618932e7b/stamina-table.png

Imagen: Intel, Microsoft

Después de ensamblar la secuencia de píxeles sin procesar en una imagen 2D de aspecto typical, los investigadores cambiaron el tamaño de la foto resultante a una dimensión más pequeña.

El equipo de Intel y Microsoft dijo que cambiar el tamaño de la imagen en bruto no «impactó negativamente el resultado de la clasificación», y este fue un paso necesario para que los recursos computacionales no tengan que funcionar con imágenes que consisten en miles de millones de píxeles, lo que probablemente ralentizar el procesamiento.

Luego, las imágenes residuales se introdujeron en una red neuronal profunda (DNN) previamente entrenada que escaneaba la imagen (representación 2D de la cepa de malware) y la clasificaba como limpia o infectada.

Microsoft dice que proporcionó una muestra de 2,2 millones de hashes de archivos PE (Portable Ejecutable) infectados para servir como base para la investigación.

Los investigadores utilizaron el 60% de las muestras de malware conocidas para entrenar el algoritmo DNN authentic, el 20% de los archivos para validar el DNN y el otro 20% para el proceso de prueba real.

El equipo de investigación dijo que Endurance logró una precisión del 99.07% en la identificación y clasificación de muestras de malware, con una tasa de falsos positivos del 2.58%.

«Los resultados ciertamente fomentan el uso del aprendizaje de transferencia profunda con el propósito de clasificar el malware», dijeron Jugal Parikh y Marc Marino, los dos investigadores de Microsoft que participaron en la investigación en nombre del Equipo de Inteligencia de Protección contra Amenazas de Microsoft.

La inversión de Microsoft en aprendizaje automático

La investigación es parte de los esfuerzos recientes de Microsoft para mejorar la detección de malware utilizando técnicas de aprendizaje automático.

Endurance usó una técnica llamada aprendizaje profundo. El aprendizaje profundo es un subconjunto del aprendizaje automático (ML), una rama de la inteligencia synthetic (IA), que se refiere a redes informáticas inteligentes que son capaces de aprender por sí mismas a partir de datos de entrada que se almacenan en un formato no estructurado o sin etiquetar, en En este caso, un binario de malware aleatorio.

Microsoft dijo que si bien Stamina era precisa y rápida cuando trabajaba con archivos más pequeños, fallaba con los más grandes.

«Para aplicaciones de mayor tamaño, Stamina se vuelve menos efectiva debido a las limitaciones para convertir miles de millones de píxeles en imágenes JPEG y luego cambiar su tamaño». Microsoft dijo en una publicación de web site la semana pasada.

Sin embargo, esto probablemente no importa, ya que el proyecto podría usarse solo para archivos pequeños, con excelentes resultados.

En una entrevista con ZDNet a principios de este mes, Tanmay Ganacharya, Director de Investigación de Seguridad de Microsoft Risk Security, dijo que Microsoft ahora depende en gran medida del aprendizaje automático para detectar amenazas emergentes, y este sistema utiliza diferentes módulos de aprendizaje automático que se están implementando en el cliente sistemas o servidores de Microsoft.

Microsoft ahora usa motores de modelo de aprendizaje automático del lado del cliente, motores de modelo de aprendizaje automático del lado de la nube, módulos de aprendizaje automático para capturar secuencias de comportamientos o capturar el contenido del archivo en sí, dijo Ganacharya.

Según los resultados informados, Endurance podría ser uno de esos módulos de ML que pronto veremos implementado en Microsoft como una forma de detectar malware.

Actualmente, Microsoft puede hacer que este enfoque funcione mejor que otras compañías, principalmente debido a la gran cantidad de datos que posee de los cientos de millones de instalaciones de Windows Defender.

«Cualquiera puede construir un modelo, pero los datos etiquetados, la cantidad y la calidad de los mismos, realmente ayudan a entrenar los modelos de aprendizaje automático de manera adecuada y, por lo tanto, definen qué tan efectivos serán», dijo Ganacharya.

«Y nosotros, en Microsoft, tenemos eso como una ventaja porque tenemos sensores que nos traen muchas señales interesantes a través del correo electrónico, la identidad, el punto remaining y poder combinarlas».



Enlace a la noticia primary