¿Qué errores de seguridad se explotarán? Investigadores crean un modelo de aprendizaje automático para averiguarlo



Usando el aprendizaje automático entrenado en datos de más de dos docenas de fuentes, un equipo de investigadores universitarios ha creado un modelo para predecir qué vulnerabilidades probablemente resultarán en una explotación funcional, una herramienta potencialmente valiosa que podría ayudar a las empresas a decidir mejor qué fallas de program priorizar.

El modelo, denominado Explotación esperada, puede capturar el 60 % de las vulnerabilidades que tendrán explotaciones funcionales, con una precisión de predicción, o «precisión», para usar la terminología de clasificación, del 86 %. Una clave para la investigación es permitir cambios en ciertas métricas a lo largo del tiempo, porque no toda la información relevante está disponible en el momento en que se revela una vulnerabilidad, y el uso de eventos posteriores permitió a los investigadores perfeccionar la precisión de la predicción.

Al mejorar la previsibilidad de la explotación, las empresas pueden reducir la cantidad de vulnerabilidades que se consideran críticas para parchear, pero la métrica también tiene otros usos, dice Tudor Dumitraș, profesor asociado de ingeniería eléctrica e informática en la Universidad de Maryland en Faculty Park, y uno de los autores del artículo de investigación publicado la semana pasada en la Conferencia de Seguridad USENIX.

«La predicción de la explotabilidad no solo es relevante para las empresas que desean priorizar la aplicación de parches, sino también para las compañías de seguros que intentan calcular los niveles de riesgo y para los desarrolladores, porque este es quizás un paso hacia la comprensión de lo que hace que una vulnerabilidad sea explotable», dice.

los Investigación de la Universidad de Maryland en College or university Park y la Universidad Estatal de Arizona es el último intento de brindar a las empresas información adicional sobre qué vulnerabilidades podrían explotarse o es probable que se aprovechen. En 2018, investigadores de la Universidad Estatal de Arizona y el Instituto de Ciencias de la Información de la USC centrado en analizar las discusiones de la Darkish Web para encontrar frases y características que podrían usarse para predecir la probabilidad de que una vulnerabilidad sea o haya sido explotada.

Y en 2019, investigadores de la firma de investigación de datos Cyentia Institute, RAND Corp. y Virginia Tech presentaron un modelo que predicaciones mejoradas de qué vulnerabilidades serían explotadas por los atacantes.

Muchos de los sistemas se basan en procesos manuales realizados por analistas e investigadores, pero la métrica de Explotación esperada se puede automatizar por completo, dice Jay Jacobs, científico jefe de datos y cofundador de Cyentia Institute.

“Esta investigación es diferente porque se enfoca en recoger todas las pistas sutiles de forma automática, consistente y sin depender del tiempo y las opiniones de un analista”, dice. «[T]Todo esto se hace en tiempo authentic ya escala. Puede mantenerse al día y evolucionar fácilmente con la avalancha de vulnerabilidades que se revelan y publican a diario».

No todas las funciones estaban disponibles en el momento de la divulgación, por lo que el modelo también tuvo que tener en cuenta el tiempo y superar el desafío del llamado «ruido de etiqueta». Cuando los algoritmos de aprendizaje automático usan un punto estático en el tiempo para clasificar patrones, por ejemplo, en explotables y no explotables, la clasificación puede socavar la eficacia del algoritmo, si luego se descubre que la etiqueta es incorrecta.

PoC: análisis de errores de seguridad para la explotabilidad

Los investigadores utilizaron información sobre casi 103 000 vulnerabilidades y luego la compararon con las 48 709 explotaciones de prueba de concepto (PoC) recopiladas de tres repositorios públicos (ExploitDB, BugTraq y Vulners) que representaban explotaciones para 21 849 de las distintas vulnerabilidades. Los investigadores también extrajeron discusiones de las redes sociales en busca de palabras clave y tokens (frases de una o más palabras) y crearon un conjunto de datos de exploits conocidos.

Sin embargo, los PoC no siempre son un buen indicador de si una vulnerabilidad es explotable, dijeron los investigadores en el artículo.

«Los PoC están diseñados para desencadenar la vulnerabilidad al bloquear o bloquear la aplicación de destino y, a menudo, no se pueden armar directamente», afirmaron los investigadores. «[W]Observamos que esto conduce a muchos falsos positivos para predecir exploits funcionales. Por el contrario, descubrimos que ciertas características de PoC, como la complejidad del código, son buenos predictores, porque desencadenar una vulnerabilidad es un paso necesario para cada explotación, lo que hace que estas características estén causalmente conectadas con la dificultad de crear explotaciones funcionales».

Dumitraș señala que predecir si se explotará una vulnerabilidad agrega una dificultad adicional, ya que los investigadores tendrían que crear un modelo de los motivos de los atacantes.

«Si se explota una vulnerabilidad en la naturaleza, entonces sabemos que hay una explotación funcional allí, pero conocemos otros casos en los que hay una explotación funcional, pero no hay una instancia conocida de explotación en la naturaleza», dice. «Las vulnerabilidades que tienen un exploit funcional son peligrosas y, por lo tanto, deben priorizarse para parchear».

La investigación publicada por Kenna Protection, ahora propiedad de Cisco, y el Instituto Cyentia descubrió que la existencia de un código de explotación público aumentaba siete veces la probabilidad de que se utilizara una explotación en la naturaleza.

Sin embargo, priorizar la aplicación de parches no es la única forma en que la predicción de vulnerabilidades puede beneficiar a las empresas. Las compañías de seguros cibernéticos podrían usar la predicción de exploits como una forma de determinar el riesgo potencial para los titulares de pólizas. Además, el modelo podría usarse para analizar software program en desarrollo para encontrar patrones que puedan indicar si el software program es más fácil o más difícil de explotar, dice Dumitraș.



Enlace a la noticia authentic