Microsoft: esta ingeniosa técnica de código abierto ayuda a proteger su privacidad


Agregar ruido estadístico a un conjunto de datos puede garantizar que no haya fugas de información accidentales. Es una tarea difícil, facilitada por el marco de trabajo SmartNoise de código abierto.

Los datos son el nuevo aceite, como dice el refrán, tanto valiosos como que requieren mucha limpieza si tienen fugas. El temor de que la información contenida en datos anonimizados pueda volver a identificarse y desanonimizarse hace que las personas no contribuyan con su información y dificulta que los investigadores accedan a datos confidenciales y desbloqueen conocimientos que podrían ayudar a todos. Eso se aplica a todo, desde salud y educación hasta errores de Windows y cómo se usa Office.

sarah-bird-microsoft.jpg

Sarah Bird de Microsoft: "Lo único que desea es conocer los patrones más grandes de los datos, por lo que lo que hace la privacidad diferencial es agregar algo de ruido para ocultar esos patrones más pequeños que de todos modos no deseaba conocer".

Imagen: Microsoft

Incluso con documentación clara de lo que se recopila, a algunos usuarios les preocupa que la telemetría enviada por Windows pueda revelar información personal. Pero el equipo de ciencia de datos de Windows no quiere información personal cuando busca patrones de errores y configuraciones, Sarah pájaro, director de programa principal de IA responsable en Microsoft, dijo a TechRepublic.

"Ni siquiera queremos conocer esta información sobre nuestros usuarios. Queremos conocer (información) agregada. No queremos una situación en la que accidentalmente hayamos aprendido algo que ni siquiera queríamos saber".

VER: Lenguaje de programación C ++: cómo se convirtió en la base de todo y lo que sigue (PDF gratuito) (TechRepublic)

Existe un problema similar con mucho aprendizaje automático y la solución es privacidad diferencial. Esto agrega 'ruido estadístico' aleatorio a los resultados de las consultas, lo suficiente para proteger la privacidad individual sin comprometer la precisión de las respuestas, de una manera que se puede demostrar que protege la privacidad.

"Solo desea aprender los patrones más grandes en los datos, por lo que lo que hace la privacidad diferencial es agregar algo de ruido para ocultar esos patrones más pequeños que de todos modos no quería saber", explicó Bird.

La privacidad diferencial protege contra los atacantes que intentan extraer información individual y los sistemas que la exponen accidentalmente, agregó. "Si ha establecido los parámetros correctamente, no debería dañar su análisis en absoluto. Debería permitirle aprender esos grandes patrones, pero protegerlo de aprender los patrones más pequeños que no debería aprender. Los modelos están funcionando para aprender todo tipo de cosas, lo desee o no. De hecho, podemos garantizar, con una sólida garantía estadística, que no vamos a aprender esa información como resultado de este cálculo ".

Antes de que los datos recopilados en una PC con Windows se envíen a Microsoft, el sistema de telemetría agrega ruido, para que Microsoft pueda ver el panorama general del rendimiento de Windows sin obtener información vinculada a ningún usuario específico de Windows.

Ya es común agregar ruido durante el aprendizaje automático para prevenir un problema llamado sobreajuste, que ocurre cuando el sistema aprende los datos de entrenamiento tan bien que obtiene resultados impresionantes que no se transfieren a los datos en vivo con los que desea usarlos. "Esto es conceptualmente similar", dijo Bird, "excepto que lo mejor de la privacidad diferencial es la garantía matemática de que si agrega el tipo correcto de ruido y realiza un seguimiento de la cantidad de información que revela, entonces realmente podrá decir 'No puedo aplicar ingeniería inversa a esto; no puedo aprender nada sobre ningún individuo en el conjunto de datos' ".

Mantenerse en el anonimato

La idea de privacidad diferencial se remonta a unos 15 años. En 2006, científico distinguido de Microsoft Research Cynthia Dwork, uno de los investigadores a los que se les ocurrió la idea, nos lo describió como 'trabajar en respuestas a problemas que aún no todos se han dado cuenta'.

A medida que organizaciones como Netflix y AOL comenzaron a publicar conjuntos de datos que supuestamente debían eliminar los datos personales, rápidamente quedó claro que si tenía información adicional sobre las personas que habían contribuido con datos, a veces podría identificarlos en el conjunto de datos anónimos. Eso tenía implicaciones para compartir datos médicos, información del censo y otros conjuntos de datos útiles para la investigación.

La idea detrás de la privacidad diferencial es eliminar el riesgo de poner su información en una base de datos garantizando que no pueda filtrar lo que usted contribuyó específicamente. El punto clave es si el sistema se comporta de manera diferente cuando sus datos están en la base de datos y cuando no lo están. La privacidad diferencial oculta esa diferencia utilizando una cantidad de ruido calculada con precisión en los resultados de la consulta.

"Suponga que tiene un corpus de información privada y está buscando comprender la población subyacente; desea realizar análisis estadísticos de datos", explicó Dwork en ese momento. "También desea permitir que las personas formulen sus propias consultas, y desea permitir que incluso las personas adversarias (lo hagan). No solo puede creer, sino también garantizar matemáticamente que está preservando la privacidad".

La cantidad de ruido requerida no depende del tamaño de la base de datos, sino de cuántas veces se consultará. Para evitar que alguien se concentre en la respuesta real haciendo repetidamente preguntas muy similares, la magnitud del ruido agregado está vinculada a la cantidad de consultas que se pueden realizar en la base de datos o en datos específicos en ella. Piense en eso como un presupuesto de privacidad para la base de datos (técnicamente, se conoce como 'épsilon', y el cálculo de la pendiente del riesgo de privacidad mediante cálculo diferencial le da a la técnica su nombre).

Cumplir con el presupuesto de privacidad significa solo compartir una base de datos hasta que se haya ejecutado esa cantidad de consultas.

"Sabemos cuánto ruido tenemos que agregar para asegurar nuestra definición de privacidad", nos dijo Dwork. En algunos casos (pero no en todos), eso sería menor que el error de muestreo en la base de datos, lo que le da privacidad "gratis".

La privacidad diferencial significa pensar en cómo se consultará el conjunto de datos, pero una gran ventaja, nos dijo Dwork, es que: "No tienes que decidir de antemano qué información identificable. Uno de nuestros objetivos es que no tienes pensar demasiado ".

Pero poner en práctica la privacidad diferencial ha requerido mucho trabajo, y ha sido utilizado principalmente por organizaciones grandes y sofisticadas como Apple, Microsoft y la Oficina del Censo de EE. UU. (Que ha demostrado polémico).

"Vemos que las organizaciones comienzan a usarlo, pero las más conocedoras de la tecnología, como Microsoft, han dicho: 'Quiero esa garantía de que no vamos a dejar que se vayan esos datos'", dijo Bird.

smartnoise-diferencial-privacy-microsoft.jpg "src =" https://www.techrepublic.com/a/hub/i/2021/05/24/a79b2d4e-841f-4d64-9b8e-af322ffcdb48/smartnoise-differential-privacy -microsoft.jpg

Cómo la privacidad diferencial de SmartNoise protege los datos.

Imagen: Microsoft

Ruido más inteligente

De hecho, era casi demasiado difícil de usar incluso para Microsoft, especialmente porque la telemetría de Windows usa la opción más complicada pero más protectora de la privacidad de agregar ruido localmente, incluso antes de que los datos entren en la base de datos.

"Nuestro caso de uso original en la telemetría de Windows fue exitoso y se lanzó en producción, pero la experiencia fue que tuvieron que trabajar en estrecha colaboración con los investigadores de Microsoft y desarrollar una gran cantidad de experiencia en privacidad diferencial en Windows", dijo Bird. "Y salieron del otro lado de esto diciendo, 'Wow, eso fue demasiado difícil y queremos hacerlo mucho más'".

"Teníamos varios equipos en Microsoft que querían usar esta tecnología porque tiene ese nivel más alto de privacidad y no hay ninguna otra tecnología que pueda brindarle esa garantía de que no se filtrará información en la salida del cálculo". " ella añadió.

Eso incluía Office y el IA para el bien programa, que deseaba que los investigadores tuvieran un mejor acceso a datos confidenciales como información sobre salud y educación. "Todos queremos utilizar la privacidad diferencial y no puede ser tan difícil como lo fue en Windows, o nadie va a adoptar esta tecnología", dijo Bird.

VER: IA en el quirófano: una empresa está cerrando las brechas en la cirugía utilizando tecnología (TechRepublic)

Para ayudar con eso, Microsoft se asoció con la Universidad de Harvard (donde Dwork es profesor) como parte de la OpenDP iniciativa y lanzó la SmartNoise marco de código abierto. Construido en Rust, SmartNoise tiene conexiones para lagos de datos, SQL Server, Postgres, Apache Spark, Apache Presto y archivos CSV, y un tiempo de ejecución que se puede usar desde C, C ++, Python, R y otros lenguajes para generar y validar resultados diferenciales de privacidad. . También tiene formas de controlar la cantidad de consultas permitidas, para que no se quede sin el "presupuesto" de consultas que pueden protegerse con el nivel de ruido establecido para la base de datos.

Cuando entrena un modelo o consulta datos protegidos por SmartNoise, agrega ruido estadístico a los resultados, calcula cuánto riesgo de privacidad agrega a la base de datos y resta esa cantidad del presupuesto para futuras consultas y ejecuciones de capacitación. También se puede usar para crear datos sintéticos para usar en el aprendizaje automático. "Eso significa que no necesita preocuparse por el seguimiento del presupuesto porque usa su presupuesto para generar un conjunto de datos y la gente puede hacer las consultas que quiera", explicó Bird.

"Si tenemos herramientas de código abierto, podremos acelerar la adopción de la privacidad diferencial, porque haremos que sea más fácil para las personas usarla, pero también porque haremos que sea más fácil para las personas crear cosas que otras personas pueden usar, y avanzar en el estado de la técnica de esa manera ", dijo Bird. Algunos usuarios son organizaciones pequeñas que desean trabajar a escalas incluso más altas que la cantidad de datos recopilados como telemetría de Windows, por lo que Microsoft ha trabajado más optimizando los algoritmos para que se ejecuten de manera eficiente. "Es muy básico y realmente nos ayuda a descubrir qué se necesita para que esta tecnología realmente funcione".

smartnoise-statistics-for-data-set-incluido-el-presupuesto-de-privacidad-para-ml-microsoft.jpg "src =" https://www.techrepublic.com/a/hub/i/2021/05/24 /6b99a34f-b455-4b4a-b0ab-bd59163ce99e/smartnoise-statistics-for-data-set-including-the-privacy-budget-for-ml-microsoft.jpg

Las herramientas de SmartNoise le permiten ver estadísticas sobre su conjunto de datos, incluido el presupuesto de privacidad para el aprendizaje automático.

Imagen: Microsoft

Incluso con SmartNoise, que reduce la cantidad de experiencia y trabajo de desarrollo requeridos, las organizaciones aún necesitan mucha experiencia en ciencia de datos para elegir el algoritmo y la configuración (especialmente para determinar el valor épsilon correcto para un conjunto de datos).

Si lo que está tratando de hacer es similar a una forma en que ya se ha utilizado la privacidad diferencial, Bird sugirió que los equipos con científicos de datos y desarrolladores podrían usar el kit de herramientas con éxito por sí mismos. Otros se comunican con el equipo de SmartNoise en GitHub, lo que ha llevado a una programa de adopción temprana donde Microsoft ayuda a organizaciones como Humana y el Asociación de resultados educativos Construir una privacidad diferencial en los programas de investigación que analizan datos de salud y educación. "Es de todo, desde nuevas empresas que quieren construir en torno a la privacidad diferencial hasta organizaciones sin fines de lucro que quieren usar esto para la educación", explicó Bird. "Con suerte, en unos seis meses tendremos varios casos de uso de producción más de privacidad diferencial en el mundo".

Microsoft también ha utilizado la privacidad diferencial para compartir datos de uso de banda ancha de EE. UU. (Originalmente recopilados para la FCC) con investigadores que buscan cómo la conectividad ha afectado el acceso a la educación durante la pandemia.

Privacidad diferencial en Microsoft

Microsoft ahora usa la privacidad diferencial en Office y en LinkedIn, donde se usa para las consultas de los anunciantes.

La nueva característica de Outlook que sugiere respuestas a correos electrónicos que recibes es construido usando privacidad diferencial, por lo que ninguna de las sugerencias puede incluir información personal. "No quiere que revele respuestas de cola larga que se aprendieron, como autocompletar 'mi número de seguro social es'", explicó Bird. "La privacidad diferencial lo protege de aprender esas respuestas individuales". (La privacidad diferencial se usa en otras partes de Office, pero Microsoft aún no ha comenzado a hablar de esos otros usos).

El panel del administrador en Workplace Analytics debe brindar a los administradores información sobre cómo está trabajando su equipo, pero no revelar detalles sobre personas específicas. "Quieres que un gerente pueda observar la salud, la productividad y el éxito del equipo, pero que no aprenda nada sobre los empleados individuales", dijo Bird.

La privacidad diferencial es particularmente exitosa cuando hay un conjunto fijo de consultas conocidas o análisis conocidos que se pueden optimizar de una manera diferencialmente privada.

Las consultas de los anunciantes de LinkedIn son consultas 'top k', que buscan los resultados más frecuentes. "Todos tienen esencialmente la misma estructura", explicó Bird. "En la telemetría de Windows, es el mismo tipo de datos y análisis que se repiten una y otra vez. El trabajo realizado una vez se reutiliza en gran medida. Para análisis operativos como la telemetría, permite que más personas aprovechen los datos con garantías de privacidad. aprendizaje automático, (es útil) donde vale la pena el esfuerzo de dedicar más tiempo a entrenar el modelo o caracterizarlo con más cuidado, para tener esa garantía de privacidad ".

VER: IA en alta mar: la transformación digital está revolucionando el transporte marítimo mundial (PDF gratuito) (TechRepublic)

De manera similar, generar datos sintéticos con privacidad diferencial es más útil si conoce las preguntas que desea formular a los datos, de modo que pueda generar datos que respondan con éxito a esas preguntas y conserven esas propiedades en el conjunto de datos original. "Si va a publicar este conjunto de datos y no tiene idea del tipo de preguntas que los investigadores le harán a los datos, es muy difícil garantizar que los datos sintéticos mantendrán las verdaderas propiedades", señaló Bird.

Con el tiempo, Bird espera que la privacidad diferencial se extienda para permitir a los investigadores realizar consultas dinámicas contra conjuntos de datos "para hacer avanzar el estado del arte para la sociedad pero no revelar información privada". Sin embargo, ese es el escenario más desafiante.

"Necesita poder optimizar las consultas automáticamente y encontrar el punto correcto en el espacio de compensación entre precisión, privacidad y eficiencia computacional. Luego, también necesita una gobernanza de seguimiento del presupuesto dinámico en torno a quién obtiene la cantidad de qué presupuesto y usted realmente retirar el conjunto de datos? " ella dijo.

"Esa es la visión a la que queremos llegar y, en la práctica, lo estamos logrando en partes. Esa es una razón de más para alentar a más personas a usar la tecnología ahora, porque necesitamos mucha gente trabajando en él para ayudar a que el estado avance hasta un punto en el que podamos llegar a esa visión definitiva ".

Los clientes de Microsoft que no tienen la experiencia en ciencia de datos para trabajar con el kit de herramientas SmartNoise eventualmente verán la privacidad diferencial como una opción de procesamiento de datos en plataformas como Power BI y Azure Data Share, sugirió Bird. En lugar de simplemente compartir una vista de una base de datos, puede compartir una vista privada diferencial o permitir consultas de privacidad diferencial u obtener resultados privados diferenciados de los análisis de Power BI.

Todavía hay más trabajo por hacer sobre cómo implementar eso, dijo: "Necesitamos saber, cuando está generando paneles en Power BI, aquí están las consultas, aquí están los parámetros que funcionan para la mayoría de los casos o así es como los ajusta . Todavía no hemos llegado a ese punto, pero veo que ese es el futuro en el que esto realmente se usa a escala ".

Ver también



Enlace a la noticia original