IBM Analysis lanza una biblioteca de privacidad diferencial que funciona con el aprendizaje automático


El repositorio de código abierto es único ya que la mayoría de las tareas se pueden ejecutar con una sola línea de código, según la compañía.

Candado en el chip del zócalo de la CPU de la placa base del ordenador. Concepto de seguridad de la información de privacidad de datos de Internet. Imagen tonificada

Imagen: nantonov, Getty Illustrations or photos / iStockphoto

La privacidad diferencial se ha convertido en una forma integral para que los científicos de datos aprendan de la mayoría de sus datos y, al mismo tiempo, se aseguren de que esos resultados no permitan distinguir o volver a identificar los datos de ningún individuo.

Para ayudar a más investigadores con su trabajo, IBM lanzó el código abierto Biblioteca de privacidad diferencial. La biblioteca «cuenta con un conjunto de herramientas para el aprendizaje automático y las tareas de análisis de datos, todas con garantías de privacidad integradas», según Naoise Holohan, miembro del own de investigación del equipo de seguridad y privacidad de IBM Exploration Europe.

«Nuestra biblioteca es única para otros, ya que brinda a los científicos y desarrolladores acceso a herramientas livianas y fáciles de usar para el análisis de datos y el aprendizaje automático en un entorno common de hecho, la mayoría de las tareas se pueden ejecutar con una sola línea de código», Holohan escribió en una publicación de website el viernes.

«Lo que también distingue a nuestra biblioteca es que nuestra funcionalidad de aprendizaje automático permite a las organizaciones publicar y compartir sus datos con rigurosas garantías sobre la privacidad del usuario como nunca antes».

VER: Instalación del circuito de datos o lista de verificación de cambios (TechRepublic Premium)

En una entrevista, Holohan explicó que la privacidad diferencial se ha vuelto tan preferred que, por primera vez en sus 230 años de historia, el Censo de EE. UU. Utilizará la privacidad diferencial para mantener la confidencialidad de las respuestas de los ciudadanos cuando los datos estén disponibles.

Chris Sciacca, gerente de comunicaciones de IBM Exploration, agregó que el Censo 2020 fue un buen ejemplo de cómo se puede usar la privacidad diferencial para cualquier conjunto de datos de gran tamaño donde se pueda hacer un análisis estadístico.

«Los datos de atención médica serían otra área para la que sería interesante. Cualquier conjunto de datos de gran tamaño en el que desee mantener los datos en el anonimato pero no desee agregarle tanto ruido que sea inútil. Así que aquí solo está agregando un poco de ruido donde aún se pueden obtener anomalías estadísticas para observar las tendencias en grandes conjuntos de datos «, dijo Sciacca.

La privacidad diferencial permite a los recolectores de datos usar ruido matemático para anonimizar la información, y la biblioteca de IBM es especial porque su funcionalidad de aprendizaje automático permite a las organizaciones publicar y compartir sus datos con rigurosas garantías sobre la privacidad del usuario.

«Originalmente, cuando comenzamos a mirar el espacio del software de código abierto y la privacidad diferencial, notamos que había una gran brecha en el mercado en términos de poder hacer aprendizaje automático con privacidad diferencial fácilmente. Hay mucho trabajo Según la literatura, todos los algoritmos se han estudiado y se han hecho de manera diferencialmente privada y se han presentado soluciones, pero no había un repositorio único o una biblioteca única para realizar el aprendizaje automático con privacidad diferencial «, dijo.

«Decidimos construir esta biblioteca que, usando paquetes existentes en Python, le permite construir sobre ellos, y luego puede hacer aprendizaje automático con garantías de privacidad diferenciadas incorporadas. Muchos de los comandos que puede ejecutar en un solo línea de código, por lo que es muy fácil de usar. Es fácil de usar y se puede integrar fácilmente dentro de los scripts que las personas tienen para que no se requiera mucho esfuerzo adicional «.

El año pasado, Google lanzó su biblioteca de privacidad diferencial de código abierto y los ejecutivos hablaron sobre cómo la usan para una variedad de sus servicios. Si alguna vez has mirado Google Maps y has visto esa divertida tabla de momentos en que una empresa estará más ocupada, puedes agradecerle la privacidad diferencial.

La privacidad diferencial permite a Google rastrear anónimamente datos sobre cuándo la mayoría de las personas come en un determinado restaurante o compra en una tienda well-known y, en 2014, lo utilizó para mejorar su navegador Chrome y Google Fi.

Empresas como Apple y Uber utilizan versiones de privacidad diferencial para optimizar sus servicios y proteger los datos de los usuarios.

Holohan dijo que el repositorio de IBM ya se está utilizando ampliamente para la experimentación y para ver qué efecto tiene la privacidad diferencial en los algoritmos de aprendizaje automático. Las instituciones académicas y los bloggers están utilizando el software program para mostrar cómo funciona la privacidad diferencial y agregó que la biblioteca se está utilizando internamente en IBM para analizar el impacto de la privacidad diferencial en varias aplicaciones.

«Tiene aplicabilidad básicamente a cualquier aplicación de datos, por lo que brinda una muy buena oportunidad para hacer mucho trabajo en muchas áreas diferentes. Nos hemos centrado en el aprendizaje automático porque la aplicación de protocolos de preservación de la privacidad para el aprendizaje automático encaja muy bien y el aprendizaje automático es muy frecuente en cualquier uso de datos «, dijo.

«El próximo paso será permitir que los científicos y analistas de datos puedan hacer muchos análisis estadísticos fácilmente con privacidad diferencial y nuestra biblioteca es el primero o unos pocos pasos en ese camino».

Ver también



Enlace a la noticia primary