La colaboración segura de datos aporta un gran valor a las empresas, a través del intercambio de datos entre socios comerciales puede ayudar a hacer crecer el negocio, pero también supone exponerse a un gran riesgo como la filtración de datos o la inseguridad del uso que se le pueda dar. En este artículo tratamos cómo proteger la información en uso para no tener que renunciar a ello.

Tabla de Contenidos:

 

La dificultad de proteger la información en uso

 
Uno de los tres estados del dato más complicados de proteger es el dato en uso, es decir cuando éste es accedido por una o varias aplicaciones para su tratamiento. En entornos tipo BigData o DataLakes no resulta complicado proteger los datos mediante cifrado. Más bien es una medida obligatoria, cifrar los datos en tránsito desde y hacia estas plataformas utilizando comunicaciones vía HTTPS o cualquier otro tipo de cifrado en el transporte de los datos.

Sin embargo, una vez están siendo consumidos o tratados, la protección y el control de estos resulta especialmente complicado. El control y la protección llega normalmente hasta el acceso, incluyendo mecanismos de gestión de identidad o incluso acceso condicional o basado en roles (RBAC-Role Based Access).

Cuando los datos se comparten con un tercero, como puede ser un socio comercial, tanto si se están mostrando a un usuario o los consume una aplicación, resulta muy difícil evitar por ejemplo una copia a otro sistema. Una vez accedido se pierde totalmente el control sobre los datos compartidos.
 
Data in Use
 

Beneficios y retos de la protección de datos compartidos

 
Si estamos hablando de compartir e intercambiar datos especialmente sensibles, como datos médicos o datos extremadamente confidenciales, es posible que el riesgo de la compartición supere al beneficio de compartirlos, a veces, incluso habiendo aplicado medidas de seguridad. Una pérdida de datos médicos, por ejemplo por parte de un tercero (ej. un encargado del tratamiento), puede acarrear unas cuantiosas multas para quien los ha recogido o compartido (ej. responsable del tratamiento). Los beneficios del intercambio de datos o pruebas médicas son muy elevados para el caso de creación de nuevos fármacos, etc., pero una pérdida puede acarrear graves consecuencias si estos datos se filtran o pierden.

Por otro lado, si se trata por ejemplo de intercambio de datos o colaboración entre compañías farmacéuticas, entra en juego también la confidencialidad de los datos, que puede restar competitividad y derivar también en pérdidas millonarias para la organización en caso de pérdida o filtración.

El reto tecnológico en el caso de los datos en uso está en cómo protegerlos manteniendo su confidencialidad y privacidad, y mitigando riesgos como posibles fugas de información.

No es de extrañar que en el análisis anual del Ponemon Institute sobre el coste de una fuga de datos, las fugas de datos de terceros están entre los factores que más aumentan el coste de una fuga de datos, entre otros como los fallos de cumplimiento regulatorio.

A pesar de los beneficios como la mejora de productividad y eficiencia, no poder garantizar el control y protección de datos en uso es uno de los mayores frenos al intercambio de datos o colaboración entre empresas tal y como se recoge en un estudio realizado por Everis para la Comisión Europea (Study on data sharing between companies in Europe). Las preocupaciones por no poder mantener la privacidad (49%) o el miedo a perder secretos comerciales (33%) son el top 2 de las barreras a la compartición de datos entre empresas.

Los gobiernos Europeos y Británicos quieren que las empresas compartan más datos. Los gobiernos saben que el valor de los datos se incrementa cuando son compartidos y utilizados por varios. Por ello, por ejemplo, La Ley de Gobernanza de Datos (Data Governance Act) y la Ley de Datos (Data Act) están poniendo las bases para incentivar el intercambio de datos y establecer reglas claras sobre el acceso y uso de datos. Sin embargo, los gobiernos saben que insistir en ello no es suficiente para que los datos se compartan de forma segura, y es por ello por lo que en Europa se están fomentando los “Espacios de Datos” (Data spaces; concepto inicialmente desarrollado por el Fraunhofer Institute) para que se incremente esta colaboración permitiendo a empresas y ciudadanos mantener el control de los mismos.

El coste de proteger los datos en uso es otro de los retos identificados por los científicos de estadísticas de Naciones Unidas. En muchos casos, los datos que se recogen son sensibles e incluyen detalles sobre individuos y organizaciones que pueden ser procesados para identificarlos y llegar a conclusiones sobre su comportamiento, salud e inclinaciones socio-políticas. Estos datos, en las manos equivocadas, pueden ser utilizados para causar perjuicios físicos, sociales o económicos.
 

Técnicas de Preservación de la Privacidad de los datos

 
Es por ello, que el Privacy Preserving Techniques Task Team (PPTTT) está asesorando al Grupo de Trabajo de Big Data y Ciencia de Datos de Naciones Unidas en el desarrollo del marco de políticas para la gobernanza de datos y gestión de información, específicamente entorno a “técnicas de preservación de la privacidad”.

En el “UN Handbook on Privacy-Preserving Computation Techniques” publicado por este equipo (última actualización Septiembre 2021), se exploran las diferentes técnicas emergentes para preservar la privacidad, describiendo el estado de madurez de las mismas y los desafíos para llevar estas tecnologías a un uso generalizado.

Vamos a resumir a continuación algunas de estas técnicas sin profundizar en los mecanismos criptográficos detrás de las mismas:
 

1. Secure Multi-party Computation

 
La computación segura de múltiples partes es un subcampo de la criptografía con el objetivo de crear métodos para que las partes calculen conjuntamente una función sobre sus entradas mientras se mantienen esas entradas privadas. A diferencia de las tareas criptográficas tradicionales, donde la criptografía garantiza la seguridad e integridad de la comunicación o el almacenamiento y el adversario está fuera del sistema de los participantes, la criptografía en este modelo protege la privacidad de los participantes entre sí.

Imagínese que queremos saber cuál es la media del salario de 4 personas (A, B, C, D) sin que éstas tengan que revelar su salario individualmente. La persona A, dividiría su salario ej. 50 en cuatro partes ej. 20, -10, 45, -5 y compartiría con B, C y D una de estas 4 partes (-10, 45, -5). B, C y D harían lo mismo respectivamente con su salario. Una vez que cada una tenga una parte de su salario y otra parte de cada uno de los otros, sumarían sus partes y las compartirían con el resto. Dividiendo el total entre 4, se obtendría la media de los salarios sin tener que haber revelado el salario individual.

En su mayor parte, MPC sigue siendo un tema de investigación académica. Algunas empresas utilizan protocolos MPC para funciones específicas. Algunos se especializan en productos estándar que cubren problemas concretos y otras desarrollan productos personalizados o consultoría específica.
 
Secure multi party computation
 

2. Cifrado Homomórfico (Homomorphic Encryption)

 
El cifrado homomórfico es una forma de cifrado que permite a los usuarios realizar cálculos sobre sus datos cifrados sin descifrarlos primero. Estos cálculos resultantes se dejan en una forma cifrada que, cuando se descifran, dan como resultado una salida idéntica a la producida si las operaciones se hubieran realizado en los datos no cifrados. El cifrado homomórfico es una forma de cifrado con una capacidad de evaluación adicional de procesamiento sobre datos cifrados sin acceso a la clave secreta. El resultado de tal cálculo permanece encriptado. El cifrado homomórfico puede verse como una extensión de la criptografía de clave pública.

Un ejemplo de uso sería un servicio de computación en la nube para datos médicos donde diferentes empresas cederían datos cifrados y el servicio pudiese realizar cálculos sin tener que descifrarlos. Esto evitaría complejos procesos legales de confidencialidad para operar con datos tan sensibles como los de pacientes.

Algunos de los retos que presentan las técnicas de cifrado homomórfico son el rendimiento, muy inferior al resultante de utilizar datos no cifrados y el de la falta de capacidad para verificar si los resultados son correctos.

Existe una iniciativa de estandarización del cifrado homomórfico. Aunque a nivel teórico la tecnología está en un estado avanzado, las soluciones tecnológicas aplicables son aún escasas. Existen librerías e implementaciones por parte de diferentes centros y organizaciones como HElib de IBM Research, PALISADE de Instituto de tecnología de New Jersey o SEAL de Microsoft Research.
 
Homomorphic Encryption
 

3. Privacidad Diferencial (Differential Privacy)

 
Es un sistema para compartir públicamente información sobre un conjunto de datos al describir los patrones de grupos dentro del conjunto de datos mientras se retiene información sobre las personas en el conjunto de datos.

Se basa en aplicar un “ruido” determinado a consultas realizadas sobre un conjunto de datos que puedan extraer la respuesta correcta sin necesidad de exponer datos individuales. Por ejemplo, se podría dejar hacer en una plataforma la consulta de cuántas personas mayores de 50 años hay en París sin necesidad de exportar el censo y edades de los ciudadanos.

Chrome utiliza este enfoque para descubrir las visitas frecuentes páginas para mejorar sus funciones de almacenamiento en caché. Apple lo utiliza en iOS para descubrir palabras y emojis se utilizan con frecuencia en una aplicación de mensajes de texto para mejorar los modelos de texto predictivo.

En la actualidad no hay productos comerciales estándar aunque sí hay recursos académicos sobre implementaciones de privacidad diferencial para la resolución de problemas específicos. Por ejemplo, la Interfaz de intercambio de datos privados (PSI) desarrollada por el Proyecto Herramientas de Privacidad liderado por la Universidad de Harvard, implementa una metodología genérica para dar acceso vía privacidad diferencial a conjuntos de datos sensibles.
 
Differential Privacy
 

4. Prueba de Conocimiento Cero (Zero Knowledge Proof)

 
En criptografía, un protocolo de conocimiento cero o prueba de conocimiento nulo, también conocidas por las siglas ZKP (del inglés Zero Knowledge Proof), es un protocolo criptográfico que establece un método para que una de las partes pruebe a otra que una declaración (generalmente matemática) es cierta, sin revelar nada más que la veracidad de la declaración.

La aplicación de esta tecnología a casos reales permite mostrar pruebas de auditoría de determinadas cuestiones sin tener que dar detalles adicionales no necesarios: Ej. comprobar que se han pagado los impuestos, que una persona tiene más de 18 años sin tener que mostrar el carné de conducir o el documento nacional de identidad. No hace falta dar acceso a la dirección, para comprobar que se tiene más de 18 años.

A pesar de que las tecnologías de ZKP están en proceso de maduración, ha habido en los últimos años un fuerte impulso para la adopción de esta tecnología en el mundo real. Varias empresas han creado productos que se basan en ZKP (ej. UProve de Microsoft e Idemix de IBM). Por otro lado una aplicación práctica del conocimiento cero se ha realizado en el contexto de las criptomonedas como zCash y más ampliamente en blockchain, cara por ejemplo a la validación del histórico de transacciones a la sincronización de un nuevo nodo.
 
Zero Knowledge Proof
 

5. Entorno de Ejecución Confiable (Trusted Execution Environment)

 
Es un área segura de un procesador principal que garantiza que el código y los datos cargados en el interior estén protegidos con respecto a la confidencialidad e integridad. El procesamiento en un TEE no se realiza con los datos mientras están encriptados, sino que el entorno de ejecución está protegido por un hardware especial. Este entorno, se denomina normalmente Enclave. El espacio de memoria de este enclave está protegido frente a accesos mientras está almacenado en el chip del procesador.

Ejemplos de TEE son la protección de contenido premium en entornos de streaming (Ej. películas, audio) en televisores HD, teléfonos inteligentes, etc., que previenen al dueño del teléfono de acceder a los datos almacenados en el dispositivo.

Esta tecnología requiere hardware especial como Intel® SGX o ARM’s Trustzone. También hay diferentes librerías que permiten el procesado en estas plataformas como Google Asylo o Microsoft Open Enclave SDK. Algunos entornos Cloud como Microsoft Azure ofrecen también capacidades de TEE.
 
Trusted Execution Environment
 

Objetivos de Privacidad y su relación con estas técnicas

 
En un entorno de colaboración segura de datos tenemos datos de entrada, procesamiento y datos de salida. En este sentido existen diferentes objetivos de privacidad:

  • Privacidad en la Entrada (Input Privacy): Implica que quien realiza el procesamiento no puede acceder o derivar valores adicionales a los proporcionados en la entrada. La privacidad de la entrada cubre los datos de entrada, y los resultados intermedios y finales del procesamiento.
  • Privacidad en la Salida (Output Privacy): Implica que los resultados obtenidos no contienen datos identificables de la entrada. La privacidad de salida es una propiedad del producto de salida.
  • Aplicación de Políticas (Policy Enforcement): Un sistema que preserva la privacidad implementa aplicación de políticas si tiene un mecanismo por el cual quien cede los datos de entrada puede ejercer un control sobre qué cálculos pueden hacerse sobre los datos de entrada y qué datos de salida pueden publicarse. La aplicación de políticas abarca al conjunto del sistema.

 
Privacy objectives
 
En la siguiente gráfica se muestra un resumen de cómo las tecnologías arriba descritas aplican a estos objetivos de privacidad. Por ejemplo ZKP o HE evitan obtener datos de la entrada (Privacidad de la Entrada). Las técnicas de privacidad diferencial evitan realizar ingeniería inversa sobre los resultados para obtener datos de entrada (Privacidad en la salida). Las técnicas de MPC o TEE, además de evitar dar datos de la entrada (Privacidad en la Entrada) establecen reglas que permiten que sólo se puedan realizar operaciones o consultas muy concretas sobre los datos de entrada.
 
Privacy and technology objectives
 

Protección en Uso para Datos No Estructurados

 
Según se explica en el siguiente artículo de accenture, las técnicas de PPC están madurando para usos de analítica e inteligencia artificial. Sin embargo, todas estas tecnologías no hacen referencia normalmente al intercambio de datos no estructurados como ficheros o documentos. Son tecnologías que están evolucionando para casos de uso en entornos BigData o DeepLearning donde se comparte información cara a hacer cálculos con los mismos evitando revelar datos sensibles.

Para el caso de documentos o archivos, la protección en uso podría darse con técnicas de anonimización evitando incluir en los documentos determinados datos privados, pero su utilización es para casos de uso muy concretos y no para la colaboración entendida como la necesidad de trabajar o colaborar con documentación en tiempo real.

En el caso de documentos cara a la protección en uso, las técnicas más efectivas son las del control de derechos digitales (IRM-Information Rights Management; E-DRM – Enterprise Digital Rights Management) que permiten controlar quién puede abrir un documento, desde dónde, bajo qué condiciones (sólo ver, editar, imprimir, copiar y pegar, etc.) e incluso poder monitorizar las acciones sobre los datos.

El IRM básicamente permite tener un Enclave Seguro, o “Embajada Digital” en el equipo de otra persona que permite acceder a los datos pero bajo determinadas condiciones. El dueño de los datos no es el mismo que el dueño del dispositivo, y el primero tiene su pequeña parcela de poder en el dispositivo del segundo.
 
IRM-Information Rights Management
 
IRM permite colaborar de forma segura con los documentos independientemente de dónde se encuentren y de su ubicación. Tanto si se almacenan en la nube como si están en el dispositivo de otra persona.

Si quieres ver lo que estos controles ofrecen utilizando una solución fácil de utilizar para los usuarios finales, ponte en contacto con nosotros.