
La Era de los Datos
El contexto actual
Cuando miro a mi alrededor, solo veo datos viajando en infinitas direcciones; compras online, redes sociales, facturación online, diarios digitales, streaming de videos, sistemas transaccionales, clases virtuales, juegos en línea, correos electrónicos, chat, etc, etc.
Si, datos, datos y más datos. Pero esto no tiene porque ser algo llamativo, después de todo, podemos coincidir que vivimos en un mundo impulsado por la tecnología y en consecuencia por los datos que fluyen a través de ella. Lo que sí puede resultar llamativo es la aparente falta de atención que han recibido los datos por parte de ciertas organizaciones en los últimos años.
Por mucho tiempo se creyó que todo se trataba de los sistemas informáticos, pero en el fondo estos no son nada sin los datos. La relevancia intrínseca del dato está dada porque en general no podemos tomar decisiones si no contamos con información, pero no tendremos buena información si no contamos con buenos datos. Es un concepto en sí muy simple que pone en evidencia que todo inicia en el “dato”, nuestra materia prima para generar información de valor.
Aún así, muchas organizaciones en la actualidad no cuentan con una Gerencia de manejo de datos y/o un líder que establezca un marco de referencia para la adecuada gestión de los mismos (CDO: Chief Data Officer).
Una Estrategia para gestionar los datos
Nunca se volvió tan relevante para las organizaciones la necesidad de contar con una estrategia para gestionar de manera adecuada sus datos.
La falta de una estrategia de gestión de datos y de un CDO en las Organizaciones lleva a que eventualmente se comentan errores involuntarios con un impacto negativo para los negocios.
Por mencionar algunos de los errores más comunes;
- Se pierde dinero porque los procesos de negocio no funcionan como se esperaban,
- Se pierde competitividad porque la información no resulta fiable,
- Se asumen riesgos legales por no entender la sensibilidad del dato en nuestro poder,
- Se reinvierte en nuevos sistemas pero con los mismos datos que tenían problemas,
- Se piensa en resolver todo, menos los datos, profundizando así el problema.
Contar con una estrategia nos permitirá mirar el tema de los datos como algo mucho más abarcativo que lo estrictamente tecnológico. Nuestra estrategia debe comenzar considerando que;
- Los datos pueden originarse en múltiples lugares o fuentes,
- Que deben almacenarse en repositorios únicos para no duplicarlos,
- Que requieren ser estructurados para manipularlos y deben ser actualizados para que conserven su valor,
- Que se consumen a medida que pasan por los distintos sistemas informáticos de la Organización y,
- Que pueden ser sometidos a un proceso de agregación (“Data aggregation”) y/o anonimización / pseudo anonimización (“Data anonymization / pseudonymization”) para una mejor manipulación, procesamiento, valor y cumplimiento con regulaciones locales.
Estos conceptos hacen parte de la piedra angular de una estrategia de datos sólida y sostenible en el tiempo.
¿ Por qué resultan tan importantes las técnicas de agregación y anonimización / pesudo anonimización ?

Fundamentalmente porque en la actualidad casi cualquier aspecto de nuestras vidas gira en torno a los datos; las redes sociales, información médica en la base de datos del prestador, datos bancarios y consumos, datos que el gobierno tiene de nosotros, etc. Nos encontramos en un mundo digital donde los datos fluyen y podrían terminar en manos de terceros que no necesariamente fueron los destinatarios iniciales del mismo. En consecuencia, la preocupación de las personas y los gobiernos sobre el manejo que hacen dichos terceros sobre determinados datos, en particular los personales, se ha vuelto de interés global. Así es que existen marcos regulatorios como la GDPR (General Data Protection Regulation) que surgió en Europa y fue tomada por muchos países como base para desarrollar sus propias regulaciones relacionadas a la protección de datos. En resumen, GDPR busca proteger los datos de los ciudadanos y residentes de la Unión Europea estableciendo ciertas responsabilidades sobre los terceros que manipulan esos datos, en especial los datos personales sensibles como ser: origen etnico, opiniones políticas, datos de salud, creencias religiosas, datos genéticos, entre otros.
Ahora bien, hay ciertas técnicas que permiten atender estos aspectos regulatorios y su correcta implementación permitirá maximizar el valor de los datos sin incurrir en incumplimientos legales en materia de privacidad de datos.

Data aggregation: es el proceso de recolectar datos de distintas fuentes (internas y/o externas), agruparlos y combinarlos de forma tal de darle sentido de información para facilitar su procesamiento o la toma de decisión.
Data anonymization: es un proceso por el cual se busca disociar ciertos datos de su fuente, dueño u origen. Esto se hace reemplazando datos específicos que eviten su conexión con aquellos datos considerados sensibles o confidenciales. Este proceso de reemplazo debe ser permanente e irreversible, según establece la GDPR (General Data Protection Regulation).
Ejemplo y método: Si tuvieramos un listado 100 personas con nombre, apellido, sexo, edad, domicilio y enfermedad. Reemplazariamos el nombre y apellido asi como el domicilio por un valor “XXXX” (el criterio varia segun la politica de anominimización que defina cada Organización) y solo reportaríamos un set de datos que permita conocer cuántas personas de un determinado sexo y rango de edad cursan una misma enfermedad pero no quienes son. Es decir, nunca será posible asociar a la persona ni su domicilio con la enfermedad informada ya que el reemplazo por el valor “XXXX” fue irreversible y permanente.
- Data pseudonymization: es un proceso por el cual se busca disociar ciertos datos de su fuente, dueño u origen pero guardando de manera interna y privada una forma de relacionarlos en caso de necesitarlo. Esto se hace reemplazando el valor original del dato por una clave, código o referencia secreta que se encuentra almacenada por fuera del set de datos que se está manipulando. A diferencia de la anonimización, este proceso “es reversible” y eventualmente “temporal”.
¿ Qué debería entonces incluir una buena Estrategia de Gestión de Datos ?
Lo primero a considerar es que la mejor estrategia fallará si pensamos que esto solo se limita a un problema de datos y sistemas. La gestión adecuada de los datos es un problema de toda la organización, por consecuencia debemos comenzar conversando del tema con la Alta Gerencia para luego continuar educando al resto de la Organización sobre el rol que cada uno tendrá en dicha estrategia.
El acompañamiento y apoyo de la Alta Gerencia es clave a lo largo del proceso, no solo para empoderar la función del CDO sino también para involucrar a las personas claves en el desarrollo y cumplimiento de esta iniciativa.
El CDO deberá desarrollar una estrategia que considere al menos los siguientes aspectos:
- Oficina de Datos: se le debe dar entidad a la gestión de los datos y la debida atención; por lo que resulta fundamental contar con una “Dirección de Datos” liderada por el CDO y enfocada al desarrollo y ejecución de la estrategia.
- Desarrollo de una Política para la Gestión adecuada de Datos: será el marco de referencia para la gestión de los datos (más adelante comentaré algunos aspectos a considerar en su construcción).
- Arquitectura de datos: utilizar modelos basados en MDM (Master Data Management) que garanticen la “no duplicidad” de datos y repositorios (los sistemas consumen de repositorios comunes).
- Governance de datos: se deben identificar a los distintos responsables de los datos y establecer cuál es el rol y responsabilidad que tienen sobre los mismos. Estos son; Custodios de los Datos (Data Stewards) y Especialistas de Datos (Subject Matter Experts) dependiendo la naturaleza o categoría del mismo (ej: los datos del personal de la Organización deben ser custodiados por el área de Capital Humano)
- Calidad de datos: debe establecerse un proceso de calidad de datos, ejecutarse, medirse, reportarse y ajustarse en función de su nivel de efectividad. Deben existir indicadores de calidad de datos sobre los cuales medirse regularmente.
- Seguridad de los datos: la adecuada clasificación de los datos y el entendimiento de su sensibilidad permiten establecer una mejor estructura de control sobre los mismos.
- Aspectos regulatorios: el contexto regulatorio es cada vez más importante en relación a determinados tipos de datos (ej: Datos Personales en el contexto de las leyes de habeas data o GDPR). Hay que entender que datos tenemos en nuestro poder y la responsabilidad legal que tenemos sobre los mismos, así como los derechos que tienen los dueños originales de esos datos.
Una Política para la Gestión adecuada de Datos
Una adecuada Política de Gestión de datos debe considerar al menos los siguientes aspectos:
- Objetivo: razón que motiva el desarrollo de dicha política.
- Alcance: a quienes aplica la política y limitaciones si las hubieran.
- Definiciones – Tipos de Datos: Uso primario y uso secundario de los datos, datos de terceros, datos propios, etc.
- Política: aspectos generales de aplicación y tratamiento de datos personales
- Prohibiciones: que acciones están prohibidas y sobre qué tipo de datos.
- Tipos de Salvaguardas: plataformas de almacenamiento, procesamiento, intercambio, seguridad y tratamiento de los datos (agregación, anonimización, pseudo anonimización, combinación de datos, data lake, etc.).
- Asesoría Sobre esta Política: quién es quién dentro de la política y cómo ubicarlos.
- Roles y Responsabilidades: para cada participante de la política (CDO, Deputy CDO, Data Steward, Data SME, Data Protection, area de legales, etc.)
- Términos y Definiciones: explicación de todas las nomenclaturas y términos técnicos utilizados a lo largo del documento.
- Propietario de la Política y las Revisiones.
- Control Documental.
- Aprobaciones.
En una próxima publicación profundizaremos sobre quién es el CDO y porque su rol se está volviendo clave en el proceso de transformación digital de las Organizaciones. También revisaremos la relación con otro rol clave como el del CIO y como ambos se complementan hasta llegar en muchos casos a ser una misma persona con ambas responsabilidades.
Etiqueta:ciencia de datos, información, privacidad, Seguridad