5. Creando tu diccionario de datos

Cómo utilizar este recurso #

Si has pasado por el proceso de diseño de tu modelo de datos conceptual y el desarrollo de tu lista controlada de términos, es importante documentar la terminología y los estándares de datos que has establecido para gestionar tu información. En este recurso, introduciremos qué es un diccionario de datos y por qué es importante para la salud a largo plazo de tu base de datos.

Nuestra intención con este recurso es presentarte una forma de pensar vinculada a documentar la lógica que estás utilizando para documentar y para las decisiones que has tomado, en este caso, sobre el diseño de tu base de datos. Si bien puede parecer un paso tedioso documentar toda la terminología y los estándares de datos que se han elegido, será útil para los futuros usuarios de la base de datos.

¿Qué es un diccionario de datos y por qué es importante? #

Un diccionario de datos es esencialmente un libro con reglas sobre:

  • qué datos incluir en tu base de datos,
  • cómo debería estructurarse,
  • cómo deben introducirse en la base de datos, y
  • cómo se debe acceder a él.

Este diccionario será un repositorio de nombres, definiciones y atributos que proporcionan información contextual sobre los datos de la base de datos. El diccionario describe cada campo de la base de datos con una definición clara de qué información se captura en ese campo en particular y las reglas para utilizarlo.

Cuando comiences a desarrollar tu diccionario de datos y estés decidiendo los elementos a incluir, es importante considerar qué sería importante para alguien que no está familiarizado con esta base de datos, para que pueda conocer los datos que contiene. Debe ser la herramienta a la que cualquiera pueda acudir para entender todo sobre tu conjunto de datos.

Un diccionario de datos es fundamental para la sostenibilidad de cualquier base de datos, especialmente cuando es utilizada por varias personas. Tal vez sabes cómo leer e interpretar tus datos. Sin embargo, si dejaras tu organización mañana, ¿habría otra persona que sepa cómo acceder, leer e interpretar los datos que has recopilado? El diccionario de datos asegurará que exista esta documentación, explicando todo lo que alguien necesita saber sobre la base de datos.

Tu diseñador de base de datos puede, por ejemplo, utilizar el diccionario de datos para organizar correctamente tablas y campos en su base de datos, mientras que los catalogadores pueden referir al diccionario para asegurarse que ingresan la información correctamente para cada registro. Además, al generar informes sobre los resultados de tus datos, tener un diccionario de datos listo para explicar estos hallazgos garantizará una mayor transparencia del proceso. Mantener un diccionario de datos ayudará a:

  • detectar rápidamente anomalías en los datos,
  • mantener la calidad y fiabilidad de tus datos, y
  • crear transparencia sobre los procesos de datos en toda tu organización.

¿Qué debes incluir en tu diccionario de datos? #

En tanto “guía de usuario definitiva” para la base de datos, tu diccionario debe explicar claramente los componentes presentes en tus datos. Te has tomado el tiempo para pensar por qué tu base de datos es importante, cómo abordarás las necesidades de tus usuarios, cómo es tu modelo de datos conceptual y qué términos deben incluirse en tu vocabulario controlado. Tu diccionario de datos es un espacio para documentar tu toma de decisiones y registrar los sistemas que han establecido para organizar los datos. Algunas cosas que debes considerar incluir en el diccionario de datos son:

  • Tu lista controlada de términos, con todos los nombres y definiciones de los términos en tu base de datos.
  • Tu modelo de datos conceptual, incluyendo
    • Las entidades en tu base de datos
    • Los atributos que utilizas para describir las entidades de tu base de datos
    • Las relaciones que has identificado entre tus entidades
  • Tus estándares de entrada de datos, o reglas que describen los estándares para recopilar, registrar y representar datos en tu base.

A medida que desarrollas tu base de datos y la presentas a diferentes usuarios, también podrías considerar ampliar tu diccionario de datos para ofrecer información sobre las diferentes funcionalidades de la base y cómo acceder a la información que contiene.

Cómo crear tu diccionario de datos #

Para crear un diccionario de datos, es importante considerar primero las siguientes preguntas:

  1. ¿Qué representa cada elemento de tus datos? ¿Qué está describiendo?
  2. ¿Cómo se recopiló cada variable? ¿Cómo lo has medido?
  3. ¿Cuáles son las pruebas que realizas para garantizar la fiabilidad y validez de los datos?
  4. ¿Quién recopiló los datos y quién ha interactuado con ellos desde su recopilación inicial? Es importante considerar cómo se han recopilado y cambiado los datos a lo largo de su vida útil.

Una vez que hayas considerado estas preguntas, estarás listo para desarrollar tu diccionario de datos.

Paso 1: Reúne tus términos #

A lo largo de este proceso de preparación para una base de datos, has identificado las entidades y atributos que incluirás en ella. Al desarrollar tu vocabulario controlado, has recopilado todos los términos necesarios para responder las preguntas que te gustaría hacerle a esta base de datos. Ahora es el momento de recopilar todos estos términos, junto con sus definiciones, en único lugar, en una ubicación central.

Paso 2: Identifica información importante sobre cada término #

Tu diccionario de datos identificará información importante sobre cada elemento de su base de datos, así que tienes que considerar lo que un usuario encontrará útil al ingresar o acceder a la información.

Tu diccionario de datos debe incluir el nombre del elemento exactamente como aparecerá en tu base de datos, y la definición del elemento como aparece en tu lista de términos controlados. Esta definición reflejará la forma en la que usas el término y la intención con la que el término debe ser utilizado por otros catalogadores o usuarios de bases de datos. Si tomamos el ejemplo descrito en el recurso anterior -“Determinando la lista controlada de términos”-, la organización que supervisa el asesinato de periodistas en su país incluiría en su diccionario de datos las definiciones específicas de cada tipo de asesinato que monitorean y rastrean en su propia base, de modo que se garantice -entre todos los actores de la organización- una comprensión consistente de cada tipo de asesinato. También podrían añadir una descripción del elemento, si se necesitara una explicación más extensa para aclarar la definición de un elemento.

Debes incluir en tu diccionario de datos qué campos son opcionales o obligatorios, así como el tipo de elemento que ayuda a describir si el campo es texto, numérico, fecha/hora, lista enumerada, búsquedas, booleanos, identificadores únicos, etc. Identificar el tipo de elemento ayudará a garantizar la coherencia en la entrada de datos y, en última instancia, te ayudará a obtener información bien fundamentada de los datos.

Por último, querrás incluir en tu diccionario de datos cualquier regla de elemento que explique el proceso para introducir correctamente la información y el rango de valores o valores aceptados para dicho elemento. Si tomamos el ejemplo del recurso anterior sobre registrar en un campo de texto libre la ubicación de una matanza, recordamos que los diferentes estándares de entrada de información en la base de datos pueden generar resultados o salidas confusas. Sin una regla para introducir la información (en este caso, de la ubicación), los datos podrían tener el siguiente aspecto:

Esto da como resultado datos inconsistentes que hacen difícil sacar conclusiones sobre la información (de ubicación) disponible.

Para evitar esta confusión, se sugiere documentar las reglas para ingresar datos de texto libre, para garantizar estándares consistentes en todos los ámbitos.

Paso 3: Documenta tu diccionario #

Ahora que has recopilado toda la información a incluir en tu diccionario de datos, debes documentarla en un lugar central, accesible para todo el personal, y para los usuarios que puedan servirse de ella. Los diccionarios de datos son para compartir, por lo que es importante hacer que tu diccionario de datos sea accesible para todos los usuarios de tu base de datos. Puedes considerar usar un documento u hoja de cálculo de Google con acceso abierto para los usuarios de la base de datos, o puedes documentar tu diccionario en un formato PDF similar al Diccionario de datos + Vocabulario controlado creado por WITNESS y Berkeley Copwatch. Independientemente del formato que elijas, es importante que tu diccionario de datos sea accesible para todos los que deseen acceder a tu base de datos.

Paso 4: Visita y revisa tu diccionario de datos #

A medida que revisas y actualizas tu modelo de datos o vocabularios controlados a lo largo del tiempo, también tu diccionario de datos deberá actualizarse para reflejar y contener estos cambios. Es importante notificar a los usuarios cuándo fue la última actualización del diccionario, y armar un plan para visitar y revisar tu modelo de datos y vocabularios para que el personal y/o los usuarios futuros puedan consultarlos. Puede ser útil para el futuro personal y los administradores de bases de datos mantener, junto con el diccionario de datos, un breve registro del proceso que describa los pasos tomados para conceptualizar tu modelo de datos y recopilar tus términos. Si utilizas esto a modo de guía, también puede servirte como descripción de los objetivos que has definido para tu proyecto de gestión de la información, las personas de usuario para las que esperas sea útil y las preguntas de investigación que pretendes responder. Al planificar con antelación las revisiones periódicas del diccionario de datos, puedes asegurarte de que se mantenga actualizado a lo largo de la evolución de tu proyecto de gestión de la información.

Desafíos y asesoramiento 🌱 #

Cuando no tienes la fecha exacta #

¿Cómo se crea un estándar para introducir fechas cuando se desconoce la fecha exacta de un incidente o evento? Una solución es el uso de “fechas difusas”, que son esencialmente fechas incompletas. Puedes hacer referencia a los Estándares ISO para capturar tanta información como haya disponible. Por ejemplo, si no sabes el día y el mes, pero sí el año en que nació un individuo, en el campo “Fecha de nacimiento” del registro individual, puedes ingresar solo el año.

Estos campos de fecha difusa permiten los siguientes formatos:

  • Mes, día y año (01-01-2011)
  • Mes y año (01-2001)
  • Solo año (por ejemplo, 2011)

Ten en cuenta que, si estás utilizando una hoja de cálculo para gestionar tu información, puedes dejar un guión o marca de seguimiento para evitar que la hoja de cálculo la cambie y asegurarte de que el tipo de datos sea “texto”.

Utiliza un campo de confirmación para cada valor, similar al que se muestra a continuación:

  • fecha: 2011-01-01
  • dato_año: 2011
  • dato_mes: 1
  • dato_día: 1
  • fecha: 2011-01-01
  • dato_año: 2011
  • dato_mes: 1
  • date_día: NULO

Esto quiere decir que también puedes comprobar tus fechas reconstruyendo la fecha de los campos confirmatorios, y viendo si coincide con el campo de fecha real.

Para obtener más información sobre las “fechas difusas”, puedes consultar: https://kb.blackbaud.com/knowledgebase/Article/41804

Otras lecturas #

Biblioteca de UC Merced. ¿Qué es un diccionario de datos? (N.D.). Consultado por última vez el 17 de febrero de 2022 en https://library.ucmerced.edu/data-dictionaries.

Estándares ISO. 19 de febrero de 2021. Consultado por última vez el 17 de febrero de 2022 en https://www.iso.org/standards.html.

OSF. Cómo hacer un diccionario de datos – guías OSF. (N.D.). Consultado por última vez el 17 de febrero de 2022 en https://help.osf.io/hc/en-us/articles/360019739054-How-to-Make-a-Data-Dictionary. .

Powered by BetterDocs