Consistencia, validación e imputación de datos, así avanza el procesamiento censal de cara a las cifras definitivas.

Esta actividad concerniente a la consistencia, validación e imputación de los datos censales se desarrolla dentro de la Oficina Nacional de Estadística (ONE) con el propósito de detectar y corregir cualquier incongruencia no identificada al momento de la recolección. Este chequeo es realizado en forma automática, utilizando un programa de computadora, desarrollado con las normas de validación que preparan los analistas conceptuales del Departamento de Censos.

La validación e imputación será realizada por lotes, utilizando el software CSPro (Census and Survey Process System), sistema que permite verificar los rangos y coherencia del conjunto de variables que contiene el cuestionario Censal.

Inicialmente, se realizarán corridas de calentamiento para que los analistas puedan revisar los reportes de imputación, obtenidos a partir de la base de datos inicial, elaborar tabulados de control y hacer ajustes adicionales que requiera la aplicación de validación y consistencia de datos.

Cuando los analistas conceptuales aprueban los reportes de imputación se hace una primera corrida usando la base inicial como entrada para así generar la base de datos depurada; luego se hace una segunda corrida, que usa la base depurada como entrada y genera un reporte de imputaciones donde todas las variables deben salir en cero.

Ese reporte es para verificar la calidad del proceso de depuración de la base de datos.

Codificación

La codificación de las preguntas abiertas será realizada con ayuda de la aplicación desarrollada para tales fines, esta aplicación utiliza diccionarios de preguntas abiertas de censos y encuestas anteriores para apoyar el trabajo de codificación.

Las preguntas abiertas que no pueden ser codificadas en forma automática pasarán a codificación asistida, esto significa que un operador asigna el código tomado del clasificador correspondiente. Las preguntas abiertas en el cuestionario censal que deben ser codificadas son:

  • 39. ¿En qué municipio de la República Dominicana nació?
  • 40. ¿En qué país nació?
  • 49. ¿Qué carrera universitaria estudia o estudió?
  • 53. En octubre de 2015, ¿en qué municipio de la República Dominicana vivía?
  • 54. En octubre de 2015, ¿en qué país vivía?
  • 64. ¿Cuál fue la principal ocupación u oficio que desempeñó durante la semana pasada o en el último trabajo que tuvo?
  • 66. ¿A qué se dedica la empresa, negocio o institución en la cual trabaja actualmente o en la cual trabajó por última vez?

Antes de iniciar la codificación se realizarán corridas de calentamiento a los fines de verificar que el algoritmo de codificación automática está funcionando en forma adecuada y durante el proceso se inspeccionará una muestra a los fines de verificar el nivel de calidad resultante.

Finalización de bases de datos

Posteriormente a la base de datos resultante de la validación y edición secundaria le integraremos las codificaciones de las preguntas abiertas, obteniendo de esa forma la base de datos final del censo.

Preparación de tabulados para informe general y para informes específicos

La elaboración de los cuadros o tablas para preparar los resultados preliminares, analizar el proceso de validación e imputación de datos, y producir los resultados finales será realizada con ayuda de los programas CSPro desarrollados para tales fines.

Los tabulados que serán elaborados incluyen:

  • Cuadros o tablas para publicar los resultados preliminares
  • Cuadros o tablas para propósitos analíticos
  • Cuadro o tablas para publicar los resultados definitivos

Diseminación y visualización de datos

En adición a la publicación de los cuadros o tablas que conforman el plan de tabulaciones de censos 2022, la diseminación y visualización de datos incluye la publicación en la web de las bases de datos anonimizadas para procesamiento analítico en línea, esto incluye:

  • La publicación de la base de datos de los censos 2022 sobre la plataforma de inteligencia de negocios de Microsoft Power BI, esta plataforma utiliza estructuras multidimensionales llamadas cubos OLAP que contienen datos resumidos, con el objeto de integrar, analizar y difundir información en línea
  • La publicación de la base de datos de los censos 2022 sobre REDATAM; REDATAM es un servidor web para sistemas en línea desarrollado por el Centro Latinoamericano y Caribeño de Demografía (CELADE-CEPAL), que permite crear y procesar bases de datos jerárquicas de Censos, Encuestas, y Registros Administrativos, para análisis local, regional, nacional y producir cuadros o tablas, gráficos y mapas temáticos,
  • Publicación de mapas y atlas en línea

Por: Leonel Sanlate Carrasco

Encargado del Departamento de Procesamiento de Datos (ONE)

Dejar un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Scroll to Top