Instituto Nacional de Estadística.

INEbase

INEbase / Demografía y población / Cifras de población y Censos demográficos / Censos de Población y Viviendas de 2001


Censos de Población y Viviendas de 2001

Tratamiento informático

Introducción  Subir

Como no podía ser de otra forma en unos Censos de Población y Viviendas realizados en el año 2001, las nuevas tecnologías han jugado un papel fundamental a lo largo de todas las fases. En las fases previas a la recogida de los cuestionarios censales, las herramientas informáticas han permitido diseñar de una forma eficiente los diferentes modelos de cuestionarios, procesar en tiempos muy reducidos los datos de las dos pruebas piloto realizadas, de forma que sus resultados se han podido utilizar para mejorar el diseño definitivo de la operación, y preparar, a partir de los datos padronales, los ficheros que se han utilizado en la personalización de los cuestionarios del censo.

Los tratamientos informáticos han permitido también eliminar la tradicional operación de recorrido del territorio un año antes de los Censos de Población y Viviendas, que servía para formar los Censos de Edificios y Locales y para preparar los cuadernos de recorrido de los agentes censales (actualizaciones del seccionado y del callejero). En este censo, esa costosa operación se ha sustituido ventajosamente por tratamientos informáticos aplicados a registros administrativos, principalmente padronales y catastrales, como resultado de los cuales se han podido preimprimir tanto los cuadernos de recorrido como la información de datos personales y de domicilios de las personas empadronadas.

La gestión de la contratación del personal eventual necesario para realizar la recogida, agentes censales y encargados de grupo (mas de 40 mil personas), se ha gestionado de manera descentralizada en las Delegaciones Provinciales del INE, posibilitando no solo la propia contratación, sino también la gestión de altas y bajas a la Seguridad Social y la gestión de la nóminas de sus pagos.

Durante la propia operación de recogida censal, las nuevas tecnologías han estado igualmente presentes. Así, las 500 oficinas comarcales en las que se ha descentralizado la operación de la recogida, han estado comunicadas con las Delegaciones Provinciales y con los Servicios Centrales del INE por una red privada especial para los censos, basada en telefonía móvil. Cada una de las oficinas comarcales se informatizó con dos ordenadores personales, uno de ellos con comunicación a la red privada de censos, una impresora, y un lector de código de barras. Esta infraestructura ha resultado fundamental para facilitar el control de la operación de la recogida, para poder enviar rápidamente instrucciones a todas las oficinas censales, y para facilitar la información de los cupos de trabajo realizados por cada agente para calcular la parte variable del pago de sus nóminas.

A pesar de no haber precedentes en el mundo de abordar una operación censal permitiendo realizar, con carácter general, la cumplimentación de los cuestionarios por internet, el INE decidió asumir el reto de ser el primer país que lo hiciera. Y así se hizo, estableciendo un procedimiento por el que ofreciendo las mayores medidas de seguridad en cuanto al acceso a la información de los propios datos de carácter personal, permitiera hacer la cumplimentación del censo por internet a todas aquellas personas previamente empadronadas donde residían a la fecha de referencia utilizada para hacer la preimpresión de la información de datos padronales. Otra novedad introducida a través de internet es posibilitar su cumplimentación a personas con discapacidades visuales. Finalmente el número de hogares que han cumplimentado el censo por internet ha sido de 13.818, que representa alrededor de un uno por mil del total de los hogares existentes. En el segundo apartado de este capítulo se hace un breve resumen de las características técnicas de los sistemas utilizados.

Los sistemas informáticos de las oficinas comarcales han permitido conocer que hogares habían realizado la cumplimentación por internet, evitanto de esta forma tener que recoger el cuestionario en papel. Adicionalmente, han permitido controlar los envíos de los cuestionarios cumplimentados en papel al Centro de producción censal constituido para realizar la captura y procesamiento informático de dicha documentación, facilitando que en éste se iniciasen los trabajos sin necesidad de esperar a que se diese por cerrada la recogida en cada una de las secciones censales.

El Centro de producción censal de INE ha sido creado expresamente para realizar este trabajo, realizándose las mejoras de las instalaciones del edificio que lo alberga y el montaje de la arquitectura de los sistemas y de las aplicaciones necesarias. En el tercer apartado se hace una descripción de las características técnicas de los sistemas utilizados.

Este capítulo se finaliza con una breve descripción del resto de los tratamientos informáticos a que se someterán los datos recogidos, que permitirán poner a disposición de los usuarios la información censal.

Captura de cuestionarios por internet  Subir

Las ideas claves que definieron este proyecto fueron:

  • España ha sido el primer país del mundo que ha permitido la cumplimentación del Censo por Internet de manera general, entendiendo por tal a todas las personas previamente empadronadas en la vivienda donde residían a la fecha de la preimpresión de los cuestionarios

  • La cumplimentación por Internet del Censo se hizo asegurando su confidencialidad y de forma que resultara fácil de realizar, en función de procedimientos de seguridad acordes con la información a cumplimentar

  • Se primó la cumplimentación por Internet del Censo mediante la entrega gratuita de datos estadísticos sobre la distribución geográfica de un apellido solicitado por el informante (salvaguardando la confidencialidad estadística)

  • El INE posibilitó la cumplimentación del Censo de Población por Internet a personas con discapacidades visuales o de otro tipo con dificultades para el manejo del ordenador

A continuación se hace una breve descripción de la forma en que se abordó este proceso:

Según el diseño de la operación censal española, en los cuestionarios en papel que se distribuyeron a los hogares españoles, figuró preimpresa determinada información individual de cada ciudadano, obtenida de la base de datos padronales.

Se estableció el cuestionario censal en un servidor web seguro SSL 3 (con la dirección (http://censos2001.es) y cuando el usuario no necesitaba modificar sus datos padronales el mecanismo de autenticación se basó en los siguientes identificadores: 1) CLAVE1 (código identificativo incluido en cada sobre conteniendo los cuestionarios censales); 2) CLAVE2 (contraseña asociada a la cumplimentación por Internet, también incluida en cada sobre censal); 3) el DNI de una de las personas incluidas en la hoja de datos padronales (DNI también preimpreso en el cuestionario) y 4) el nombre del padre y de la madre tal y como figuran en el DNI de determinada persona del hogar (esta información no figuraba preimpresa en el cuestionario censal). CLAVE1 Y CLAVE2 fueron distintas para cada vivienda.

Únicamente para los casos que requerían modificar los datos padronales preimpresos en el cuestionario, se estableció un mecanismo de firma electrónica avanzada (certificados X.509 de clase 2, mediante convenio con la FNMT-RCM), complementado con las claves 1 y 2 descritas.

Relacionado directamente con la autenticación, se implementaron un conjunto de medidas orientadas a realizar el control de accesos incorrectos, de intentos de fraude, bloqueos y desbloqueos de cuestionarios, etc.

El servidor web ofreció la posibilidad de cumplimentar los cuestionarios en los distintos idiomas cooficiales en España y en algunos otros extranjeros.

Se incluyeron un conjunto de normas de edición del cuestionario en formato web; es decir, el conjunto de edits necesario para asegurar la calidad y la consistencia de cada uno de los cuestionarios cumplimentados por Internet, comunicando al usuario cualquier problema que impidiera la aceptación final de dicha cumplimentación, para que aquel procediera a corregir los errores correspondientes.

Asimismo, el sistema permitió que el usuario pudiera interrumpir su trabajo de cumplimentación del cuestionario, pudiéndolo continuar posteriormente. En el momento en que la cumplimentación se hubiera finalizado de forma totalmente correcta, el sistema proporcionaba al usuario un número que servía de recibo o de comprobante de que dicha cumplimentación completa se había producido.

Se implementaron los mecanismos necesarios para la comunicación con las Oficinas Comarcales y con las Delegaciones Provinciales del INE, de modo que ningún agente censal reclamara los cuestionarios previamente cumplimentados por Internet.

Esa comunicación con las Oficinas Comarcales consideró diferentes posibilidades: como mecanismo básico existió un procedimiento de envío o de descarga, de modo que cada Oficina Comarcal y cada Delegación Provincial dispusiera semanalmente de un fichero conteniendo los datos identificativos de los cuestionarios recogidos por Internet, y alternativamente, procedimientos de consultas por rangos de valores.

El siguiente gráfico muestra la arquitectura de los sistemas y de las comunicaciones del servicio de webhousing, que fue realizado por la UTE INDRA/TELEFÓNICA.

Imagen explicativa del proceso

Captura de cuestionarios cumplimentados en papel  Subir

Los tratamientos informáticos que se aplican a los datos censales están fuertemente condicionados por el enorme volumen de información a procesar y por la reducción sustancial del tiempo que los usuarios demandan para obtener los datos censales. Ambos factores confluyen en que los tratamientos censales, aparte de asegurar la calidad de los procesos, deben ser ante todo rápidos.

Los condicionantes del actual proceso informático de producción censal son los siguientes:

  • Procesamiento informático de mas de 60.000.000 de cuestionarios (más de 100.000.000 de imágenes entre anversos y reversos de los cuestionarios)
  • 5 tipos de cuestionarios con 60 modelos1 y un total de 120 imágenes diferentes para reconocimiento óptico (anverso y reverso de los cuestionarios):
    • Padrón
    • Vivienda
    • Hogar
    • Individual
    • Cuadernos de recorrido

  • Reconocimiento inteligente de caracteres (ICR) manuscritos y marcas2.
  • Utilización de imágenes digitalizadas de los cuestionarios para realizar los procesos de gestión documental de producción y postproducción3.
  • Criticidad en tiempos: La producción se realizará en menos de 3 meses.

Como consecuencia, se puede afirmar que el proyecto de producción censal de los cuestionarios en papel, no es solo el mayor proyecto de almacenamiento y gestión documental avanzada en España, sino que tampoco existen precedentes a nivel mundial de un proyecto de estas características.

El Centro de Producción Censal (CPC) se ha situado en la localidad de San Fernando de Henares (Madrid). Cuenta con más de 5.000 mts2, y en él se realiza la producción de los Censos de Población y Viviendas 2001, a excepción de los cuestionarios cumplimentados vía Internet. Más de 800 personas trabajan en la explotación de los datos censales.

El esquema de producción censal del INE contempla las siguiente áreas de gestión:

  • Área A - Gestión de entrada / salida de la documentación censal: Esta unidad se encarga del control y gestión de las áreas de recepción, control de la documentación, almacén de entrada, almacén de salida y expedición. Realiza la preparación de la documentación en lotes de trabajo y su distribución para su digitalización. Una vez finalizados los procesos informáticos de producción censal, remite la documentación al almacén de salida verificando su integridad.
  • Área B - Gestión de la digitalización de la documentación censal: Esta unidad se encarga de realizar una correcta digitalización de la documentación censal verificando los niveles de calidad de las imágenes resultantes. Realiza los mantenimientos preventivos que se especifiquen al principio de cada jornada de trabajo y gestiona las incidencias producidas en el proceso de digitalización.
  • Área C - Gestión del sistema de Videograbación censal: Esta unidad se encarga de realizar la entrada de datos de los caracteres no reconocidos por el sistema informático censal, así como la corrección de los caracteres interpretados erróneamente por el sistema. Estos procesos son realizados mediante un sistema de presentación en pantalla de la imagen de los distintos cuestionarios censales.
  • Área D- Gestión de Validación de datos censales: Es la encargada de realizar la depuración de los datos censales una vez obtenidos los ficheros de datos correspondientes, control de duplicaciones, falsas altas, .. etc..
  • Área E - Gestión del sistema de tratamiento de los cuadernos de recorrido censales: Es la encargada de realizar la gestión del tratamiento específico que requiere este tipo de documento. Está conformado por personal de digitalización, control, videograbación y validación.
  • Área F – Control de backup: Realiza, como su nombre indica todo el control y la operación del sistema de generación de copias de seguridad de los datos
  • Área G - Gestión del control informático: Es la unidad que controla todos los procesos, trabajos y personal del sistema de producción censal. Controla todos los procesos que se realicen a los lotes de trabajo, siguiendo la secuencia de los documentos, la cobertura de los lotes con los ficheros de las oficinas comarcales y con los cuadernos de recorrido. Debe conseguir que los índices de productividad, que en su momento se consideren óptimos, se cumplan.
  • Área H - Gestión del control y administración, almacenamiento, comunicaciones y seguridad física y lógica de los ficheros de imágenes y datos censales: Es la unidad responsable de todos los sistemas y soportes de almacenamiento de imágenes y datos de la red general de producción censal del INE. También es responsable de la seguridad física y lógica de la información (imágenes y datos). Se encarga también de la exportación de los datos y de las comunicaciones con otros centros censales y /o centros INE. Debe dar solución a los problemas de carácter informático que se puedan presentar en la red general de producción censal y conocer las aplicaciones y sistemas físicos y lógicos empleados para poder resolver las incidencias que se produzcan. Debe también mantener y optimizar los dispositivos físicos y lógicos para que realicen una producción conforme a los objetivos fijados.
  • Área I - Control de calidad: Debe realizar los procesos de videocorrección necesarios y en el volumen que se determine para testar que los índices de fiabilidad / eficacia del producción censal son los adecuados o por el contrario deben mejorarse. Un lote de trabajo no se da por bueno sin la autorización de esta unidad.
  • Área J - Gestión del sistema de incidencias: Se encarga de solucionar las incidencias que se producen en relación a la documentación censal (deterioro físico, incorrectas identificaciones, control de cobertura con las oficinas comarcales...). Ante el posible deterioro físico de algunos cuestionarios, que imposibilite su correcta digitalización, debe realizar un proceso de entrada de datos tradicional generando un cuestionario virtual que sustituya al dañado. Otras incidencias son solucionadas mediante la digitalización personalizada de cada cuestionario y su posterior proceso de videograbación. Una vez solucionada la incidencia los cuestionarios, imágenes y datos son remitidos a donde se generó la incidencia para su integración en los correspondientes lotes de trabajo.
  • Área K - Gestión del control, seguimiento y administración de la red general de producción censal del INE: Es la responsable de gestionar y controlar todas las áreas especificadas anteriormente para la realización de la producción censal en los tiempos previstos y en las condiciones más óptimas. Debe optimizar los dispositivos, sistemas... con el fin de optimizar la producción censal conforme al plan establecido. Realiza el seguimiento pormenorizado de los flujos de trabajo y presentar al INE informes de los resultados obtenidos y de la planificación prevista. Está en continuo contacto con la Unidad de Control del INE para conseguir los índices de calidad que se pretenden.

Imagen explicativa del proceso

Los equipamientos físicos y lógicos necesarios para realizar los Censos de Población y Viviendas 2001, conforme al modelo de procesamiento establecido, se representa en los gráficos siguientes:

Imagen explicativa del proceso

Imagen explicativa del proceso

La operación de captura se realiza mediante un sistema de reconocimiento óptico de caracteres, que incorpora procedimientos de codificación automática, de control de rangos y de coherencia intra e inter registros, y que consta de los siguientes procesos:

  • Digitalización mediante escáneres ópticos de alta producción, con un rendimiento de 120 cuestionarios al minuto a doble página. El modelo utilizado ha sido el KODAK i810, novedad mundial utilizados por primera vez en Europa para esta operación.
  • Control de cobertura de la digitalización
  • Reconocimiento inteligente de caracteres manuscritos
  • Sistema de mejora de literales y codificación asistida
  • Videocorrección asociada al reconocimiento y a los controles de coherencia
  • Control del flujo de trabajo
  • Control de calidad
  • Gestión documental

Las aplicaciones desarrolladas para realizar la gestión documental y los procesos de reconocimiento óptico se han basado en el sistema Bellview Scan (de la empresa Pulse Train), incorporando sistemas de mejora de literales basados en diccionarios, así como codificaciones automáticas, han sido desarrolladas y están siendo explotadas por la empresa ODEC. Como resultado se han podido alcanzar niveles de reconocimiento superiores al 80% de lo procesado, que son completados por procesos de videocorrección.

La arquitectura de los sistemas informáticos está diseñada en SAN (Múltiples servidores compartiendo un sistema de almacenamiento de forma segura vía protocolo Fiber Channel), e incorpora las mayores medidas de seguridad física y lógica que existen en la actualidad, discos en RAID 0+1 (discos espejo), servidores y switches en cluster (duplicidad de servidores trabajando en forma cooperativa), asistencia remota vía módem a centros de seguridad y alerta de los proveedores informáticos, tarjetas chip de acceso a los sistemas, etc.

Las estaciones de trabajo del proceso de digitalización requieren una gran capacidad de proceso (modelos Primergy B210 con dos procesadores PIII Xeon a 1 GHz y 256 MB RAM, de SIEMENS), en tanto que las estaciones de trabajo utilizadas para realizar los procesos de reconocimiento requieren una gran cantidad de memoria (modelos Scenic Di815E con un procesador PIII a 1 GHz y 512 MB RAM, de SIEMENS).

Los servidores de aplicación Bellview (dos en cluster) y de gestión de los ficheros de imágenes son similares, Primergy N400 de 4 vías, con dos procesadores Xeon a 700 MHz, los primeros con 3 GB RAM y el de imágenes con 1 GB de RAM, en tanto que los servidores de bases de datos (dos en cluster) son Primergy N800 de 8 vías, con dos procesadores Xeon a 700 MHz y 4 GB RAM.

Los ordenadores personales utilizados para realizar el resto de los procesos (gestión de almacen, videodepuración, control de calidad, etc.), mas de 200, tienen procesadores Pentium III a 1 GHz, Pentium IV a 1,2 GHz y 128 MB RAM.

El sistema de almacenamiento utilizado de 25 TB (Terabyte = Unidad de capacidad de memoria equivalente a un billón de bytes) con 140 discos de 181 GB cada uno, es de EMC2 (modelo Symmetrix 8430).

El sistema de backup es el denominado Scalar 100 (LTO) que cuenta con una capacidad de 15 TB, con cintas de 100/200 GB, y un ratio de transferencia de 15 MB/s con una velocidad de copia de 324 Gb/h.

El Sistema operativo empleado es Windows 2000 Advance Server, lo que ha obligado a tener que conformar unidades lógicas con volúmenes físicos de información de 4,5 TB cifra récord a nivel mundial que sobrepasa los límites conocidos en entorno Windows hasta el momento, y la base de datos Microsoft SQL 2000.

Tambien se dispone de un sistema de copias en CD con el que se pretende enviar a cada municipio de España las imágenes correspondientes a su Padrón Municipal.

Tratamientos posteriores al Centro de Producción Censal  Subir

Cuando acaba el trabajo del Centro de producción censal, los cuestionarios censales han sido escaneados, reconocidos y validados. Estos procesos se han apoyado en diccionarios que han permitido a su vez realizar la codificación de aquellas preguntas que requieren una respuesta literal: provincia y municipio de nacimiento o residencia en 1991, actividad, ocupación, etc. Sin embargo no se consigue el 100 por 100 de las codificaciones. Tampoco las validaciones que van asociadas a controles de coherencia son necesariamente exhaustivas pues se centran en la eliminación de los errores más importantes. Por este motivo hay que aplicar tratamientos adicionales que permitan la obtención de los ficheros finales del censo plenamente explotables estadísticamente.

La codificación de los casos que no han salido resueltos del Centro de producción se hace de dos maneras alternativas: para los registros correspondientes a comunidades autónomas que han firmado un convenio de colaboración que lo prevé, son los institutos de estadística de estas comunidades los que se responsabilizan de esta codificación, pudiendo emplear procedimientos de codificación automática, asistida o mixtos, según sus posibilidades, aunque siempre coherentes con los que utiliza el INE para el resto del Estado. Esto resulta especialmente interesante en los casos en los que existe una lengua propia en la comunidad, o bien ésta dispone, de otros proyectos, de potentes diccionarios que faciliten esta codificación. Para los registros del resto de las comunidades, es el Instituto Nacional de Estadística el que se encarga de la tarea. Para ello empleará una versión actualizada de los procedimientos ya utilizados con éxito en los Censos de 1991, y que consisten básicamente en una codificación automática por aproximación, apoyada en diccionarios que se mejoran progresivamente.

Finalmente, tanto los registros cuya codificación han terminado los institutos de estadística autonómicos como los procesados por el INE se someten a un único procedimiento de imputación automática ejecutado por el INE (al igual que los tratamientos de codificación automática, este tratamiento se realiza de forma centralizada en la Subdirección de Informática), que tiene por objeto eliminar las inconsistencias y que consta de un proceso de imputación probabilística que mantiene al máximo la información original. Este procedimiento produce así, el fichero final que se utilizará en las explotaciones estadísticas que realicen tanto el INE como los institutos autonómicos. Con esto se logra una notable economía de medios (al aplicarse un tratamiento único para todos los datos de España), y lo que es igualmente importante, un único fichero final que evite que una misma fuente estadística aporte distintas cuantificaciones de un mismo fenómeno.

Respecto a Censos anteriores, el grado de utilización de la imputación automática va a ser mucho menor, puesto que las depuraciones y controles aplicadas en el centro de producción hacen que la calidad de los datos que llegue a ella sea mucho mejor. El INE volverá a realizar la imputación automática utilizando el sistema DIA, desarrollado por el INE y ya aplicado en 1991 y en otras encuestas como la EPA.


NOTAS
1 Tanto las hojas padronales como los cuestionarios censales tienen modelos bilingües para cada uno de los idiomas oficiales del estado (Castellano, Catalán, Gallego, Mallorquín, Valenciano y Vasco).
2 El número de diferentes tipos de escritura a reconocer en los cuestionarios es igual al total de personas que los rellenan
3 Las imágenes servirán para enviar a todos los municipios españoles sus respectivos cuestionarios padronales