Logotipo del INE
Los colores del INE

Noticias del Instituto Nacional de Estadística

Está Vd. en: Revista digital del INE / Otros temas

La recolección y explotación del rastro digital hace posible describir fenómenos socio-económicos casi en tiempo real

26-03-15

De izquierda a derecha, Jesús Cid Sueiro y Luis Muñoz López De izquierda a derecha, Jesús Cid Sueiro y Luis Muñoz López

El pasado día 5 de marzo tuvo lugar en la sede del INE la sesión técnica “Informe sobre la viabilidad de usar Internet como fuente de Datos”, impartida por Luis Muñoz López, Jefe de Área de Indicadores del Observatorio Nacional de la Telecomunicaciones y de la Sociedad de la Información (ONTSI), y Jesús Cid Sueiro, Catedrático del Departamento de Teoría de la Señal y Comunicación de la Universidad Carlos III de Madrid.

Muñoz comentó que el principal objetivo del ONTSI, órgano adscrito a Red.es, es el seguimiento y análisis del sector de las Telecomunicaciones y de la Sociedad de la información. Así, este Observatorio elabora, recoge, sintetiza y sistematiza indicadores, produce estudios, y ofrece servicios informativos y de actualidad en su página web www.ontsi.es.

Data Source

En el ámbito de sus funciones, el ONTSI ha puesto en marcha un proyecto piloto, en colaboración con la Universidad Carlos III de Madrid, con objeto de determinar la viabilidad de utilizar Internet como fuente de datos, técnica que en el lenguaje inglés se denomina Internet as Data Source (IaD).

Para Muñoz, dicha técnica, aprovechando la potencia de las tecnologías de aprendizaje automático (machine learning) y big data, permite beneficiarse de la gran cantidad de datos que se pueden obtener de Internet a la hora de elaborar estudios y análisis sobre temas específicos.

Tanto las empresas como los ciudadanos dejan numeroso rastro digital en Internet. Mediante la recolección y explotación de dicha información es posible describir numerosos fenómenos socio-económicos casi en tiempo real. IaD permite identificar datos e indicadores que se pueden obtener directamente de Internet, describiendo nuevos hábitos y usos que no están cubiertos por las metodologías tradicionales o que exigen un enorme esfuerzo en dedicación de recursos económicos y humanos que lo hacen inviable.

Utilizar IaD puede proporcionar una visión rápida de fenómenos nuevos sobre los que las técnicas tradicionales tienen dificultad de medir. Pueden mejorar la calidad de las estadísticas, sobre todo cuando se combinan con las metodologías tradicionales. Además, puede ser una forma de reducir la carga de trabajo sobre las unidades informantes, ya sean empresas o individuos.

Viabilidad como método estadístico

De cara a la definición de políticas futuras de la Sociedad de la Información, el IaD se conforma como una alternativa posible para disponer de datos sobre los usos de Internet. La Comisión Europea (CE) publicó en octubre de 2012 un informe relativo a su viabilidad como método estadístico para recoger y analizar datos. En dicho informe se describen tres posibles metodologías para utilizar IaD como un método estadístico:

1.    Mediciones centradas en el usuario, que captan los cambios de comportamiento de un usuario individual analizando el uso que hace de Internet a través de sus dispositivos (PC, teléfono inteligente, tableta, etc.).

2.    Mediciones centradas de la red, que se centran en la medición de las propiedades de la red subyacente.

3.    Mediciones centradas en sitios web, que obtienen datos publicados en determinados servidores web mediante robots.

Tanto la OCDE, como Eurostat y la CE animan a continuar explorando las oportunidades y beneficios de estos métodos, solicitando a los institutos nacionales de estadística de los Estados Miembros y a otros productores de estadísticas sobre las TIC y la SI que pongan en marcha  proyectos pilotos que los utilicen.

El objetivo es compartir experiencias y mejores prácticas, de forma que se pueda consolidar una metodología fiable que pueda ser utilizada en la investigación social como complemento a las técnicas tradicionales (encuestas por muestreo y explotación de registros administrativos). 

Iniciativas

Según explicó Muñoz, el ONTSI puso en marcha en 2014 dos iniciativas que usan directamente dos de estas metodologías:

Por una parte, un proyecto piloto de panel de hogares on-line sobre ciberseguridad para recoger el comportamiento de los individuos en su interacción con Internet, auditando la seguridad de los equipos que utilizan para acceder a la red y comparando esta información con la propia percepción que tienen ellos al respecto. 

Y, por otra, un proyecto piloto que permite recoger datos de determinados sitios web que sirva para analizar fenómenos relacionados con la Sociedad de la Información y las TIC. Dentro de este último, se están desarrollando dos proyectos experimentales, uno relacionado con la oferta y demanda de profesionales TIC, y otro con la penetración del comercio electrónico. En ambos casos, la automatización pretende evitar o minimizar las tareas de exploración o anotación manual de sitios web.

El estudio sobre oferta y demanda de profesionales TIC trata de analizar las ofertas de empleo, tanto en las páginas web de las empresas como en los portales de empleo. Además se analiza la oferta curricular de las titulaciones y los contenidos de las universidades españolas y de formación profesional. Una vez identificados los perfiles demandados y la formación de los estudiantes, se analiza hasta qué punto la oferta formativa se ajusta a las necesidades que demandan las empresas.

En cuanto a la penetración del comercio electrónico en las empresas españolas, como fuente inicial de datos se utiliza la URL que las empresas declaran en el Registro Mercantil. Además, se dispone de información pública sobre cifra de negocio, empleo, inversión, etc. Se trata de rastrear las web de las empresas para determinar si tienen oferta de comercio electrónico o no. Para poder comparar estos resultados con los obtenidos en la Encuesta sobre uso TIC y Comercio Electrónico del INE, se seleccionaron las direcciones web de las empresas que forman parte de los mismos sectores de actividad que se usan en dicha encuesta. El sistema desarrollado tenía como fuente más de 162.000 direcciones de empresas, de las cuales finalmente se pudieron analizar casi 123.000. El análisis final permite detectar comercio electrónico con una certeza del 92%.

Utilidad potencial

Para Cid, la principal conclusión que se extrae del proyecto es que las técnicas de aprendizaje automático “tienen una utilidad potencial extraordinaria para el análisis de cantidades masivas de información en Internet”. En particular, añadió, se puede concluir que:

●    Es posible detectar automáticamente la presencia de comercio electrónico en las páginas web de las empresas españolas con un alto nivel de precisión.

●    La combinación de un proceso de rastreo inteligente con algoritmos de ML permite discriminar con alta precisión la presencia de ofertas de empleo en las páginas web de las empresas.

●    Los algoritmos de perfilado automático permiten identificar patrones generales en el conjunto de las oferta de empleo de las empresas, o de la oferta formativa de las universidades y centros de formación profesional.

●    A pesar de las diferencias (en formato, vocabulario, estructura) de los datos de ofertas de empleo y de perfiles curriculares, es posible construir medidas objetivas para el análisis comparativo, que permiten evaluar el ajuste global entre la oferta y la demanda de profesionales en España.

Los resultados del informe están disponibles en las siguientes direcciones de Internet:
-    http://iad.tsc.uc3m.es
-    http://www.ontsi.red.es

 

NIPO: 729-14-007-0
ISSN: 2255-5625
© INE 2017