Formatos y tipos de datos abiertos

INTRODUCCIÓN

El objetivo de esta acción es valorar la clasificación y valoración de los datos en función del grado de disponibilidad, así como de la facilidad de reutilización y uso de los mismos. Se explica el cómo ir un paso más allá en la definición de los datos para conseguir el objetivo primordial de facilitar su uso en la Web Semántica.

Antes de enunciar formatos y tipos de datos abiertos, de explicar cómo debemos ir hacia los Linked Open Data, es imprescindible sentar las bases del término principal: Open Data.

Open data o datos abiertos, pertenecen intrínsecamente a una ciencia cuyo objetivo y metodología está enfocado a que ciertos tipos de datos se encuentren disponibles sin restricciones y en formatos fáciles de manipular (o reutilizar), para los distintos tipos de usuarios (llámense usuarios a personas, servicios web, servidores…) que accedan a ellos.

Esta metodología coincide, en lo que a valores se refiere, con movimientos como el acceso abierto (Open Access), el código abierto (Open Source), la ciencia abierta (Open Science), etc. (Universitarios, 2017)

En el caso de las administraciones públicas, (Garriga-Portolà, 2011) indica que los motivos que llevan a las administraciones a la apertura de sus datos son de matiz ético y social. Tal vez, motivado por al auge de los portales de transparencia, y la concienciación de las administraciones públicas de transmitir de manera clara y fidedigna sus acciones y gobierno, se observa un movimiento creciente por parte de instituciones y gobiernos, tanto a nivel nacional como internacional, hacia la implementación de portales de datos abiertos. La finalidad de estos portales es clara, se busca, no solo la rendición de cuentas, si no que su objetivo es la reutilización de la información que ofrece el sector público.

Es más, en la definición inicial de este proyecto se indica la legislación que impulsa la reutilización y la transparencia en las administraciones públicas, y, en consecuencia, en las universidades.

Una vez que ha quedado claro el camino hacia el que debemos dirigirnos, debemos poder "clasificar" el tipo de dato y su facilidad de uso por parte de los usuarios. Para este cometido, Tim Berners-Lee, miembro del World Wide Web Consortium (W3C), inventor de la World Wide Web y posteriormente de los linked data, ha impulsado un esquema de desarrollo de 5 estrellas, utilizado de manera global, para medir en qué grado son abiertos y usables los datos que ofrece una institución (Berners-Lee, 2009)

Precedentemente a la explicación de este esquema, y cuáles son sus costos y beneficios, debemos aclarar los conceptos de ontologías y vocabularios, que se necesitan para enriquecer de manera sustancial el proyecto.

PROPUESTA ESTANDARIZADA DE MEDICIÓN DEL GRADO Y USABILIDAD DE LOS DATOS ABIERTOS

Grado y uso de 1 estrella.

En el nivel una estrella se exige que los datos estén disponibles en la web, sea en el formato que sea, con licencia abierta. Entre los tipos de archivos para cumplir este nivel se encuentra el PDF o formatos de imagen como JPG, PNG o TIFF.

Para el consumidor de los datos, este nivel le permite la visualización, la impresión y el almacenamiento local. También resulta posible la introducción de los datos en otro sistema, así como su modificación si así lo requiere o la posibilidad de compartirlos. Pero para estas tareas, se requiere de la creación de software para su extracción del documento o su copiado a mano

Desde el punto de vista del editor este nivel facilita la publicación de los datos.

Grado y uso de 2 estrellas

Para alcanzar las dos estrellas, los datos deben estar disponibles de manera estructurada de forma que sea legible por máquinas. Ejemplo de este tipo de datos son los existentes en documentos de Excel u otros formatos propietarios. Para cumplir con estos requisitos pueden utilizarse archivos con formatos XSL, DOC, MDB.

Como consumidor, estos formatos facilitan su procesado directo para realizar modificaciones, cálculos o visualizaciones como por ejemplo gráficas, pero para ello es necesario el uso de software propietario.

Al igual que con el nivel de una estrella, para el editor sigue siendo simple la publicación de la información.

Grado y uso de 3 estrellas

El nivel de tres estrellas es similar al de dos, pero en este caso los formatos deben ser no propietarios. Entre ellos se encuentran XML, JSON o CSV.

Al ser formatos no propietarios el consumidor podrá hacer todas las cosas que puede hacer con el nivel dos estrellas, pero sin la limitación que impone el uso de un software en concreto.

Para el editor seguirá siendo relativamente sencillo la publicación de datos, pero podrían surgir necesidades como la conversión de formatos o la necesidad del uso de plugins de exportación desde un formato propietario.

Grado y uso de 4 estrellas

Además de todo lo anterior, para alcanzar el nivel cuatro estrellas es necesario el uso de estándares abiertos de W3C (Consorcio World Wide Web) de manera que los datos puedan ser identificados mediante una URI (Indentificador uniforme de recursos) y que así estén integrados en la web. Para este nivel una forma de representación de los datos es RDF.

Un consumidor podrá enlazar los datos desde otro sitio web, marcarlos como favoritos, reutilizar partes de los mismos, usar herramientas y librerías existentes incluso en el caso en que estas solo puedan manejar parte de los patrones de los datos, o incluso combinarlos con otros. Sin

embargo, ofrece el inconveniente de que la estructura de los datos puede ser más difícil de entender.

Un editor invertirá en este nivel más tiempo y esfuerzo en el análisis de los datos, la preparación para su representación, la asignación de las URIs y la búsqueda y creación de patrones para aplicarlos a la información. A cambio, obtendrá un gran control sobre los datos de modo que pueden realizarse optimizaciones como por ejemplo en su acceso (realizando balanceo de carga o cacheo en los servidores) y ofrecerá la posibilidad a otros editores de enlazar a sus datos de modo que sean promocionados al nivel cinco estrellas.

RDF (Resource description Framework o Marco de Descripción de Recursos) es una familia de especificaciones del W3C para servir como modelo de datos que incluyen metadatos. Está basado en declarar recursos en forma de expresiones denominadas triplets que tienen la forma sujeto-predicado-objeto. El sujeto se encarga de indicar el recurso, el predicado expresa la relación entre el sujeto y el objeto apuntando sus rasgos o aspectos y el objeto sería el valor de la relación.

Ofrece distintos formatos de serialización entre los que se incluyen:

  • RDF/XML
  • DRF/JSON
  • Turtle
  • N-Triple

El uso de RDF permite además realizar consultas contra los datos utilizando varios lenguajes de consulta entre los que destaca SPARQL.

Es posible facilitar más la interpretabilidad de los contenidos con respecto al uso de XML o RDF por parte de aplicaciones o máquinas si se utiliza el Lenguaje de Ontologías Web (OWL) (OWL, Web Ontology Language, 2009). Mediante este lenguaje se extiende semánticamente a RDF, proporcionando vocabulario adicional para describir propiedades, clases y sus relaciones. Según su nivel de complejidad existen tres variantes (W3C, s.f.):

Grado y uso de 5 estrellas

Las cinco estrellas se consiguen logrando los niveles anteriores y vinculando además los datos con los que otras personas o instituciones publican, de modo que se proporcione un contexto para ellos. El formato para este nivel es el linked RDF. (Berners-Lee, 2009)

Un consumidor de datos de nivel cinco estrellas podrá descubrir otros datos relacionados mientras los consume y aprender directamente acerca de su esquema, aunque como contrapartida es posible que se encuentre con enlaces rotos debidos a una falta de mantenimiento.

En el caso de los editores, se necesitará invertir un mayor esfuerzo y recursos para realizar los enlaces con otros en la web, así como realizar un mantenimiento óptimo de los datos, sus URIs identificativas y sus enlaces. Pero como contrapartida se aumenta el valor de los datos y se logra que sea posible descubrirlos de manera más sencilla