menú desplegable

Formatos y tipos de datos abiertos

INTRODUCCIÓN

A continuación, mostramos cuál ha sido la clasificación por tipo de dato disponible en este portal y su facilidad de uso por parte de los usuarios. Para este cometido, el portal está basado en la propuesta que Tim Berners-Lee, miembro del World Wide Web Consortium (W3C), inventor de la World Wide Web y posteriormente de los linked data, ha impulsado mediante un esquema de desarrollo de 5 estrellas, utilizado de manera global, para medir en qué grado son abiertos y usables los datos que ofrece una institución (Berners-Lee, 2009)


CLASIFICACIÓN SEGÚN EL GRADO Y USABILIDAD DE LOS DATOS ABIERTOS

 

Grado y uso de 1 estrella 

 

En el nivel una estrella se exige que los datos estén disponibles en la web, sea en el formato que sea, con licencia abierta. Entre los tipos de archivos para cumplir este nivel se encuentra el PDF o formatos de imagen como JPG, PNG o TIFF.

Para el consumidor de los datos, este nivel le permite la visualización, la impresión y el almacenamiento local. También resulta posible la introducción de los datos en otro sistema, así como su modificación si así lo requiere o la posibilidad de compartirlos. Pero para estas tareas, se requiere de la creación de software para su extracción del documento o su copiado a mano

Desde el punto de vista del editor este nivel facilita la publicación de los datos.

 

Grado y uso de 2 estrellas

 

Para alcanzar las dos estrellas, los datos deben estar disponibles de manera estructurada de forma que sea legible por máquinas. Ejemplo de este tipo de datos son los existentes en documentos de Excel u otros formatos propietarios. Para cumplir con estos requisitos pueden utilizarse archivos con formatos XSL, DOC, MDB.

Como consumidor, estos formatos facilitan su procesado directo para realizar modificaciones, cálculos o visualizaciones como por ejemplo gráficas, pero para ello es necesario el uso de software propietario.

Al igual que con el nivel de una estrella, para el editor sigue siendo simple la publicación de la información.

 

Grado y uso de 3 estrellas

 

El nivel de tres estrellas es similar al de dos, pero en este caso los formatos deben ser no propietarios. Entre ellos se encuentran XML, JSON o CSV.

Al ser formatos no propietarios el consumidor podrá hacer todas las cosas que puede hacer con el nivel dos estrellas, pero sin la limitación que impone el uso de un software en concreto.

Para el editor seguirá siendo relativamente sencillo la publicación de datos, pero podrían surgir necesidades como la conversión de formatos o la necesidad del uso de plugins de exportación desde un formato propietario.

 

Grado y uso de 4 estrellas

 

Además de todo lo anterior, para alcanzar el nivel cuatro estrellas es necesario el uso de estándares abiertos de W3C (Consorcio World Wide Web) de manera que los datos puedan ser identificados mediante una URI (Indentificador uniforme de recursos) y que así estén integrados en la web. Para este nivel una forma de representación de los datos es RDF.

Un consumidor podrá enlazar los datos desde otro sitio web, marcarlos como favoritos, reutilizar partes de los mismos, usar herramientas y librerías existentes incluso en el caso en que estas solo puedan manejar parte de los patrones de los datos, o incluso combinarlos con otros.

Sin embargo, ofrece el inconveniente de que la estructura de los datos puede ser más difícil de entender.

Un editor invertirá en este nivel más tiempo y esfuerzo en el análisis de los datos, la preparación para su representación, la asignación de las URIs y la búsqueda y creación de patrones para aplicarlos a la información. A cambio, obtendrá un gran control sobre los datos de modo que pueden realizarse optimizaciones como por ejemplo en su acceso (realizando balanceo de carga o cacheo en los servidores) y ofrecerá la posibilidad a otros editores de enlazar a sus datos de modo que sean promocionados al nivel cinco estrellas.

RDF (Resource description Framework o Marco de Descripción de Recursos) es una familia de especificaciones del W3C para servir como modelo de datos que incluyen metadatos. Está basado en declarar recursos en forma de expresiones denominadas triplets que tienen la forma sujeto-predicado-objeto. El sujeto se encarga de indicar el recurso, el predicado expresa la relación entre el sujeto y el objeto apuntando sus rasgos o aspectos y el objeto sería el valor de la relación.

Ofrece distintos formatos de serialización entre los que se incluyen:

  • RDF/XML
  • DRF/JSON
  • Turtle
  • N-Triple

El uso de RDF permite además realizar consultas contra los datos utilizando varios lenguajes de consulta entre los que destaca SPARQL.

Es posible facilitar más la interpretabilidad de los contenidos con respecto al uso de XML o RDF por parte de aplicaciones o máquinas si se utiliza el Lenguaje de Ontologías Web (OWL) (OWL, Web Ontology Language, 2009). Mediante este lenguaje se extiende semánticamente a RDF, proporcionando vocabulario adicional para describir propiedades, clases y sus relaciones. Según su nivel de complejidad existen tres variantes (W3C, s.f.).

 

Grado y uso de 5 estrellas

 

Las cinco estrellas se consiguen logrando los niveles anteriores y vinculando además los datos con los que otras personas o instituciones publican, de modo que se proporcione un contexto para ellos. El formato para este nivel es el linked RDF. (Berners-Lee, 2009)

Un consumidor de datos de nivel cinco estrellas podrá descubrir otros datos relacionados mientras los consume y aprender directamente acerca de su esquema, aunque como contrapartida es posible que se encuentre con enlaces rotos debidos a una falta de mantenimiento.

En el caso de los editores, se necesitará invertir un mayor esfuerzo y recursos para realizar los enlaces con otros en la web, así como realizar un mantenimiento óptimo de los datos, sus URIs identificativas y sus enlaces. Pero como contrapartida se aumenta el valor de los datos y se logra que sea posible descubrirlos de manera más sencilla