Noticias Universidad de Cantabria

Skip Navigation LinksNoticias de la Universidad de Cantabria > Simplificar la ciencia de datos para hacerla más accesible y menos costosa, objetivos del trabajo de investigadores de la UC

14 ENERO 2022
Investigación y transferencia

Simplificar la ciencia de datos para hacerla más accesible y menos costosa, objetivos del trabajo de investigadores de la UC

El Journal of Computer Languages otorga el premio al mejor artículo publicado en su revista en 2020 al trabajo de la UC en el que se desarrolla el lenguaje Lavoisier para la simplificación de los procesos de preparación de datos.

 

Alfonso de la Vega, Diego García-Saiz, Marta Zorrilla y Pablo Sánchez son miembros del grupo de investigación de Ingeniería del Software y Tiempo Real de la Universidad de Cantabria y autores del artículo "Lavoisier: A DSL for increasing the level of abstraction of data selection and formatting in data mining" que la revista Journal of Computer Languages ha premiado como el mejor de los publicados en 2020.

Lavoisier es el nombre que le han otorgado al lenguaje que permite reducir la complejidad de los procesos de preparación de datos de manera previa a su análisis en un 50% de media y, en algunos casos, hasta en un 80%, explica el investigador Pablo Sánchez.

El coautor del artículo premiado señala que las aplicaciones de ciencia de datos, como los algoritmos de recomendación que usan Facebook o Youtube, por poner un ejemplo, se desarrollan con técnicas bastante artesanales y que requieren la intervención de personas con un profundo conocimiento en ese campo. "Es como si para cambiar la rueda de tu coche, necesitaras contratar a un doctor en ingeniería industrial", compara.

Los datos de entrada de un algoritmo de minería de datos deben ajustarse a un formato muy específico. Los científicos organizan los datos en ese formato mediante la creación de largos y complejos scripts. Sánchez añade que ese proceso de preparación de datos es "altamente artesanal" y cualquier ingeniero que tenga que preparar los datos previamente a su análisis, necesita realizar multitud de operaciones de bajo nivel, lo que hace que estos procesos sean bastante largos, complicados y tediosos.

Para paliar esta situación, Lavoisier se presenta como un lenguaje declarativo para la selección y el formateo de datos en un contexto de minería de datos. Con Lavoisier, el tamaño de los scripts para la preparación de datos puede reducirse en un 50% de media, y hasta en un 80% en algunos casos. Además, se mitiga considerablemente la complejidad accidental presente en las tecnologías actualmente utilizadas para esta tarea.

De esta forma, el lenguaje Lavoisier abstrae muchos de los problemas de bajo nivel que existen en estos procesos de preparación de datos y consigue reducir en gran medida su complejidad. "Por tanto, con este trabajo estos procesos de gestión de datos se pueden realizar de manera más rápida, sencilla, con la consiguiente reducción de coste de tiempo y dinero", concluye.    

El grupo de investigación Ingeniería del Software y Tiempo Real, que coordina Michael González Harbour, lleva años trabajando en aplicar diferentes técnicas de ingeniería de software a ciencia de datos.

El principal fruto de ese trabajo ha sido la tesis de Alfonso de la Vega, titulada "Lenguajes específicos de dominio para la democratización de la minería de datos" que defendió en 2019 y cuyos resultados se han publicado en diferentes revistas de impacto internacional.

Otro resultado importante ha sido otro lenguaje similar a Lavoisier, denominado Pinset, que se ha incluido en la suite de transformación de modelos Epsilon, que se utiliza en universidades de todo el mundo y en empresas como Rolls-Royce.

Los investigadores, además, trabajan ya con empresas del entorno para prestarles servicios de análisis de datos, como es el caso del Servicio de Emergencias de Cantabria, el 112.


Foto de Kevin Ku en Pexels






Noticias relacionadas

 



Servicio de Comunicación
Difusión de actividades, imagen corporativa…
comunicacion@unican.es
Tel. 942 20 10 62 – 20 10 12