Buenas prácticas en datos de investigaciónBuenas prácticas en datos de investigación<p>​​​​​​​​​<br></p><p>10/05/2023<br></p> <span> <div class="nav-tabs-vertical"><ul class="nav nav-tabs"><li class="active"> <a href="#tab_1_1" data-toggle="tab" aria-expanded="true">Gestión de datos de investigación</a><br></li><li> <a href="#tab_1_2" data-toggle="tab" aria-expanded="false">Buenas pr​​ácticas</a><br></li></ul><div class="tab-content"> ​ <div class="tab-pane fade active in" id="tab_1_1"> <img class="ms-rtePosition-1" alt="Investigación" src="/buc/PublishingImages/Formacion/Gestion%20datos.jpg" style="margin:80px 50px;width:325px;height:210px;" /> <div> <br> <br> </div><p>Realizar una <strong class="ms-rteForeColor-1">gestión sistemática y abierta</strong> de los datos de la investigación se está convirtiendo en una exigencia más de la práctica científica. Se plasma especialmente en los planes de gestión de datos, pero también en un conjunto de recomendaciones o buenas prácticas al reunir, generar, manejar y conservar los archivos de datos, como las que aquí consignamos. En conjunto, facilitan la comunicación científica y preservación del conocimiento. Consúltenos en la Biblioteca.</p><p>Un documento general e introductorio sobre el tema es:<br></p><ul><li>MELERO, R. 2019. <a href="http://hdl.handle.net/10261/173801" target="_blank">Recomendaciones para la gestión de datos de investigación dirigidas a investigadores</a>. En: <em>Digital CSIC.</em></li></ul><p>Infografías sobre datos abiertos de la investigación:<br></p><ul><li>CRUE REBIUN. <a href="/buc/Documents/Formacion/datos_abiertos_rebiun.pdf">Ciencia abierta: la investigación y los datos científicos accesibles y abiertos a todos los ciudadanos</a>.<br></li></ul><p>Curso sobre Research Data Management, con versión en español:<br></p><ul><li><p>OpenAIRE <a href="https://www.fosteropenscience.eu/node/2328" target="_blank">Managing and Sharing Research Data</a>.</p><p>Una web con recursos de formación para las ciencias sociales:<br></p></li><li>CESSDA. 2021. <a href="https://www.cessda.eu/Training/Training-Resources" target="_blank">Training resources for finding, managing and preserving data in the social sciences</a>.<br></li></ul><p> <br> </p></div><div class="tab-pane fade" id="tab_1_2"><div><ul><li>​​Redacte un <strong class="ms-rteForeColor-1">plan de gestión de datos</strong> como parte de la propuesta de financiación o del proyecto de investigación, que prevea los retos y soluciones principales al manejo de los datos. Puede usar nuestro <a href="/buc/Documents/Formacion/Guia_modelo_basico_PGD.pdf">Modelo básico</a> para ello. DMPonline ofrece también <a href="https://dmponline.dcc.ac.uk/public_templates" target="_blank">un conjunto de plantillas</a> según organismos de financiación, ninguno español, claro.<br><br></li><li>Al reunir o usar <span class="ms-rteForeColor-1"><strong>datos de carácter personal </strong></span>respete los requisitos legales, éticos y contractuales sobre confidencialidad, privacidad y protección de los datos, para lo que pueden anonimizarse o evitar su difusión pública. Puede consultarla <a href="https://www.aepd.es/media/guias/guia-orientaciones-procedimientos-anonimizacion.pdf" target="_blank">Guía sobre anonimización de datos personales</a> y el <a href="https://www.aepd.es/es/documento/guia-codigo-de-buenas-practicas-proyectos-de-big-data.pdf" target="_blank">Código de buenas prácticas en protección de datos para proyectos Big Data</a>, ambos de la AEPD. Y usar <a href="https://amnesia.openaire.eu/" target="_blank">Amnesia</a>, la herramienta de anonimización de OpenAIRE, adaptada al GDPR. O bien recurrir a <a href="https://bitbucket.org/ukda/ukds.tools.textanonhelper/wiki/Home" target="_blank">AnonHelper</a>, del UK Data Archive, o a <a href="https://arx.deidentifier.org/" target="_blank">ARX - Data Anonimization Tool</a>. Por su parte, la Universidad de Cantabria, requerirá​ declaración de si el proyecto de investigación supone tratamiento o recogida de datos personales y en caso positivo, concretar el procedimiento que se va a seguir al respecto <em>(Formulario de actividades de tratamiento en proyectos). </em><br><br></li><li>Establezca mecanismos apropiados de <span class="ms-rteForeColor-1"><strong>almacenamiento</strong></span>, back-up y seguridad de la información durante el tiempo que dure el proyecto de investigación, que aseguren la confidencialidad, integridad y disponibilidad de los datos.<br><br></li><li>Procure planear y organizar la <span class="ms-rteForeColor-1"><strong>arquitectura de los archivos </strong></span>de datos con cuidado. La estructura y denominaciones de las carpetas y archivos deben estar bien pensadas, ser descriptivas respecto al contenido, evitar nombres basados en simples números, incluir información de las versiones, usar guiones bajos y no espacios blancos, no superar los 25 caracteres, ni incluir signos especiales. Puede <a href="https://simmons.libguides.com/c.php?g=814790&p=5983200" target="_blank">consultar esta guía</a> al respecto, o también <a href="https://guides.nyu.edu/data_management/file-org" target="_blank">esta otra</a>.<br><br></li><li>Utilice en lo posible <span class="ms-rteForeColor-1"><strong>formatos abiertos </strong></span>y no propietarios: datos codificados en ASCII o UTF-8; mejor csv que Excel, mejor txt o PDF/A que Word o PPT, mejor TIFF que .psd, etc. Vea <a href="https://www.ukdataservice.ac.uk/manage-data/format/recommended-formats" target="_blank">UK Data Service Recommended Formats</a>, página en la que se basa el siguiente cuadro. También puede consultar las indicaciones de los US National Archives sobre <a href="https://www.archives.gov/records-mgmt/policy/transfer-guidance-tables.html" target="_blank">Tables of File Formats</a>.<br></li></ul><p></p><table class="ms-rteTable-default" cellspacing="0" style="width:100%;"><tbody><tr><td class="ms-rteTable-default" style="width:50%;"> <strong class="ms-rteForeColor-1">Tipo de datos</strong></td><td class="ms-rteTable-default" style="width:50%;"> <strong class="ms-rteForeColor-1">Formatos más idóneos</strong></td></tr><tr><td class="ms-rteTable-default" style="width:50%;">Datos tabulares cuantitativos con metadatos extensos<br></td><td class="ms-rteTable-default" style="width:50%;">Formato portátil SPSS: .por<br></td></tr><tr><td class="ms-rteTable-default" style="width:50%;">Datos tabulares cuantitativos con metadatos mínimos</td><td class="ms-rteTable-default" style="width:50%;">Valores separados por comas (CSV): .csv</td></tr><tr><td class="ms-rteTable-default" style="width:50%;">Datos geoespaciales<br></td><td class="ms-rteTable-default" style="width:50%;"><p>ESRI Shapefile: .shp, .shx, .dbf…<br>TIFF georreferenciada: .tif, .tfw<br>Datos CAD: .dwg<br>Datos de atributos GIS tabular</p></td></tr><tr><td class="ms-rteTable-default" style="width:50%;">Datos cualitativos, texto</td><td class="ms-rteTable-default" style="width:50%;"><p>XML según una DTD apropiada: .xml<br>Texto enriquecido: .rtf<br>Texto ASCII sin formato, UTF-8: .txt</p></td></tr><tr><td class="ms-rteTable-default" style="width:50%;">Datos de imagen digital</td><td class="ms-rteTable-default" style="width:50%;">TIFF versión 6 sin comprimir: .tif</td></tr><tr><td class="ms-rteTable-default" style="width:50%;">Datos de audio digital</td><td class="ms-rteTable-default" style="width:50%;">Free Lossless Audio Codec: .flac</td></tr><tr><td class="ms-rteTable-default" style="width:50%;">Datos de vídeo digital</td><td class="ms-rteTable-default" style="width:50%;">MPEG-4: .mp4</td></tr><tr><td class="ms-rteTable-default" style="width:50%;">Documentación y plan de gestión de datos</td><td class="ms-rteTable-default" style="width:50%;"><p>Rich Text Format: .rtf<br>HTML: .htm, .html<br>OpenDocument Text: .odt</p></td></tr></tbody></table><ul><p></p><p></p><li>De cara a su difusión realice una adecuada <span class="ms-rteForeColor-1"></span><strong class="ms-rteForeColor-1">organización y descripción </strong><span class="ms-rteForeColor-1"></span>de los datos que permita conocer cómo son y cómo se crearon para poder reutilizarlos. La descripción debe proporcionar un contexto para la interpretación y utilización de los datos, del que carecen por sí mismos, a diferencia de las publicaciones científicas. En <a href="/buc/Documents/Formacion/Data_Documentation_guide_HelsinkiUnivLibrary.pdf" target="_blank">Making a research project understandable: Guide for data documentation</a>​ encontrará un​a explicación clara y completa sobre organización, documentación ​y descripción de conjuntos de datos.<br><br></li><li>Utilice <span class="ms-rteForeColor-1"></span><strong class="ms-rteForeColor-1">metadatos</strong>, que sirven para describir de forma estructurada y normalizada los datasets: el propósito, origen, referencias temporales, referencias geográficas, autoría, condiciones de acceso y términos de uso de una colección de datos. Vea <a href="https://youtu.be/DW2T_cnqKPU" target="_blank">este vídeo informativo</a> al respecto. Existen esquemas de metadatos generales, especializados y generados por el propio software. Puede consultar por materias el <a href="http://rd-alliance.github.io/metadata-directory/" target="_blank">RDA Metadata Standards Directory</a> o los <a href="https://www.dcc.ac.uk/guidance/standards/metadata" target="_blank">Disciplinary Metadata del DCC</a>. Un esquema básico y general recomendable puede ser <a href="https://guidelines.openaire.eu/en/latest/data/index.html" target="_blank">OpenAIRE Guidelines for Data Archives</a>.<br><br></li><li><div> <img class="ms-rtePosition-2" alt="Datos en la nube" src="/buc/PublishingImages/Formacion/nube.jpg" style="text-align:justify;margin:15px 35px;width:250px;height:265px;" /> </div>Incorpore además un archivo <span class="ms-rteForeColor-1"></span><strong class="ms-rteForeColor-1">Readme.txt </strong>con instrucciones detalladas, por ejemplo: breve descripción del dataset; contacto del investigador principal para preguntas; fecha de recogida de datos y de creación del dataset; información geográfica de los datos; metodología y enlace a publicaciones y otra documentación; unidades de medida, protocolos, abreviaciones, códigos, símbolos asociados a los datos; licencia de uso; citación recomendada, etc. Puede inspirarse en la <a href="https://edatos.consorciomadrono.es/readme.xhtml" target="_blank">plantilla Readme.txt​</a> del Consorcio Madroño o <a href="https://data.research.cornell.edu/content/readme" target="_blank">consultar esta guía</a> de la Univ. Cornell al respecto.<br><br></li><li>Deposite en un <strong class="ms-rteForeColor-1">repositorio </strong> <strong class="ms-rteForeColor-1">público</strong> los datos de la investigación, de modo que se asegure su preservación y difusión, posibilitando su uso para <span class="ms-rteForeColor-1"></span> <strong class="ms-rteForeColor-1">reproducir y validar </strong><span class="ms-rteForeColor-1"></span>la investigación o su <span class="ms-rteForeColor-1"></span><strong class="ms-rteForeColor-1">reutilización</strong> en nuevos estudios y trabajos. <strong></strong><strong><a title="Re3data" href="http://www.re3data.org/" target="_blank">Re3data</a> </strong><strong></strong>es un buen directorio de repositorios.<br><br></li><li>Efectúe una <span class="ms-rteForeColor-1"></span> <strong class="ms-rteForeColor-1">selección de los datos </strong><span class="ms-rteForeColor-1"></span>que se van a conservar y difundir<strong>. </strong>Incluso participar en Horizon 2020 no supone necesariamente conservar todos los datos o conservarlos todos en abierto. Pero es preciso planear, seleccionar, decidir y justificar los criterios aplicados. Con frecuencia conviene limpiar y procesar los datos en bruto, depurar los que se van a conservar finalmente. La decisión sobre qué datos conservar y durante cuánto tiempo puede ser tomada con arreglo a los criterios inspirados en la guía <strong></strong><a title="5 pasos para decidir qué guardar" href="http://www.dcc.ac.uk/resources/how-guides/five-steps-decide-what-data-keep" target="_blank"><strong>Five steps to decide what data to keep (DCC)</strong></a><strong>.<br><br></strong></li><li>Defina bajo qué <span class="ms-rteForeColor-1"></span><strong class="ms-rteForeColor-1">licencias públicas y formas de acceso </strong><span class="ms-rteForeColor-1"></span>se van a difundir los datos. Es recomendable en general facilitar una reutilización poco restrictiva (CC0, CCBY), pero si es necesario pueden tomarse precuciones (embargos, permisos, etc.). Puede obtener una información y orientación muy completas <a href="https://www.dcc.ac.uk/guidance/how-guides/license-research-data#x1-8000" target="_blank">en esta página</a> del <em>Digital Curation Centre</em>, aunque la licencia definitiva quizá dependa de las que el repositorio ofrezca. Las más utilizadas y recomendables para datos son estas cuatro, dos del grupo Creative Commons y dos específicas de Open Data Commons:<br><br></li><ul><li> <strong class="ms-rteForeColor-1">CC0</strong>: Creative Commons Zero, Public Domain: renuncia a todos los derechos, genérica para todo tipo de contenidos.</li><li> <strong class="ms-rteForeColor-1" style="text-decoration-style:solid;text-decoration-color:#8b0000;">CC-BY</strong>: Creative Commons Attribution: reserva únicamente del derecho de reconocimiento o atribución de la autoría de todo tipo de contenidos.</li><li> <strong class="ms-rteForeColor-1">ODC-BY</strong>: Open Data Commons Attribution: reserva únicamente del derecho de reconocimiento de la autoría, más específica para datos y bases de datos.</li><li><p> <strong class="ms-rteForeColor-1">ODC-PDDL</strong>: Open Data Commons Public Domain Dedication and License: renuncia a todos los derechos, más específica de datos y bases de datos.</p></li></ul></ul><p> <br></p></div><div class="tab-pane fade"> </div><div class="tab-pane fade"> </div><div class="tab-pane fade"> <br><br></div></div>​​</div><div class="tab-pane fade" id="tab_1_4">​​ <p>​contenido del cuarto panel</p></div><div class="tab-pane fade" id="tab_1_5">​​ <p>​<br></p></div><div class="tab-pane fade" id="tab_1_6">​​ <p>​contenido del sexto panel</p></div></div> </span> <br>