Descripción
Los Datos Abiertos (OpenData) son información en bruto que se puede reutilizar, es accesible a todo el mundo y no poseen derechos de autor (se pueden distribuir libremente). Se enmarcan dentro de movimientos y comunidades como el software libre, el código abierto y el acceso libre.
Pueden ser en cualquier formato pero la situación ideal es encontrarlos en formatos estructurados como son: CSV, JSON, XML, RDF, etc.
Entre los objetivos principales están promover la transparencia, innovación, colaboración y participación ciudadana. Así como mejora la eficiencia y toma de decisiones basadas en datos.
Pasos
Hay cuatro pasos a seguir para la realización un estudio /investigación con datos abiertos.
Búsqueda de datos abiertos en portales
Existen diversos tipos de datos abiertos que pueden ser compartidos y utilizados por diferentes actores. Pueden abarcar una amplia variedad de tipos de información y algunos de los más comunes son datos gubernamentales, científicos, geoespaciales, de transporte, medioambientales, de salud y educativos entre otros.
Existen también una gran cantidad de portales de datos abiertos dónde encontrar todos estos datos tanto a nivel mundial como a nivel local. (Ver en referencias).
Extracción y limpieza de datos
La extracción de datos abiertos puede llevarse a cabo de varias formas, dependiendo de la fuente y el formato de los datos. Puede ser a través de la descarga directa de los archivos hasta la transformación de archivos PDF a textos estructurados o tablas de datos.
Análisis de datos
En esta fase generalmente se aplican técnicas estadísticas para obtener medidas descriptivas, realizar pruebas de hipótesis y analizar la relación entre variables. Esto puede incluir el cálculo de promedios, medianas, desviaciones estándar, correlaciones y modelos predictivos básicos.
Existen en la actualidad muchas herramientas comerciales que nos ayudan a analizar datos (ver en referencias)
Visualización de datos
La visualización de datos (o dataviz) es una herramienta poderosa para explorar y comprender conjuntos de datos complejos, y para comunicar información de manera efectiva a través de gráficos, tablas, diagramas y otras representaciones visuales. Algunos aspectos clave son:
- Exploración y análisis de datos de manera interactiva
- Comunicación efectiva de información compleja de manera clara y concisa.
- Identificación de insights
- Selección de gráficos adecuados
Existen un gran número de webs, visualizaciones y herramientas de referencia que muestran la variedad de opciones que hay a la hora de hacer una visualización de datos.
Utilidades
Ventajas
- Acceso a datos de alta calidad: ya que suelen ser recopilados y publicados por fuentes confiables y reconocidas, lo que garantiza la calidad y la integridad de los datos.
- Amplio alcance y diversidad de datos: Puedes explorar datos de diferentes sectores, como salud, educación, medio ambiente, transporte, economía, entre otros.
- Ahorro de tiempo y recursos en la recopilación y limpieza de datos, ya que los conjuntos de datos abiertos generalmente están disponibles en formatos listos para usar.
- Replicabilidad y verificación: Al utilizar datos abiertos, tus investigaciones pueden ser más fácilmente replicadas y verificadas por otros investigadores.
- Amplio espectro de análisis: como investigador, puedes aplicar diversas técnicas de análisis, explorar relaciones y patrones, y descubrir nuevos conocimientos en tu campo de estudio.
- Colaboración y multidisciplinariedad: fomenta el intercambio de conocimientos, la generación de ideas y la posibilidad de abordar problemas complejos desde una perspectiva multidisciplinaria.
- Impacto y difusión de tus investigaciones y su capacidad para influir en políticas y prácticas.
Desventajas
- Calidad y confiabilidad de los datos: no todos los datos abiertos están garantizados para ser precisos, actualizados o completos.
- Limitaciones en la disponibilidad de datos específicos: pueden estar sujetos a restricciones de acceso debido a motivos de privacidad, seguridad o propiedad intelectual
- Sesgos y limitaciones en la representatividad: Pueden reflejar solo una parte de la población o no capturar la diversidad completa de las características o variables que estás estudiando.
- Complejidad y necesidad de procesamiento de datos es posible que necesites realizar tareas adicionales de limpieza, integración y transformación de datos para adaptarlos a tus necesidades específicas
- Privacidad y protección de datos sensibles: Aunque los datos abiertos generalmente están anonimizados, puede existir el riesgo de identificar a individuos o exponer datos personales sensibles si los datos se combinan o se analizan de ciertas maneras
- Competencia y redundancia: es posible que otros investigadores también estén analizando los mismos conjuntos de datos.
- Falta de contexto y conocimiento experto que puede ser crucial para la interpretación adecuada de los resultados. Pueden faltar metadatos completos o información adicional que ayude a comprender plenamente los datos y su significado
Referencias
Algunos portales de datos abiertos:
- El portal Our Wourld in Data (https://ourworldindata.org/)
- Open Data Barometer (https://opendatabarometer.org/)
- Europe’s Open Data Portal (https://data.europa.eu/en)
- gob.es (https://datos.gob.es/es)
- Instituto Nacional de Estadística (INE) (https://www.ine.es/)
- Dades Obertes Generalitat Valenciana (https://dadesobertes.gva.es/)
- Open Data Ajuntament de València (https://valencia.opendatasoft.com/)
- Oficina Estadística Ajuntament de València (https://www.valencia.es/cas/estadistica/inicio)
Herramientas de limpieza, análisis y visualización de datos:
- Open Refine (https://openrefine.org/)
- ArcGIS Online (https://www.arcgis.com/index.html)
- Tableau (https://public.tableau.com/es-es/s/resources)
- Geojson (https://geojson.io/)
- Datawrapper (https://www.datawrapper.de/)
- RAWGraph (https://rawgraphs.io/)
- Flourish (https://flourish.studio/)
Webs y visualizaciones interesantes
- flowingdata.com: el principal blog en Visualización de Datos. Diariamente se crean nuevos posts mostrando nuevas visualizaciones.
- d3js.org: La página principal de la librería D3.js, una librería de programación de Visualización de Datos. Contiene una grandísima variedad de ejemplos y visualizaciones.
- Mike Bostock (https://bost.ocks.org/mike/)
- Federica Fragapane (https://www.behance.net/FedericaFragapane?locale=es_ES)
- Moritz Stefaner (https://truth-and-beauty.net/)
- Erica Fisher (https://www.flickr.com/photos/walkingsf/albums/72157624209158632)
Libros y manuales
- Guía de Visulaización de Datos (chrome-extension://efaidnbmnnnibpcajpcglclefindmkaj/https://atenciociutadana.gencat.cat/web/.content/manuals/visualitzacio_dades/guia_visualitzacio_es.pdf)
- The Visual Display of Quantitative Information, Eduard Tufte
- Design for Information, Isabel Meirelles
- Now You See It, Stephen Few
- El Arte funcional, Alberto Cairo (castellano)