Opendata anche domani

Tra le ragioni degli opendata sento raramente citare quella che secondo me si potrebbe definire come un’assicurazione sulla vita dei dati stessi.
Dati aperti significa leggibili adesso, da tutti, ovunque.
Un elemento che viene poco preso in considerazione è il tempo.

Rispetto al tempo, sono due le dimensioni interessanti nella valutazione dei dati:
– la persistenza
– la rappresentatività
La persistenza è la probabilità che i dati non vengano aggiornati in tempi troppo rapidi.
La rappresentatività  è la probabilità che i dati mantengano significato nel futuro perché “fotografano” una situazione che può essere confrontata con altre.

Per esempio, i nomi dei deputati e senatori eletti in una certa legislatura non sono soggetti a cambiare nel tempo, quindi hanno un’alta persistenza; ma non ha molto  senso confrontare questi dati con quelli di un’altra legislatura, quindi hanno una bassa  rappresentatività.
Se invece prendiamo  gli stipendi percepiti dagli stessi deputati e senatori possono essere confrontati in serie storiche per valutare la dipendenza dall’inflazione, è probabile che si tratti di informazione a bassa persistenza (dura una sola legislatura) ma alta rappresentatività.

Ora proprio quando siamo in presenza di dati con bassa persistenza e/o con alta rappresentatività è molto importante poter contare in futuro sulla possibilità di leggere quei dati con la stessa o con altre modalità, ma che soddisfino ugualmente i requisiti dei dati aperti (lettura automatica, possibilità di correzione di errore).
Si possono fare infiniti esempi: dai dati restituiti dalle centraline per il controllo della percentuale di CO2 a quelli sui lavori disponibili presso i centri per l’impiego.

Secondo Tim Berners-Lee, gli opendata possono essere “premiati” con delle stelline in base ad alcune proprietà fondamentali (essere pubblici, machine-readable, in formati aperti, referenziati univocamente, linkati). /
Lo stesso Berners-Lee ha sostenuto spesso che comunque è meglio pubblicare, in qualsiasi modo (“raw data now!”), piuttosto che non pubblicare. Ma se si guardano le tipologie dei dataset pubblici se ne trovano ancora pochi che possono fregiarsi di almeno tre stelle.

Quando i dati vengono pubblicati come CSV, vuol dire che sono file in formato ASCII in cui i campi sono separati da virgole o punto e virgola e i record dal caratteri di acapo. Non è il massimo, ma è leggibile con qualsiasi sistema operativo e qualsiasi editor di testi. ASCII è uno degli standard più longevi; creato nel 1968, definito come standard ISO dal 1972 (ISO 646), benché limitato a solo 127 codici  è sopravvissuto anche perché inglobato nel più recente e potente UTF , che consente di rappresentare virtualmente quasi tutte le lingue del mondo, passate e presenti.

Quando i dati vengono pubblicati come fogli di calcolo (che almeno per le PA  Italiane equivale a dire XLS ,cioè MS Excel)  possono contenere oltre ai dati veri e propri anche indicazioni di formattazione, grafici, metadati (data, autore, programma). Ma quello che è significativo è il fatto che il formato XLS è di per sé proprietario, binario, non basato su standard internazionli pubblici.
Il formato è stato documentato pubblicamente da MS a partire dal 2008, quando il formato standard per i documenti Office è diventato OOXML, che è divenuto anche uno standard ISO alternativo a quello OASIS, riconosciuto due anni prima e adottato da diversi paesi.
Oggi  è possibile leggere i file XLS anche utilizzando un programma diverso da quello con cui è stato scritto (anche se la realizzazione di tale software potrebbe violare delle patenti). Ma domani? Potrebbe semplicemente non essere più disponibile alcun programma in grado di farlo.
Non è uno scenario fantascientifico. Basti guardare quel che è successo con formati che sembravano incrollabili, come quello dei documenti WordStar.  La mia personale vicenda con un file Wordstar è raccontata qui.

La soluzione più elegante e potente è quella di utilizzare un formato basato su XML, che – oltre a poter in teoria contenere anche indicazioni sul significato dei dati, e non solo informazioni sulla loro posizione nella tabella – poggiandosi su UTF 8 sembra garantire una leggibilità futura.

I file XLSX e ODT (ma anche i meno conosciuti  .gnm prodotti con Gnumeric) sono  appunto basati su XML – anche se seguono standard diversi – ma sono entrambi compressi con l’algoritmo ZIP, che è uno standard de facto, creato nel 1989 da Phil Katz e con specifiche pubbliche.
ZIP è un contenitore di file diversi, i quali possono essere compressi separatamente e protetti con algoritmi differenti (come AES). Purtroppo ZIP non è regolato da uno standard internazionale. Il che significa che, in teoria, potrebbe un giorno diventare obsoleto…

In conclusioni, parafrasando Berners-Lee, si potrebbe dire “We want raw data now and tomorrow”.

 


Pubblicato

in

, ,

da

Tag: