Digi Tales

Basta coi dati, ancora più dati

Ago
15

Dati come algoritmi: ne parlano tutti, a qualsiasi proposito, a volte anche confondendoli. E si capisce, perché gli algoritmi senza dati girano a vuoto. Si legge e si ascolta sempre più spesso “I dati ci dicono che”, “Andiamo a vedere i dati”, “Ci vogliono nascondere i veri dati”. Ma a forza di citarli come risposta finale a tutte le domande, anche la pubblica amministrazione ha capito che si possono usare a fini di comunicazione.

Dalla sindaca di Roma che traccia le biciclette sulle piste ciclabili al software della sottosegretaria Floridia che “calcola il flusso dei tragitti che gli studenti fanno per venire a scuola”, sembra che la nuova tendenza non sia quella di aumentare l’apertura dei dati esistenti, ma di aumentare i dati raccolti da parte della PA.

Tracciare i movimenti e gli accessi, registrare i dati prodotti da azioni umane, è il nuovo dispositivo che da solo certifica l’approach modern e anche smart di una governance near ai citizens. Prima ancora di dire qual è il progetto generale e come quei dati verranno utilizzati, si annuncia la loro raccolta. Come se questa da sola fosse sufficiente; come se ogni raccolta non contemplasse un filtro e una trasformazione; come se i dati si potessero usare senza archiviarli, con il rischio che qualcuno se ne impadronisca (come è successo più volte).

Sul versante opposto, dopo aver richiesto a gran voce la pubblicazione dei dati del COVID, adesso le voci si alzano contro la registrazione dei dati (per esempio, contro il Green Pass) a volte anche senza sapere esattamente quali dati vengono raccolti, da chi vengono trattati, dove vengono archiviati e per quanto tempo. Cosa dice, esattamente, il QR Code? Anzi: cosa ci nasconde?

L’impressione è che da entrambe le parti ci sia superficialità e che tutto si svolga intorno alla parola “dati” più che intorno al concetto di raccolta di dati. Raccogliere i dati è segno di attenzione al territorio oppure è un furto di identità da parte di un sistema sempre più Grande Fratello?

Dal lato della PA, i proclami sono sempre molto opachi sul come quei dati potranno essere utili a tutti i cittadini, su come verranno protetti ora e i futuro, su quali flussi seguiranno. E’ facile pensare che ogni passo nella direzione del monitoraggio dei cittadini (o degli studenti) possa essere un precedente per altri passi più invasivi. Se un Comune può monitorare i passaggi delle biciclette (che per il momento non hanno una targa, e quindi non possono essere ricondotte ad un proprietario), cosa impedirà domani di costruire un Bicivelox che permetta di aggiungere entrate nella casse del Comune stesso? Se vengono tracciati i percorsi casa-scuola degli studenti, cosa impedisce di farlo anche per i docenti? Eccetera. Sono domande che sorgono spontanee nel momento in cui non c’è la necessaria trasparenza sull’uso di quei dati, sulla base legale, sui limiti non solo tecnici.


L’effetto di questo aumento della presenza dei dati come salvatori o come diabolici si mostrerà presto, a mio parere, in un movimento intellettual/popolare di ribellione all’acquisizione di dati. Un movimento che si presenterà come unito per poi spaccarsi in due ali francamente mosse da interessi diversi.

La parte intellettuale sosterrà che l’acquisizione dei dati (o la trasformazione in dati di azioni) è la nuova forma di creazione di valore a partire dalla vita delle persone. Che sia una processo gestito da grandi soggetti privati o da soggetti pubblici, e indipendentemente dalla finalità, si chiederà che nessun modello di machine learning possa essere addestrato sulla base di comportamenti ad alto valore professionale.

Un caso particolare di questa critica riguarderà i professionisti che vedranno scomparire il loro valore e sul mercato man mano che i dati del loro comportamento professionale saranno accumulati e utilizzati per il training di modelli di Machine Learning. Traduttori, programmatori, giornalisti per primi, poi in futuro docenti, medici, avvocati, architetti si renderanno conto che vanno incontro alla scomparsa come i panda. Anche l’università, e la formazione professionale in generale, si accorgeranno finalmente che rischiano un radicale ridimensionamento.

La parte popolare si limiterà a invocare il diritto all’opacità di ogni cittadino di fronte allo Stato, a difendere una generica libertà individuale. In un’unica rivendicazione verranno inclusi i dati fiscali, quelli produttivi, quelli formativi. Sarà facile per i movimenti politici che già fanno leva su questo tipo di istanze libertarie (nel senso della libertà del singolo individuo) cavalcare anche questa rivendicazione all’interno di un progetto politico liberista che punta a ridurre la presenza dello stato nella società.


Penso che questi movimenti vadano distinti, e le loro motivazioni analizzate con chiarezza. Se è vero che i dati sono il nuovo petrolio, nel senso che l’estrazione dei dati dalle azioni delle persone è la fonte principale di valore, questo valore va rivendicato sempre, soprattutto quando su quella base si costruiscono servizi che vanno a sostituire professioni avviando un percorso senza ritorno di rinuncia alla conoscenza teorica. Ma si tratta di un modo di raccogliere e usare i dati che è proprio primariamente di un numero ristretto di grandissime aziende, e che sta funzionando da modello e attrattore anche per le altre. Questo non ci esime dal cercare di ottenere da queste aziende una forma di autocontrollo; ma possiamo anche cominciare a pensare di usare meno servizi “gratuiti”, cioè pagati con i nostri dati, e usarne di nuovi a pagamento che però diano maggiori garanzie di trasparenza. Piccoli passi che ci aiuterebbero anche ad uscire dal sostanziale monopolio di servizi digitali in cui ci troviamo ora.

Per questo è necessario che la PA sia trasparente per quanto riguarda i percorsi di questi dati: perché anche se i suoi scopi sono diversi, la maniera di raggiungerli potrebbe implicare un passaggio (a costi limitati o addirittura senza costi) proprio per uno o più di questi fornitori di servizi.

Non si tratta tanto di proteggere il diritto del cittadino a nascondere alla PA i propri comportamenti, magari sul bordo dell’illegalità, ma di sancire il diritto di ogni cittadino, nei confronti della propria PA, di sapere cosa viene registrato, a chi viene consegnato e per quali usi, ed eventualmente limitare questi usi, così come si è fatto nel caso dei dati personali dal GDPR. Ma se il GDPR era nato per proteggere le economie dei Paesi europei contro la concorrenza di altri Paesi un po’ più leggeri nella gestione dei dati personali, stavolta si tratta di proteggere i diritti prodotti dai cittadini stessi, che non sono dati personali ma appartengono comunque alla sfera del valore e non solo a quella della tecnica.

Come per quanto riguarda i dati personali, la via più facile sarebbe quella di anonimizzare i dati, in modo che non sia possibile risalire al cittadino da cui sono stati prodotti. Purtroppo è una strada scivolosa e difficile. Facciamo un esempio: l’anonimizzazione può essere applicata per default oppure solo su richiesta del cittadino.

Nel primo caso, siccome i dati hanno senso soprattutto quando vengono incrociati, bisogna costruire un cittadino-doppio, un avatar anonimo su cui convergano tutti i dati raccolti. Questo doppio, identificato da un codice univoco all’interno della PA, non potrebbe davvero perdere il legame con il cittadino reale, altrimenti non sarebbe più possibile collegare i nuovi dati raccolti a quelli precedenti. Quindi il problema si sposta semplicemente dai dati al codice, dal tesoro alla chiave.

Nel secondo caso, quello di un’anonimizzazione su richiesta esplicita da parte dei cittadino, sorge il problema della propagazione a catena dell’anonimizzazione su tutte le repliche dei dati. Senza un protocollo che impone di tenere traccia di ogni replica, di ogni accesso in copia, sarebbe evidentemente impossibile assicurare il cittadino che tutte le copie sono state anonimizzate.

Insomma, in pratica i dati prodotti da un cittadino e quelli identificativi del cittadino restano connessi. E di qui il problema.


Spesso si dice che siccome le persone hanno già ceduto la maggior parte dei propri dati ad aziende private (l’uso della carta di credito, l’uso del telefono, gli spostamenti fisici, la navigazione web e in generale l’uso di servizi via Internet, i propri interessi e preferenze, la propria rubrica) non ha senso preoccuparsi dei dati forniti alla PA. E’ il tipo di critica che si riceve quando si parla di protezione dei dati all’interno di un social network. Fa venire in mente lo scrutatore non votante che “si fa la doccia dieci volte ma ha le formiche sulla tavola”.

Credo invece che i discorsi vadano tenuti separati. Da una parte è possibile, anche se difficile, condurre una vita senza cedere i propri dati ad aziende private, nel momento in cui si riesce a rinunciare ai servizi, a pagamento o gratuiti che siano, che queste offrono in cambio dei dati stessi. Si può vivere senza usare Google Maps, senza Gmail, senza Android, senza Windows e naturalmente senza social network centralizzati. Si possono cercare alternative, gratuite o a pagamento. Si possono fornire dati imprecisi, contraddittori o parziali.

Ma non si può vivere senza carta di identità, senza pagare le tasse, senza un fascicolo sanitario. In un caso c’è un contratto esplicito, accettato, che prevede uno scambio più o meno trasparente di dati contro servizi. Nell’altro caso, il contratto tra la persona e lo stato inizialmente non viene nemmeno firmato dalla persona, ma dai genitori al momento dell’iscrizione all’anagrafe. Quel contratto non specifica cosa lo stato possa fare in seguito con i dati del cittadino, ma fa riferimento alla Costituzione, alle Leggi statali e regionali. Da quel contratto si può uscire veramente solo rifiutando del tutto ogni nazionalità, o scegliendone una diversa.

Per questo è importante che la PA sia in grado di esporre un protocollo di raccolta dei dati che sia chiaro, inattaccabile, funzionale.


Una delle situazioni in cui questo problema potrebbe presentarsi improvvisamente (anche se le premesse sono presenti da anni) è quello della raccolta dei dati nella piattaforme di DaD, o di e-learning. Il tracciamento del comportamento degli studenti (non solo i voti o gli accessi, ma la navigazione fine, la consultazione dei link e degli allegati, la scrittura di testi, la comunicazione orizzontale) può essere più o meno spinto, e può essere più o meno usato a vantaggio degli studenti stessi, per esempio per arricchire la valutazione con dati che descrivono il comportamento degli studenti (o di un gruppo di studenti) in tempo reale, senza bisogno di aspettare il momento del test. Dati che permettono di confrontare quello che sta succedendo con quello che, in situazioni simili, ci si attende che succeda. Lo stesso potrebbe succedere, a breve, relativamente alla registrazione dei dati dei docenti: accessi, comunicazione con gli studenti, creazione di contenuti aggiuntivi, valutazione.

Da un lato è evidente che questi dati potrebbero essere usati per aiutare i docenti e i corsisti, o anche gli autori di contenuti, o i progettisti delle piattaforme; dall’altro, questi dati potrebbero essere usati per selezionare gli studenti ancora prima del termine del loro corso di formazione (come nel caso di alcuni MOOC), oppure per controllare il lavoro dei docenti e sanzionarne comportamenti inadeguati. O infine, e qui torniamo a quanto detto sopra, per costruire un modello di docente che sia in grado di fare lezione, correggere gli esercizi, assegnare voti.

Anche in questo caso occorrerebbe sbrigarsi a regolamentare cosa può essere raccolto, con che finalità, per quanto tempo.

Alcune ipotesi di lavoro.

1. Si può chiedere ad una PA di fornire un bilancio tra i servizi forniti grazie all’acquisizione di dati dei cittadini e la necessaria sottrazione di privacy dei cittadini stessi. Ci saranno casi in cui i vantaggi superano gli svantaggi, ed altri in cui l’acquisizione di dati non è giustificabile. Un bilancio che dovrebbe essere pubblico, facilmente leggibile dal maggior numero di cittadini, aggiornato frequentemente.

2. Si può chiedere ai poteri legislativi di stabilire, una volta per tutte, che i dati prodotti dalle azioni dei cittadini (come quelli che ne definiscono l’identità) vengano riconosciuti come di proprietà dei cittadini stessi. Non è un passo semplice, perché i dati non sono oggetti fisici che una volta ceduti non sono più di proprietà del precedente proprietario. I dati di cui parliamo non hanno nemmeno le caratteristiche dei prodotti dell’ingegno, che devono essere originali. Un’altra difficoltà deriva dal fatto che questa richiesta potrebbe andare in direzione opposta, almeno apparentemente, a quella dell’apertura dei dati pubblici. Andrebbe applicata una licenza permissiva ma con caratteristiche speciali: per esempio, dovrebbe essere possibile tracciare l’uso dei dati e rendere possibile la propagazione del blocco del loro utilizzo.

3. Questa legge dovrebbe anche stabilire che il trattamento di quei dati deve avere come finalità primaria il vantaggio dei cittadini e non del sistema organizzativo. I cittadini, attraverso i loro dati, dovrebbero sempre essere considerati un fine e mai un mezzo, come reciterebbe la versione moderna del principio regolativo kantiano.

Quali cittadini? Solo quelli a cui appartengono i dati, o tutti? E’ evidente che scienze come l’epidemiologia hanno bisogno dei dati di tutta la popolazione per provare a fare ipotesi significative.
Insomma, i principi non bastano, ci vuole ancora tanto lavoro. Ma sarebbe ora di iniziare a farlo.