Prospettive per un possibile utilizzo dei Big Data rispettoso della privacy degli interessati

Pubblicato: 03 Novembre 2016

Scritto da Federica Mammì Borruto

Con il termine Big Data si intendono insiemi di dati (dataset) che si caratterizzano, secondo la definizione fornita dall’analista aziendale Doug Laney nel 2001, per le c.d. tre V: volume (con il quale si fa riferimento alla loro dimensione eccezionale) velocità (per il loro ritmo di produzione, nonché per la rapidità necessaria nella loro raccolta, conservazione ed eventuale analisi) e varietà (sostanziandosi in formati diversi, comprendenti testi, immagini, metadati, etc.). E’ possibile aggiungere anche la quarta V di veridicità, utilizzata da alcune organizzazioni, per intendere la qualità da cui consegue il loro valore conoscitivo. Essi, infatti, derivano dall’acquisizione di informazioni “generate dal mondo digitale” (Internet of Things, social networks, Google, varie mobile apps, dati gps), ossia da tracce lasciate, talvolta inconsapevolmente, dall’attività umana sulla rete. Secondo le stime fornite da IDC nel 2012 ne sono stati creati 4.4 zettabytes, ossia milioni di terabytes, che arriveranno a 44 zettabytes nel 2020 e 180 zettabytes nel 2025.

Tali dati possono essere analizzati in modo quantitativo, attraverso le tecniche di Data Mining, (una fase del processo di Knowledge Discovery in Database), finalizzate ad individuare indizi (pattern) utili nei grandi dataset, mediante analisi statistiche, nonché l’utilizzo del machine learning e dell’intelligenza artificiale.

In questo modo vengono ricavate informazioni circa le tendenze delle popolazioni, le quali possono descriverne i comportamenti, evidenziando schemi ricorrenti e sequenze prevedibili delle loro azioni, nonché anticipare epidemie, crisi economiche e bisogni, riuscendo, di conseguenza, ad intervenire con priorità. Notevole è, pertanto, anche l’interesse del mondo sanitario in materia, nel suo esame dei quesiti legati allo sviluppo delle patologie, in relazione ad avvenimenti passati, presenti e futuri. Attraverso una serie di indagini, legate a queste informazioni aggregate, è possibile, infatti, ricavare risposte pertinenti: l’analisi retrospettiva sintetizza i trend verificatisi, individuando le cause dei fenomeni, quella real-time spiega cosa sta succedendo al momento attuale, fornendo degli alert quando determinati valori soglia vengono raggiunti, e quella prospettica fornisce una visione degli accadimenti futuri. Questo rappresenta una grande facilitazione nella risoluzione dei problemi, attraverso un disegno sperimentale corretto, controlli appropriati ed una formazione specifica degli operatori sanitari nella gestione ed interpretazione di tali grandi quantità di dati.

I Big Data in campo medico scientifico possono, inoltre, contribuire a creare una “farmacologia di precisione”, integrando l’enorme mole proveniente da diversi strumenti, in particolare grazie all’introduzione delle cartelle cliniche elettroniche ed all’utilizzo dei dispositivi medici mobili. E’ possibile, inoltre, migliorare la cura fornita al paziente, riducendo gli sprechi ed i costi, attraverso l’analisi di informazioni legate alle popolazioni che assumono i farmaci, agli obiettivi che si vogliono raggiungere con la terapia, agli effetti collaterali dei medicinali, all’andamento naturale delle stesse patologie ed alla durata della risposta farmacologica nel tempo.

Anche il Garante Europeo per la Protezione dei Dati Personali ha, recentemente, affrontato il tema dei Big Data, all’interno dell’Opinion n. 8/2016, intitolata “EDPS Opinion on coherent enforcement of fundamental rights in the age of Big Data”, in cui viene effettuata una ricognizione del livello di tutela offerto agli utenti ed ai loro dati all’interno del Mercato digitale, nonché una riflessione sul valore assunto dalle informazioni. Viene poi messo in luce come la possibilità di disporre di quantità rilevanti di dati personali, utilizzati per fini di implementazione della produzione e di pubblicità mirata, sia diventato oggi un fattore concorrenziale per le imprese. In tale contesto, inoltre, lo sviluppo di concentrazioni nei relativi mercati può dar vita a situazioni del tipo “winner-takes-all”, vicine ai monopoli, da parte delle più grandi aziende nel settore IT, le quali non portano a miglioramenti visibili in relazione alla trasparenza nelle policy di protezione dei dati.

In relazione a quest’ultimo aspetto, la preoccupazione viene accresciuta del fatto che molti dataset contengono dati sensibili, i quali potrebbero essere esposti ad utilizzi indebiti, con un notevole rischio per la tutela degli interessati, considerando, peraltro, che le nuove tecniche di elaborazione ed interconnessione delle informazioni consentono di re-identificare un interessato, anche attraverso dati apparentemente anonimi (c.d. “single-out”). L'attenzione si concentra, quindi, sui momenti che concernono la raccolta, l’analisi e l’utilizzo dei relativi risultati, nonché le modalità di conservazione e di prevenzione rispetto al rischio di perdita accidentale o di furti di informazioni (data breach).

Importante diventa, perciò, l’applicazione del principio della privacy by design e by default, contenuto nel nuovo Regolamento (UE) n. 2016/679, il quale prevede che la protezione dei dati sia inserita nell'intero ciclo di progettazione di un processo aziendale, sin dagli stadi iniziali, con l’attuazione di meccanismi che garantiscano l’utilizzo esclusivo di quelli necessari per le specifiche finalità. Quest’obbligo vale per la quantità di informazioni raccolte, la portata dell’utilizzo, il periodo di conservazione, l'accessibilità e, in particolare, per garantire che le stesse non siano rese note a un numero indefinito di persone fisiche senza l'intervento dell’interessato. Essenziale risulta, anche, il rispetto del principio di accountability, il quale impone al titolare del trattamento l’obbligo di adottare misure adeguate, per essere in grado di dimostrare l’attuazione di un trattamento di dati conforme alle norme dello stesso Regolamento.

In precedenza, poi, sempre il Garante Europeo ha presentato un parere, il 19 novembre 2015, intitolato “Meeting the Challenges of Big Data: A Call for Transparency, User Control, Data Protection by Design and Accountability”, in cui ha indicato le linee guida che devono essere tenute in considerazione, da parte di coloro che trattano Big Data, per operare conformemente alla normativa in vigore. Queste si concretizzano in una presentazione trasparente, rivolta agli interessati, delle finalità per le quali le informazioni vengono raccolte e delle modalità con cui verranno utilizzate, in un elevato controllo degli utenti attraverso anche il c.d. “no-question asked opt-out”, ossia l’opposizione incondizionata al trattamento, assicurando anche la portabilità dei dati, tecniche e strumenti di controllo aziendali volti a garantire il rispetto della normativa e lo sviluppo di software privacy-friendly che agevolino il diritto di accesso.

A tal proposito si parla, infatti, oggi di Privacy Preserving Data Mining, cioè del compito di ricavare validi schemi e modelli a partire dai dati, senza divulgare informazioni private. Sul tema il Gruppo Articolo 29, organo consultivo istituito ai sensi della previgente Direttiva 95/46/CE, ha pubblicato l’Opinion n. 05/2014, nella quale viene ribadita la necessità di impedire l’individuazione univoca di un soggetto all’interno del dataset, il collegamento di due record presenti nello stesso archivio o in due diversi, nonché l’isolamento del valore di un attributo da quello di altri con una probabilità significativa. All’interno del parere, viene anche chiarito come la pseudonimizzazione non sia un metodo di anonimizzazione (ossia un trattamento finalizzato ad impedire irreversibilmente l’identificazione della persona interessata), bensì una misura di sicurezza, volta a ridurre la correlabilità di un insieme di dati all’identità originaria di un soggetto. Continuando, vengono illustrate le principali tecniche per giungere all’anonimato, ossia la randomizzazione e la generalizzazione, nonché l’aggiunta del rumore statistico, le permutazioni, la privacy differenziale, l’aggregazione, il k-anonimato, la l-diversità e la t-vicinanza, mettendone in luce i principi, i punti di forza e di debolezza, nonché gli errori e gli insuccessi ad essi connessi.

I titolari del trattamento, tuttavia, devono essere consapevoli dei rischi, comunque residui anche in un insieme di dati resi anonimi, oltre al fatto che questi, come le statistiche, possono essere utilizzati per arricchire i profili esistenti delle persone. Non è possibile, quindi, considerare la procedura di anonimizzazione un’operazione una tantum, ma la stessa necessita di riesami periodici e di una progettazione adeguata, sulla base dei requisiti richiesti e degli obiettivi da raggiungere, caso per caso, possibilmente utilizzando una combinazione di tecniche diverse.

Si consiglia, in aggiunta, di garantire una separazione funzionale tra sistema alimentante e sistema di analisi, conservando, ad esempio, le informazioni personali su sistemi separati, utilizzando la crittografia, sia nella fase di conservazione che di trasmissione, e conservando i risultati condivisi internamente in forma aggregata, nonché rendendo questi ultimi accessibili esclusivamente a persone determinate ed in modalità sola lettura.

Il 18 settembre 2014, ad esempio, il Garante per la Protezione dei dati personali italiano ha dato parere favorevole allo schema di Programma Statistico Nazionale 2014-2016 Aggiornamento 2015-2016, redatto dall’Istat, il quale prevedeva la possibilità di utilizzare i Big Data di telefonia mobile con fini statistici. In particolare, il risultato è stato ottenuto grazie all’assicurazione di effettuare la raccolta di dati, presso il gestore telefonico, solo in forma anonima, attraverso l’attribuzione di un codice ad ogni c.d. call detail record (un progressivo assegnato dal gestore in sostituzione di nome, cognome e codice fiscale all’utente che effettua la chiamata), eliminando, quindi, ogni possibilità di un suo raccordo con gli identificativi originali.

Appare evidente, quindi, che i Big Data rappresentano una delle principali sfide dei prossimi anni e che, in relazione al loro utilizzo, è necessario un elevato livello di accortezza. Il rischio di andare incontro a profilazioni sempre più puntuali ed analitiche, da cui potrebbero conseguire nuove forme di discriminazione per le persone e di restrizione delle libertà, è, infatti, in ogni caso presente, come è stato sottolineato anche da Antonello Soro, Presidente dell’Autorità Garante italiana, in un’intervista rilasciata il 22 gennaio 2016. In attesa, quindi, di una regolamentazione delle questioni inedite e particolari, che si palesano per il prossimo futuro, le quali sono legate al trattamento delle informazioni in questi dataset di enormi dimensioni, l’unica soluzione è rappresentata dall’adattamento della normativa esistente, al fine di garantire un sempre più equilibrato bilanciamento tra diritti e interessi.

BIBLIOGRAFIA

- European Data Protection Supervisor, Opinion 8/2016, “EDPS Opinion on coherent enforcement of fundamental rights in the age of Big Data”, reperibile online in https://secure.edps.europa.eu/ EDPSWEB/webdav/site/mySite/shared/Documents/EDPS/Events/16-09-23_BigData_opinion_EN.pdf.

- European Data Protection Supervisor, Opinion 7/2015, “Meeting the Challenges of Big Data: A Call for Transparency, User Control, Data Protection by Design and Accountability”, reperibile online in https://secure.edps.europa.eu/EDPSWEB/webdav/site/mySite/shared/Documents/Consultation/Opinions/2015/15-11-19_Big_Data_EN.pdf.

- Bonansinga G., “Privacy e rispetto dei dati sensibili ai tempi dei Big Data”, Relazione finale per il Seminario di Cultura Digitale, reperibile online in http://www.labcd.unipi.it/wp-content/uploads/2016/05/Giulia-Bonansinga-Privacy-e-rispetto-dei-dati-sensibili-al-tempo-dei-Big-Data.pdf.

- Gruppo Di Lavoro Articolo 29 per la Protezione Dei Dati, Parere 05/2014 sulle tecniche di anonimizzazione, adottato il 10 aprile 2014, reperibile online in http://ec.europa.eu/justice/data-protection/article-29/documentation/opinion-recommendation/files/2014/wp216_it.pdf.

- Garante per la Protezione dei Dati Personali, Parere sul PSN 2014-2016 aggiornamento 2015-2016, 18 settembre 2014 reperibile online in http://www.garanteprivacy.it/web/guest/home/docweb/-/docweb-display/docweb/3458502.

- Intervista ad Antonello Soro, Presidente del Garante per la protezione dei dati personali di Mila Fiordalisi, CorCom.it, 22 gennaio 2016, reperibile online in http://garanteprivacy.it/web /guest/home/docweb/-/docweb-display/docweb/4610747.