automatici, come per esempio la pubblicazione in formati leggibili sia indipendente dalla piattaforma di lettura è Il formato PDF creato da Adobe ed
14 KB – 11 Pages
PAGE – 2 ============
Pag. 2 Questo materiale didattico è stato realizzato da Formez Pa Assistenza Tecnica 2012 – 2015 (POAT), Ob.II.4 PON GAT (FESR) 2007 – 2013 a titolarità del Ministero dell’Economia e delle Finanze. Il Dipartimento della Funzione Pubblica opera come Organismo intermedio per Obiettivo operativo II.4. opera è distribuita con Licenza Creative Commons Attribuzione – Condividi allo stesso modo 4.0 Internazionale . Autore: Sergio Agostinelli, Piero Zilio Creatore: Formez PA Diritti: Dipartimento della Funzione Pubblica Data: Ottobre 2015
PAGE – 3 ============
Pag. 3 Dati, dataset, banca dati e documenti di tipo aperto Il patrimonio informativo pubblico è composto da tutti i contenuti prodotti da una pubblica amministrazione che tradizionalmente è stato reso disponibile per la lettura e visualizzazione, in forma scritta o altra forma (immagine, audio, video). Da studi d ella Commissione europea emerge ancora una forte difficoltà a reperire e riutilizzare queste informazioni e dati, in particolare per il riuso con sistemi informatici. Per sormontare gli ostacoli al riutilizzo e ridurre la frammentazione dei mercati dei dat i, la Commissione ha quindi adottato un pacchetto di misure, il cui elemento cardine è la direttiva relativa al riutilizzo Esistono diversi livelli di definizioni e scelte da considerare per una corretta gestione del Dato: è una descrizione di fatti priva di contesto (es. un numero, una parola, una immagine) Dataset: è una serie di dati (es. un elenco di numeri, una tabella di indirizzi, un Banca dati: è un insieme organizzato di dati opportunamente strutturato per lo svolgimento di determinate attività (Es. Banca dati delle spese, Banca dati dei progetti) Informazione: è un elemento che consente la conoscenza di fatti (una notizia, un progetto ma anche informazioni descrittive delle categorie di dati come i metadati) Documento: rappresenta una collezione di informazioni che consentono la conoscenza di fatti (atti, pubblicazioni editoriali, rapporti, grafici, mater iali didattici, contenuti multimediali) automatici, come per es empio la pubblicazione in formati leggibili meccanicamente da un programma software e la rappresentazione formale e standardizzata dei dati. La normativa italiana, in linea con le direttive europee, definisce nell’art. 68, comma 3, del CAD un formato di dati reso pubblico, documentato esaustivamente e neutro rispetto agli strumenti tecnologici necessari per la fruizione dei dati stessi Un formato di f ile, in informatica, indica la convenzione che viene usata per leggere, scrivere e interpretare i contenuti di un file. Il formato di un file è comunemente indicato attraverso l’estensione, che è una serie di lettere (in genere tre, per motivi storici) uni ta al nome del file attraverso un punto. Ad esempio, “contenuto.txt” è un file di testo (o meglio, il suo contenuto va interpretato come testo), mentre “contenuto.jpg” è un’immagine.
PAGE – 4 ============
Pag. 4 Sebbene i file siano composti dagli stessi elementi (i byte), ogni file p uò archiviare contenuti molto diversi fra loro: testi, video, audio, immagini, ecc. Grazie al formato è possibile interpretare correttamente i byte di un file a seconda del tipo di contenuto, e indicare al programma software come interpretare questi dati. Formati proprietari e aperti I formati possono essere costruiti in modo da limitare la lettura del contenuto soltanto ad alcuni programmi software. In questo caso parliamo di formato proprietario, ossia coperto da diritti dei creatori (copyright) e le lor o specifiche tecniche non vengono distribuite pubblicamente. Questo comporta la necessità di usare particolari programmi per aprire e modificare i file e vincola la circolazione dei dati al possesso di un software specifico, che potrebbe non essere disponi lettura. Al contrario, un formato aperto è un formato non proprietario che si basa su una specifica di costruzione pubblica e che garantisce la lettura da parte di qu alsiasi programma. Il formato aperto è realizzato rispettando gli standard dichiarati e non presenta alcuna restrizione legale per il suo utilizzo. I formati aperti incoraggiano la concorrenza tra sviluppatori di funzionalità software invece di garantire i l controllo di un solo produttore su tutti i contenuti realizzati dagli utenti attraverso il formato proprietario. In questi casi si ha il fenomeno del lock – in ossia quando, individualmente o collettivamente, si è “catturati” da una scelta tecnologica risp etto ad altre disponibili. La libera circolazione dei dati sul web si basa sulla accessibilità totale, e può essere assicurata legati ai diritti legali e alle specifiche tecniche del software. Il formato aperto favorisce quindi la circolazione dei dati e ne garantisce un uso più completo, – Il v – strutturati, ossia organizzati completamente o parzialmente secondo schemi standard che ne facilitano la comprensione per il riutilizzo. La valorizzazione massima dei dati si ha quando so no utilizzati strutturalmente, oltre ai formati tecnici, gli standard di rappresentazione dei dati e le ontologie per implementare i modelli di dati e metadati. Per la pubblica amministrazione italiana il documento di riferimento su questi elementi è rapp resentato dalle Linee guida per la valorizzazione del patrimonio informativo pubblico Formati per la pubblicazione di dati aperti definiz ione dei dati sul web il CSV usato per rappresentare informazioni con struttura tabellare ed il JSON un formato aperto per la rappresentazione e lo scambio di dati
PAGE – 5 ============
Pag. 5 I dati geografici possono essere rappresentati con diversi formati aperti. Uno dei più dif fusi è lo shapefile. Creato dalla ESRI è oggi uno standard de – facto per la rappresentazione di dati dei sistemi informativi geografici. Google invece ha contribuito a diffondere il formato KML oggi standard OGC. Un formato molto diffuso nello sviluppo di applicazioni web è il geoJSON, una combinazione tra il formato JSON coordinate e geometrie. scambio di dati territoriali. XML (eXtensible Markup Language) , un formato standardizzato dal W3C e molto diffuso per la definizione dei dati sul web attraverso tag o annotazioni personalizzati (e.g., sistema XBRL per la rappresentazione dei bilanci, o sis tema Normattiva per la rappresentazione di documenti informatici in ambito giuridico, ecc). CSV (Comma Separated Values). È un formato di file testuale usato per rappresentare informazioni con struttura tabellare. Esso è spesso usato per importare ed esportare il contenuto di tabelle di database relazionali e fogli elettronici. Le righe delle tabelle corrispondono a righe nel file di testo CSV e i valori delle celle sono divisi da un carattere separatore, tipicamente, come indica il nome stesso, la virgola. Il W3C ha recentemente istituito un gruppo “CSV on the web” al quale partecipano, tra gli altri, esperti di Google e dell ‘Open Data Institute (ODI). L’iniziativa mira a produrre uno standard attraverso cui suggerimenti per la conversione verso vari formati. JSON (JavaScript Ob ject Notation). scambio di dati semi – strutturati che risulta leggibile anche dagli umani e che mantiene, rispetto a formati simili come l’XML, una sintassi poco prolissa. Questo aspetto ne fa un formato fle ssibile e compatto. Esso nasce dalla rappresentazione di strutture dati semplici nel linguaggio di programmazione JavaScript, ma mantiene indipendenza rispetto ai linguaggi di programmazione. Ha avuto ampia diffusione per il fatto di essere flessibile e co mpatto. (Shapefile). E’ il formato standard de – facto per la rappresentazione dei dati dei sistemi informativi geografici (GIS). Esso è creato dalla società ESRI che rende pubbliche le sue specifiche. Questo ha consentito lo sviluppo di strumenti in grado di gestire e creare tale formato. I dati sono di tipo vettoriale. Seppur impropriamente ci si riferisca a uno shapefile, nella pratica si devono considerare almeno tre file: un.shp contenente le forme geometriche, un .dbf contenente il database degli attr ibuti delle forme geometriche e un file .shx come indice delle forme geometriche. A questi tre si deve anche accompagnare un file .prj che contiene le impostazioni del sistema di riferimento. KML. È un formato basato su XML per rappresentare dati geografi ci. Nato con Google, è diventato poi uno standard OGC. Le specifiche della versione 2.2 presentano una serie di entità XML attraverso cui archiviare le coordinate geografiche che rappresentano punti, linee e poligoni espressi in coordinate WGS84 e altre ut ili a definire gli stili attraverso cui i dati andranno visualizzati. Eventuali attributi delle geometrie vanno espressi invece attraverso la
PAGE – 6 ============
Pag. 6 personalizzazione di alcune entità. Molti strumenti di conversione non si occupano tuttavia di creare questa strut tura dati e delegano gli attributi delle geometrie allo stile di visualizzazione. Si consiglia pertanto di distribuire questo dato prestando attenzione o, eventualmente, accompagnando il dataset assieme ad un altro formato aperto per i dati geografici (es. , .shp, .geojson). Spesso viene distribuito in modalità compressa attraverso file con extensione .kmz. geoJSON. forma vettoriale, basato su JSON (JavaScript Object Nota tion). Ogni dato è codificato come oggetto che può rappresentare una geometria, una feature o una collezione di feature. Ad ogni oggetto è associato un insieme di coppie nome/valore (membri). I principali nomi di membri che rappresentano le caratteristiche dei dati geografici sono: “type” che serve ad indicare il tipo di geometria (punto, linea, poligono o insieme multi – parte di questi tipi); “coordinates” attraverso cui sono indicate le coordinate dell’oggetto in un dato sistema di riferimento; “bbox” attr averso cui sono indicate le coordinate di un riquadro di delimitazione geografica; “crs” (opzionale) per l’indicazione del sistema di riferimento. È possibile inoltre associare all’oggetto specifici attributi attraverso il membro con nome “properties”. Si tratta di un formato molto diffuso e supportato da diversi software, ampiamente utilizzato in ambito di sviluppo web. GML (Geography Markup Language). di scambio aperto per i dati territoriali. Essa, definita originariamente da OGC e diventata lo Standard ISO 19136:2008, fornisce la codifica XML (schemi XSD) delle classi concettuali definite in diversi Sta ndard ISO della serie 19100 e di classi aggiuntive appositamente definite: geometrie, oggetti topologici, unità di misura, tipi di base, riferimenti temporali, feature, sistemi di riferimento, copertura Formati per la pubblicazione di documenti aperti Per quanto riguarda i documenti come delibere e atti amministrativi da pubblicare on line in Italia i formati aperti di riferimento sono: Questi tre formati sono basati sullo standard XML e sono stati adottati come formato principale in alcune suite per l’automazione d’ufficio come OpenOffice.org e LibreOffice inoltre sono supportata da altre suite come Microsoft Office, Google Drive e IBM Lotus. Il più popolare formato per la rappresentazione di documenti contenenti testo e immagini che sia indipendente dalla piattaforma di lettura è Il formato PDF creato da Adobe ed oggi . ODT (Open Document Text). E’ uno standard aperto per documenti tes tuali basato su XML. Fa parte dello standard OASIS Open Document Format for Office Applications. E’ stato adottato come formato principale per i testi in alcune suite per l’automazione d’ufficio come OpenOffice.org e LibreOffice ed è supportato da altre co me Microsoft Office, Google Drive e IBM Lotus.
PAGE – 8 ============
Pag. 8 Dal web semantico al modello a 5 stelle interpretabil i in maniera automatica dai sistemi informativi come per esempio i motori di ricerca. Per raggiungere questo obiettivo è necessario migliorare il collegamento fra i dati e renderli disponibili all’uomo e alle sue applicazioni. – Lee ha sviluppato un sistema di classificazione dei dati basato su Il modello a 5 stelle Secondo il modello di Tim Berners – Lee Il file è disponibile sul web (in un qualsiasi formato) con licenza aperta, ma non s trutturato Il file è disponibile sul web in un formato comprensibile da un software e quindi riusabile (per esempio un file Excel e non la semplice scansione di una tabella stampata) Il file è disponibile sul web in un formato aperto (per esempio CS V e non Excel) Il file è disponibile sul web e usa gli standard aperti del W3C e quindi si utilizzano URI (Uniform Resource Identifier) che, oltre a identificare una risorsa digitale, fornisce mezzi per agire su di essa (per esempio RDF) Il file è contestualizzato e collegato ad altri dati Ecco la scala del sistema di classificazione dei dati aperti: Legenda: OL= open license (licenza aperta) RE= reused (riusabile) OF= open formats (formato aperto) URI= Uniform Resource Locator (identificatore unico di risorsa) LD= Linked data (dati collegati) http://5stardata.info/en/ Costi e benefici dei dati aperti con Spesso troviamo dati disponibili sul web ad una stella ossia file in qualsiasi formato, ad esempio documenti contenenti testi o tabelle in formato Adobe Pdf, non processabili automaticamente dalla macchina (anche se rilasciati con licenza legale di utilizzo dei contenuti aperta). scansioni di tabelle stampate e quindi leggibili e interpretabili solo grazie a un intervento umano. Per utilizzare, riusare o abilitare qualche servizio a pa rtire dai dati contenuti nei documenti, è necessario attivare significativi interventi umani di estrazione ed elaborazione dei
PAGE – 9 ============
Pag. 9 possibili dati. I cittadini possono guardare, stampare, scaricare e condividere questi dati. Dal punto di vista della PA il dato risulta semplice da pubblicare Esempio 1 Una tabella chiusa in File PDF non strutturato per essere processabile automaticamente da un sistema informatico, ma pensato per la semplice visualizzazione umana. Esempio 2 Schede ed elenchi scaricabili in fo rmato PDF non strutturato per essere processabile automaticamente da un sistema informatico, ma pensato per la semplice visualizzazione umana. Costi e benefici dei dati aperti con Molti dei dati a disposizione li troviamo sul web in un formato comprensibile da un software, ossia processabile automaticamente ma proprietario (per esempio un file Excel e non la semplice scansione di una tabella stampata). Con questo tipo di file il cittadino può lavorare sui dati con software proprietario ed esport are i dati in un altro formato. La PA ha il vantaggio che questo formato di file è semplice da pubblicare
PAGE – 10 ============
Pag. 10 Esempio Una tabella scaricabile in formato Excel (.xls), quindi strutturato per essere processabile automaticamente da un sistema informatico, ma pro prietario e specifiche del produttore, in questo caso Microsoft. Costi e benefici dei dati aperti con Possiamo cominciare a parlare di dati realmente aperti quando i dati sono disponibili sul web in un file in un formato comprensibile da un software, ossia processabile automaticamente e non proprietario (per esempio un file CSV e non XLS). Quando il cittadino trova un dato pubblicato a tre stelle può sicuramente manipolare il dato in ogni modo, senza le restrizioni legali e tecniche imposte dal software proprietario. Questo tipo di dati sono sempre semplici da pubblicare per la PA ma potrebbe essere necessaria una conversione dal formato proprietario a quello aperto. Esempio Una tabella scaricabile in fo rmato CSV, quindi strutturato per essere processabile automaticamente da un sistema informatico, e non proprietario e quindi non vincolato produttore. Costi e benefici dei dati aperti con Siamo di fronte a progetti avanzati di apertura dei dati quando i dati sono disponibili con utilizzano URI (Uniform Resource Locator) che servono ad identificare una risorsa digitale in m odo univoco, si forniscono i mezzi per agire su di essa (per esempio RDF) e per completare viene fornita una modalità di accesso (endpoint SPARQL) per effettuare delle interrogazioni dei dati (query) personalizzate. Con i dati a quattro stelle il cittadin o puntare al dato da qualsiasi luogo (con un collegamento dal web o locale), riusare parte dei dati, degli strumenti e delle librerie , capire la struttura di un grafico di dati RDF, anche se richiede competenze maggiori rispetto ai dati con struttura
PAGE – 11 ============
Pag. 11 tab ellare (per esempio Excel/CSV) o ad albero (per esempio XML/JSON) e realizzare mash – up. Per le PA invece aumenta il controllo sui singoli dati e si possono ottimizzare gli accessi e le richieste, altre PA possono collegarsi ai dati pubblicati. Si richiede però un maggior investimento nel trattamento dei dati, è necessario assegnare URIs ai singoli dati e pensare a come rappresentarli, infine è necessario adattare modelli esistenti o crearne ex novo Esempio Una tabella on line semi – strutturata per essere processabile automaticamente da un sistema informatico con un indirizzo identificativo unico sul web (URI) e descritto in RDF. Costi e benefici dei dati aperti con Il livello massimo della scala a 5 stelle si raggiunge quando i dati sono contestualizzati e collegati ad altri dati. Solo in questi casi si parla di LOD (Linked Open Data) . I cittadini possono adesso scoprire nuovi dati connessi a quelli visualizzati eimparare direttamente dallo schema dei dati. Il rischio è quello di incappar e in link interrotti o rischiare di fraintendere il significato dei dati, arrivando a conclusioni arbitrarie La PA ha il vantaggio di rendere i dati rilevabili. I dati così hanno un valore più elevato e la PA potrà godere dei benefici derivanti dal collega mento tra i dati. Dal punto di vista dei cosi la PA deve prevedere delle risorse per collegare i dati e riparare eventuali link interrotti . Esempio Una tabella on line strutturata con un indirizzo identificativo unico sul web (URI) e descritto in RDF e co n collegamenti semantici a risorse del web. http://5stardata.info/en/
14 KB – 11 Pages