parentesi in quanto la sua estensione predefinita è già .pdf). cui significato è riferito all’indice di interoperabilità introdotto nel §3.2. Un formato.
154 pages
33 KB – 154 Pages
PAGE – 2 ============
Sommario 1.1 Definizioni fondamentali 3 1.1.1 File, flussi digitali e buste -contenitori 4 1.1.2 Filesystem e metadati 5 1.1.3 Metadati e identificazione del formato 8 1. 2 Tassonomia 9 1.2.1 Tipologie di formati 9 1.2.2 Classificazione di formati 11 1.2.3 Formati generici e specifici 14 2.1 Documenti impa ginati 21 2.1.1 Raccomandazioni per la produzione di documenti 33 2.2 Ipertesti 34 2.2.1 Raccomandazion i per la produzione di documenti 41 2.3 Dati strutturati 42 2.3.1 Raccomandazioni per la produzione di documenti 52 2.4 Posta elettronica 53 2.4.1 Raccomandazioni per la produzione di documenti 55 2.5 Fogli di calcolo e presentazioni multimediali 55 2.5.1 Raccomandazioni per la produzione di documenti 59 2.6 Immagini raster 60 2.6.1 Raccomandazioni per la produzione di documenti 74 2.7 Immagini vettoriali e modellazione digitale 77 2.7.1 Raccomandazioni per la produzione di documenti 84 2.8 Caratteri tipografici 84 2.8.1 Raccomandazioni per la produzione di documenti 86 2.9 Audio e musica 87 2.9.1 Raccoman dazioni per la produzione di documenti 92 2.10 Video 93 2.10.1 Raccomandazioni per la produzione di documenti 102 2.11 Sottotitoli, didascalie e dialoghi 103 2.11.1 Raccomandazioni per la produzione di documenti 108 2.12 Contenitori e pacchetti di file multimediali 108 2.12.1 Raccomandazioni per la produzione di documenti 131 2.13 Archivi compressi 132 2.13.1 Raccomandazioni per la produzione di documenti 138 2.14 Documenti amministrativi 138 2.15 Applicazioni e codice sorgente 142 2.16 Applicazioni crittografiche 142 3.1 Valutazione di interoperabilità 147 3.2 Indice di interoperabilità 149 3.3 Riversamento 150
PAGE – 3 ============
1 Introduzione 1. Il presente documento fornisce indicazioni iniziali sui formati dei file con cui vengono rappresentati i documenti informatici oggetto delle presenti linee guida. I termini indicati in azzurro , alla prima occorrenza all™interno di questo testo, sono definiti nel Gloss ario delle presenti Linee guida. 2. I formati descritti sono stati scelti tra quelli che possono maggiormente garantire il principio dell™interoperabilità tra i sistemi di gestione documentale e conservazione e in base alla normativa vigente riguardante sp ecifiche tipologie di documenti. Va tuttavia segnalato che non tutti i formati di file nel presente documento sono leggibili da qualsivoglia elaboratore , a seconda della configurazione degli applicativi installati. Questo perché, nel caso di finalità speci fiche e settoriali (come avviene ad esempio per i file multimediali), alcuni formati di file sono utilizzabili solo dopo l™installazione di software applicativi specifici per l™attuazione delle suddette finalità. 3. È bene precisare che, rispettando il pri ncipio di interoperabilità e cercando di mitigare il rischio di fiobsolescenza tecnologicafl, i formati consigliati tra quelli elencati elencati Œinclusi quelli per finalità specifiche , cfr. § 1.2.3 Œ sono quanto più possibile fiapertifl, liberamente utilizzabili e non coperti da brevetto. Sono inoltre reperibili online diversi software applicativi open -source in grado di leggere tali file. Tra i formati elencati 4. Tra i formati elencati nel presente Allegato, vi sono anche quelli non consigliati per finalità di interoperabilità, archiviazione o conservazione; essi sono presenti nell™elenco perché formati già ampiamente diffusi nella pubblica amministrazione e quindi non ignorabili per quanto riguarda il loro trattamento e il riversamento da questi formati verso formati più interoperabili. 5. Il presente Allegato, per la natura stessa dell™argomento trattato, viene periodicamente aggiornato su lla base dell™evoluzione tecnologica e dell™obsolescenza dei formati e potrà essere pubblicato online sotto forma di Avvisi, ovvero di un registro dei formati sul sito istituzionale dell™Agenzia per l™Italia Digitale 1. 1.1 Definizioni fondamentali Si faccia riferimento al Glossario delle presenti linee guida per la definizione dei termini non ulteriormente introdotti in questa sezione. 1 Qui di seguito indicata anche, per brevità, come Agenzia, ovvero come AGID .
PAGE – 4 ============
1.1.1 File, flussi digitali e buste -contenitori 1. Dal punto di vista tecnologico un documento informatico è rappresentato da un file, ovvero da un flusso binario (stream ); in linea di principio un flusso binario di dimensione finita può essere contenuto in un file. Il parametro progettuale più importante associato a un file è la sua dimensione (espressa in byte o suoi multipli) . Per un flusso binario, che invece può non avere una dimensione predeterminata, si parla invece del suo data -rate (ovvero bit -rate , quando espresso in bit o suoi multipli ), cioè la media temporale dei bit contenuti dal flusso nell™arco di un secondo. 2. La capacità di poter produrre, elaborare o trasmettere flussi entro un data -rate massimo attraverso un canale di comunicazione digitale costituisce la banda dell™elaborator e ovvero del canale Š in inglese bandwidth . In questo capitolo ci interessiamo prevalentemente ai documenti informatici rappresentati mediante file, mentre sarà presa in considerazione la rappresentazione mediante flussi binari nel caso di alcuni file mult imediali ( cfr. §§2.9 Œ2.12 ). 3. In alcuni casi il documento informatico è rappresentato da un insieme di file distinti, organizzati in un pacchetto di file , in inglese ( file ) package . 4. L™algoritmo che permette di rappresentare un documento informatico mediante un™evidenza quale un file tramite un™operazione di codifica , o encoding , definisce dunque il formato del file; l™operazione inversa, per estrapolare dai dati binari di un file Œcodificato in un dato formato Œ nel contenuto informativo del documento, è chiamata decodifica ( decoding ). Formati diversi necessitano di codificatori e decodificatori specifici, che in una parola (soprattutto quando entrambi, per un formato specifico, sono implementati da una singola componente applicativa) sono abbreviati in codec . 5. Esistono una moltitudine di formati di file per rappresentare i docum enti informatici ma, a seconda del contenuto del documento e delle esigenze specifiche di gestione e conservazione dello stesso, alcuni formati sono più adatti di altri. Alcuni formati possono essere utilizzati per codificare documenti di una sola tipologi a (ad es. formati di file per immagini, generalmente, non possono codificare documenti audio); altri formati, invece, vengono usati per una o più finalità di codifica tra le seguenti: codificare documenti di tipologie diverse (ad es. sia testi, che immagin i, che audio); codificare più documenti insieme nel medesimo file (ad es. scopo principale dei formati di archiviazione); codificare documenti di una medesima tipologia (ad es. video) usando però algoritmi di codifica diversa.
PAGE – 5 ============
I formati di file che assolvo no ad una o più delle suddette funzioni sono chiamati (formati) busta , o (formati) contenitori Š in inglese, rispettivamente, ( file ) wrappers o container s. Le due tipologie di documento si utilizzano prevalentemente formati contenitori sono i documenti che richiedono funzioni crittografiche avanzate (cfr. §2.16 ) e i file multimediali (immagini, suono, video , cfr. §§ 2.6 Œ2.12 ). 6. Alcuni formati contenitori, infine, imbustano al loro interno, in un unico file -busta, pacchetti di più file precostituiti secondo un determinato formato di pacchetto di file. È questo il caso, ad esempio, dei formati OpenDocument e Microsoft ® OOXML (cfr. §2.1 e §2.5 ), ovvero delle immagini virtuali di filesystem (cfr. § 2.13 ). 1.1.2 Filesystem e metadati 1. I file sono solitamente archiviati una base di dati chiamata filesystem , ove i file con maggiore parentela fra loro (altrimenti detta locality of reference , ovvero fi affinità per referenza fl) sono collocati nel medesimo nodo dell™albero: la cartella (ovvero folder o directory in inglese). 2. All™interno di un filesystem, ai file possono essere associate altre informazioni che ne completano l™esistenza all™interno dello stesso, anche se tali informazioni non fanno parte del contenuto binario del file propriamente detto ; tali informazioni sono c hiamate per questo motivo metadati (in inglese metadata ) fiesternifl del file. 3. Esistono molteplici formati di filesystem, che variano a seconda delle tecnologie di stoccaggio, di specifiche finalità . Alcuni di questi formati sono open -source; altri sono c odificati in standard; altri ancora sono protetti da brevetti e/o copyright . 4. I metadati esterni rappresentabili in un dato filesystem possono differire anch™essi Œper qualità, numero, sintassi e funzionalità Œ a seconda del formato di filesystem, ma di s olito comprendono almeno: il nome del file, cioè una stringa di caratteri (di lunghezza variabile entro un limite massimo finito) che identifica univocamente il file all™interno della medesima cartella . Sussistono limitazioni differenti circa i caratteri a mmessi nel nome e la sua lunghezza massima, a seconda dei diversi formati di filesystem considerati ; la posizione virtuale del file all™interno del filesystem, chiamato fipercorso del filefl ( path ) Š filocalefl in quanto relativo al filesystem che lo ospita; la dimensione del file sopra definita, espressa da un numero intero di byte (o suoi multipli);
PAGE – 6 ============
la data e l™ora relativa all™ultimo istante in cui il sistema informatico che gestisce il filesystem ha rilevato una modifica del file Š chiamata fidata di modific afl del file. 5. La concatenazione ordinata del percorso di un file e del suo nome prende il nome di percorso completo del file ( pathname ). Invece la parte, opzionale, del nome del file costituita, scorrendo i caratteri del nome da sinistra a destra, a part ire dall™ultima occorrenza del carattere punto ‚ .™ in poi (codice ASCII 2E16 in esadecimale) è chiamata Œquando esiste Œ fiestensionefl del file. 6. A titolo esemplificativo, fanno parte dei metadati esterni di un file anche i seguenti: la data e l™ora creazione del file (che, a seconda della tipologia di filesystem può, con diversi gradi di ambiguità, coincidere con il momento di prima comparsa del file sul filesystem specifico, ovvero il momento della creazione del file sul suo filesystem di origine, o altro); la data e l™ora relativa al più recente accesso in lettura sul file avvenuto nel filesystem specifico; un identificativo più o meno univoco dell™utente informatico che è il proprietario virtuale del file (rispetto agli altri utenti virtuali del si stema) Š chiamato l™ owner del file; una serie di attributi che istruiscono i sistemi informativi che gestiscono l™intero filesystem di appartenenza circa la possibilità di autorizzare determinate operazioni sullo specifico file, a seconda sia dell™operazio ne da compiere che dell™utenza informatica che presenta tale richiesta; per ogni file, tali metadati costituiscono o sono una parte del cosi ddetto insieme dei suoi permessi ( permission s), ovvero una vera e propria lista dei controlli d™accesso (ACL ); un™et ichetta che stabilisce il tipo di formato file (o container) impiegato per la codifica del documento ; una cui codifica universalmente riconosciuta MIME type Œ cfr. RFC -2046 e RFC -3023 ). 7. È importante esplicitare che le fidatefl sopra descritte , pur non assolvono a requisiti di integrità, precisione e immutabilità nel tempo solo per il fatto di rappresentare una data e un™ora in un filesystem, non producendo dunque, a priori, la stessa validità giuridica di marcature temporali elettroniche qualificate ai sensi del Regolamento ( UE) No 910/2014 . 8. Come anticipato in § 1.1.1 , il documento informatico può essere rappresentato da un insieme di file distinti, organizzati in un pacchetto di file Œin ingl ese (file ) package Œ ove l™affinità per referenza tra di essi è realizzata, a seconda del formato del pacchetto, mediante una o più delle seguenti tecniche:
PAGE – 8 ============
pacchetto , in quanto l™affinità per referenza è generalmente difficil e da far rispettare tecnicamente (a meno di usare uno stretto controllo dei permessi di fisola -letturafl , ovvero archiviare su dispositivi logicamente immodificabili ). Per questo motivo la naming convention si affianca spesso ad altri metodi quali quelli ai punti dal 3 al 5 del sopracitato e lenco. 1.1.3 Metadati e identificazione del formato 1. Abbiamo già parlato in § 1.1.2 dei metadati esterni, che servono a descrivere meglio un file ma sono fortemente dipendenti dal filesystem ove il file è archiviato in un dato momento. Inoltre, tali metadati possono essere soggetti a modifiche che non pregiudicano l™integrità del file st esso. 2. Più importanti ancora sono perciò i cosiddetti metadati fiinterni fl di un file, cioè informazioni descrittive del file che sono codificate nel suo formato stesso. A seconda del formato impiegato, la presenza di questi metadati interni può essere obbligatoria o facoltativa. Facendo parte del contenuto binario di un file, la modifica di tali metadati compromette l™integrità del documento informatico. 3. Il riconoscimento (in modalità automatica o manuale) del formato di file impiegato per rappresentar e un documento informatico può avvenire attraverso alcune modalità, tra cui le più diffuse sono tramite metadati interni ovvero esterni: a) L™estensione nel nome del file, anche se tale associazione: non è resiliente Š è solitamente banale rinominare un file cambiandone l™estensione [ovvero crearne direttamente il nome] con un™estensione non corrispondente al formato utilizzato (es. un file di testo semplice con codifica ASCII denominato con estensione .doc , che invece è prerogativa dei documenti di Microsoft ® Word ); non è biunivoca Š una medesima estensione può essere usata nel nome di file codificati in formati diversi (es. l™estensione .log , usata per rappresentare file di registro codificati in maniera diversa), ovvero un dato formato viene associato a fi le con una molteplicità di estension I (es. i certificati elettronici in formato X.509 con codifica DER, rappresentati con diverse estensioni tra cui .crt ovvero .cer ). b) La fitipologia MIME fl ( MIME type ) del formato di file, anche se tale associazione gode di svantaggi simili all™estensione, in quanto: soprattutto se espressa come metadato esterno (si veda § 1.1.2 ), non è resiliente a variazioni o rimozioni del medesimo in maniera non controllata;
PAGE – 9 ============
sia nel caso in cui sia espressa come metadato interno che come metadato esterno del file, potrebbe descrivere il formato in modo comunque ambiguo . c) La presenza di metadati interni al file, espressi in ficampifl che si trovano in posizioni specifiche (prefiss ate ovvero ricalcolabili) all™interno del file 2. L a lettura di tali campi permette di dedurre il formato del file in maniera più diretta e affidabile. Molti formati impiegano, specificatamente a questo scopo, una stringa prefissata di pochi caratteri (gen eralmente dai 2 ai 6), posta all™inizio del file, chiamata magic number e che ne identifica univocamente 3 il tipo di file. 1. 2 Tassonomia 1.2.1 Tipologie di formati 1. L™evolversi delle tecnologie e la crescente disponibilità e complessità dell™informazione digitale ha indotto la necessità di gestire sempre maggiori forme di informazione digitale (testo, immagini, filmati, ecc.) e di disporre di funzionalità specializzate per renderne più facile la creazione e la modifica. 2. Questo fenomeno porta all™aumento del numero di formati disponibili e dei corrispondenti programmi necessari per codificarli, decodificarli e gestirli in ogni modo. 3. Segue una sommaria e non esaustiva catalogazione dei più diffusi formati di file e pacchetti , s econdo il loro specifico utilizzo (fitipologiafl) . A fianco di ogni tipologia di formati sono indicati i formati pertinenti oggetto del presente Allegato; qualora l™estensione di file associata al formato sia divers a Œa meno di maiuscole/minuscole Œ dall™even tuale acronimo del nome del formato stesso, essa sarà indicata affianc ata al nome tra parentesi (e.g., il formato PDF non avrà un™estensione indicata tra parentesi in quanto la sua estensione predefinita è già .pdf ). Documenti impaginati (§2.1 ) Š PDF , Microsoft ® OOXML (.docx ) e Word (.doc ), OpenDocument Text ( .odt ), Rich -Text Format ( .rtf ), EPUB , PostScriptŽ ( .ps ), Adobe ® InDesign ® Markup Language ( .idml ); 2 La parte iniziale ovvero quella terminale di un file contengono spesso gran parte dei campi utili a contenere i metadati interni (e quindi anche a identificare il formato) del file; quando presenti, queste parti sono chiamate, rispettivamente, header (impr opriamente tradotto come fiintestazionefl) e footer del file. 3 Il magic number può anche identificare l™allineamento delle word , che le architetture dei microprocessori e i sistemi operativi implementano diversamente per varie ragioni. Alcuni magic number n otevoli sono indicati, per i rispettivi formati, nel § 2.
PAGE – 10 ============
Ipertesti (§2.2 ) Š XML , dialetti e schemi XML ( .xs d, .xsl ), HTML ( .htm l, .htm ), fogli di stile per XML /HTML ( .xsl , .xslt , .css ), Markdown ( .md ); Dati strutturati (§2.3 ) Š SQL , CSV , Microsoft ® OOXML ( .accdb ) e Access (.mdb ), OpenDocument Database ( .odb ), JSON , Linked OpenData ( .json -ld), JWT 4; Posta elettronica (§2.4 ) Š .eml , .mbox ; Fogli di calcolo (§2.5 ) Š Microsoft ® OO XML ( .xlsx ) e Excel ( .xls ), OpenDocument Spreadsheet ( .ods ); Presentazioni multimediali (§2.5 ) Š Microsoft ® OOXML ( .pptx ) e PowerPoint (.ppt), OpenDocument Presentation ( .odp ); Immagini raster (§2.6 ) Š JPEG ( .jpg , .jpeg ), TIFF ( .tif , .tiff ), PNG , GIF , Open EXR ( .exr ), JPEG 2000 ( .jp2k , .jp2c , .jp2 ), DICOM , Adobe ® DNG, Adobe ® Photoshop ® ( .psd ), DPX , ARRIRAW ( .ari ); Immagini vettoriali e modellazione digitale (§ 2.7 ) Š SVG , Adobe ® Illustrator ® (.ai ), Encapsulated PostScriptŽ ( .eps ); Modelli digitali (§2.7 ) Š StereoLithography ( .stl ); Autodesk ® DWGŽ, DXFŽ, DWFŽ, FBXŽ. Caratteri tipografic i (§2.8 ) Š OpenType ( .otf ), TrueType ( .ttf ), Web Open Font ( .woff , .woff2 ); Suono (§2.9 ) Š Waveform RIFF / Broadcast Wave (.wav , .bwf ), MP3, audio RAW ( .pcm , .raw , .snd ), AIFF ( .aiff , .aifc , .aif ), FLAC , MusicXMLŽ (.music. xml ), MIDI ( .mid ); molteplici codec audio; Video (§2.10 ) Š formati video delle famiglie MPEG2 e MPEG4; molteplici codec video ; Sottotitoli (§2.11 ) Š TTML /IMSC /EBU -TT (. ttml, .dfxp , .xml ), EBU STL ; Contenitori multimediali (§2.12 ) Š MP4, MXF , MPEG 2 Transport/Program Stream (. vob , .ts , .ps), AVI RIFF ( .avi ), Matroska ( .mkv ), QuickTime ( .mov , .qt ), WebM; Pacchetti multimediali (§2.12 ) Š pacchetto di master interoperabile ( IMF , IMP ); pacchetto per il cinema digitale ( DCP ); master per la distribuzione cinematografica ( DCDM ); pacch etti Digital Intermediate basati su sequenze di fotogrammi ( .exr /.dpx ; .wav ), ACES metadata file (. amf ); pacchetto XDCAM ; Archivi compressi (§2.13 ) Š TAR , ZIP , GZIP , 7- Zip (.7z ), RAR , TAR compresso (.tgz , .t 7z , –) , ISO 9660 ( .iso ), VMware ® Disk ( .vmdk ), Apple Disk Image (.dmg ); Documenti amministrativi (§2.14 ) Š fattura elettronica, fascicolo sanitario elettronico , response SAML SPID, segnatura di protocollo ; 4 Il Java Web Token ( JWT ) è in realtà un formato di flusso digitale, che può essere banalmente contenuto in un file, cfr. §2.3 .
PAGE – 11 ============
Applicazioni e codice sorgente (§2.15 ) Š eseguibili Microsoft ® (.exe , .com ), applet Java ( .jar ); pacchetti applicativi Windows ® (.msi ), Android ( .apk ), macOS ® (.pkg ), iOS ® (.ipa ); librerie statiche ( .a , .lib ) e dinamiche ( .so , .dll , .dylib ); script interpretabili ( .sh , .?sh , .bat , .cmd , .py , .perl , .js , .go , .r , –) ; codice sorgente in vari linguaggi di programmazione ( .c , .cpp , .h, .java , .asm , –). Applicazioni crittografic he (§2.16 ) Š certificati elettronici ( .cer , .crt , .pem ), chiavi crittografiche ( .pkix , .pem ), marc ature temporali elettroniche (.tsr , .tsd , .tst ), impronte crittografiche ( .sha1 , .sha 2, .md5 , –) ; per le firme e i sigilli elettronici avanzati: buste crittografiche XAdES (.xml ), CAdES (.p7m , .p7s ), PA dES (.pdf ), contenitori ASiC (.zip ); KDM ( .kdm. xml ). 1.2.2 Classificazione di formati 1. L™evolversi delle tecnologie e la crescente disponibilità e complessità dell™informazione digitale ha indotto la necessità di gestire sempre maggiori forme di informazione digitale (testo, immagini, filmati, ecc.) e di disporre di funzionalità specializzate per renderne più facile la creazione e la modifica. 2. Gli standard tecnologici vengono incontro a tali esigenze, permettendo di definite regole di codifica e decodifica di un documento informatico, affinché sia rappr esentato tramite un file , un flusso digitale , ovvero un pacchetto di file (tutti oggetti del presente allegato) . Gli standard tendono a stabilizzare le specifiche tecniche dei formati di file Œsia nel tempo che rispetto alle tecnologie di produzione, trasm issione e archiviazione Œ ma la loro importanza nel cristallizzare tali specifiche in una forma precisa serve ad impedire la nascita di varianti fiesotichefl o dialetti non controllat i del medesimo formato che, alla lunga, ne riducano l™interoperabilità (cfr. più avanti). 3. Un esempio su tutti: la mancata standardizzazione dei codec usati nei formati -busta multimediali (§ 2.12 ), specialmente dei file video, che spesso conduce all™impossibilità di riprodurre un filmato ritenuto compatibile con il sistema informativo a causa del riconoscimento della sola estensione del file da parte di svariate applicazioni (che al massimo può servire a identificare il f ormato contenitore) , senza invece un™adeguata verifica del possesso dei codec adatti a riprodurne le essenze . 4. Gli standard migliori sono quelli che possono essere facilmente estesi, rivisti o aggiornati nel tempo per adattarsi all™immanente obsolescenza tecnologica . T ra questi inoltre , eccellono gli standard che sono ab initio disegnati con il preciso scopo di evolvere a lungo termine; per questo motivo essi sono detti formati ficompatibili in avantifl o anche fifuture -proo ffl.
33 KB – 154 Pages