Quando l’AI scompare con un semplice resize: immagini, Content Credentials e PDF

Tutti parlano di “AI generated”, ma quando ci si siede al tavolo con giudici, pubblici ministeri ed avvocati la domanda diventa molto più concreta: che cosa resta, nei file, a dimostrare che un contenuto è nato da un modello di intelligenza artificiale dopo che ha attraversato resize, conversioni, PDF e varia umanità digitale.

Nel dibattito pubblico sull’intelligenza artificiale si passa con facilità dalle promesse di efficienza alle catastrofi annunciata, saltando quasi sempre un punto che per chi fa consulenza tecnica è vitale: come si riconosce, nella pratica, che un oggetto digitale è stato generato da un modello di AI, e non semplicemente “assomiglia” a qualcosa uscito da una rete neurale. La distinzione fra impressione ed evidenza, fra stile ed origine, è esattamente il confine fra una buona perizia ed un racconto suggestivo.

Negli ultimi anni sono comparsi standard come le Content Credentials, basate su C2PA. In estrema sintesi, una immagine può portarsi dietro una specie di carta di identità digitale che dice chi l’ha prodotta, con quale strumento, con quali trasformazioni. Finché guardiamo il file originale, tutto sembra funzionare. Il problema è che, nella vita reale, quel file originale non arriva quasi mai in aula. L’immagine passa per presentazioni, editor, generatori di PDF, ridimensionamenti, compressioni. Ad un certo punto qualcuno stampa, qualcun altro allega un PDF, e le prove di come è nata iniziano ad evaporare.

Perché mettere l’AI sul tavolo operatorio

Il punto non è stabilire se l’AI sia “buona” o “cattiva”, ma capire che cosa resta delle sue tracce quando i contenuti entrano nei flussi documentali ordinari. Ogni volta che lavoro come consulente tecnico, vedo file che hanno alle spalle storie complesse: nati in un sistema, modificati in un altro, salvati, risalvati, esportati, magari fotografati dallo schermo. Il fascicolo spesso contiene solo l’ultimo anello di una catena piuttosto lunga.

Ho deciso quindi di costruire un piccolo scenario di laboratorio, volutamente semplice, ma abbastanza realistico da rispecchiare quello che succede negli uffici. Lo scopo è doppio: da un lato chiarire a me stesso dove finiscono le informazioni probatorie; dall’altro avere una storia concreta da raccontare a colleghi, avvocati ed operatori che vogliono capire fino a che punto si possa parlare seriamente di “AI generated” in una consulenza tecnica.

Lo schema è questo: partire da una immagine generata da AI con Content Credentials, verificarne i metadati, sottoporla ad una serie di trasformazioni banali (ridimensionamenti, conversioni in JPEG, inserimento in PDF) e vedere che cosa sopravvive e che cosa scompare. Il tutto con comandi ripetibili, che chiunque abbia un minimo di dimestichezza con la riga di comando può rifare sul proprio sistema.

Fase 1 – Il PNG sorgente ed il manifest C2PA

Il punto di partenza è un file PNG, che per comodità chiamo ai_original.png. È una immagine generata da un servizio di intelligenza artificiale che implementa C2PA. La prima cosa che faccio non è “aprire e guardare”, ma trattarla come un reperto: calcolo gli hash, annoto il nome ed il percorso, salvo la versione originale in un’area che non toccherò più.

md5sum ai_original.png
sha256sum ai_original.png

Questi numeri non sono un feticcio da informatici, ma l’unico modo ragionevole per poter dire, fra sei mesi, che il file che sto esaminando oggi è esattamente lo stesso di allora. Se cambia un singolo bit, gli hash cambiano, e quel “quasi uguale” che a volte si tollera sulla carta non è più accettabile in ambito forense.

Poi arriva la parte più interessante: la radiografia dei metadati. Uso exiftool per vedere che cosa dichiara il file a livello Exif ed XMP, uso strings per intercettare eventuali riferimenti a C2PA, passo qualche blocco in esadecimale per cercare zone “strane”. Se ho a disposizione uno strumento come c2patool, gli chiedo esplicitamente di ispezionare l’immagine.

Nel caso che mi interessa, il responso è chiaro: il PNG contiene un manifest C2PA firmato che dichiara, in modo strutturato, che l’immagine è stata generata da un certo modello su una certa piattaforma. Non è una prova metafisica, ma è un fatto tecnico: il file porta con sé una attestazione digitale della propria origine, verificabile con strumenti standardizzati.

Fase 2 – Un innocente resize che si mangia la carta di identità

Il passo successivo è quasi banale: fare quello che ogni grafico, assistente di studio, o programmatore fa quotidianamente. Ridimensionare l’immagine perché “è troppo grande” o esportarla in JPEG per alleggerire una pagina. I comandi sono di questo tipo:

convert ai_original.png -resize 25% ai_resized_25.png
convert ai_original.png -resize 25% ai_resized_25.jpg

A questo punto ho tre file: il sorgente e due derivati. I derivati sono simili all’originale, solo più piccoli, oppure compressi in modo diverso. Dal punto di vista visivo, nulla che faccia scattare allarmi. Dal punto di vista forense, invece, è il momento di verificare che cosa sia rimasto delle Content Credentials.

Ripeto la stessa liturgia: hash, metadati, strings, c2patool. La storia che si ripete è semplice ed istruttiva: il manifest C2PA è rimasto nel PNG originario ed è scomparso nelle versioni ridimensionate. Il ridimensionamento ha comportato la decodifica della matrice di pixel, un nuovo campionamento ed il salvataggio di un file completamente nuovo. La “biografia digitale” non è stata copiata nel figlio.

In pratica, se porto in aula solo ai_resized_25.png, senza più il sorgente, non posso più dire “questa immagine è AI perché ho trovato un manifest C2PA nel file”. Posso al massimo parlare di somiglianza con lo stile tipico di certe generazioni, ma è un livello argomentativo molto diverso. L’evidenza non è più nel file, ma nella mia interpretazione.

Fase 3 – Il PDF come tritacarne dei metadati

Terzo atto: l’ingresso nel regno dei PDF. Qui l’operazione è ancora più familiare a chiunque lavori con documenti: prendo una immagine, la inserisco in un documento, poi “stampo” in PDF. Oppure uso direttamente uno strumento che da immagine produce un PDF monolitico.

convert ai_resized_25.png pdf_A_convert.pdf
qpdf --qdf --object-streams=disable pdf_A_convert.pdf pdf_A_convert_qdf.pdf

La versione “qdf” del PDF è sostanzialmente un PDF decompresso, in cui si vedono gli oggetti con una sintassi più leggibile. Lì dentro noto che l’immagine è rappresentata come un oggetto /XObject con /Subtype /Image, con alcune proprietà di base (larghezza, altezza, spazio colore) ed uno stream di dati compressi. Nessun riferimento, però, al fatto che quei dati discendano da una PNG con C2PA.

Se provo a cercare letteralmente “C2PA” nel PDF, non trovo nulla. Se provo con c2patool, il documento non viene riconosciuto come portatore di manifest. Dal punto di vista del formato, quella immagine è indistinguibile da una fotografia scattata con uno smartphone ed incollata nello stesso modo.

Il quadro, a questo punto, è abbastanza chiaro. Una volta che l’immagine è passata attraverso il tritacarne del ridimensionamento e dell’incorporazione in PDF, l’idea che “il file racconta da solo che è AI” smette di essere vera. Il file PDF racconta che contiene un flusso di pixel, nulla di più.

Fase 4 – Quando il PDF diventa davvero un contenitore probatorio

Fin qui la parte un po’ deprimente della storia. Per fortuna esiste anche una via d’uscita. Un PDF può essere solo una vetrina grafica, oppure può diventare un vero contenitore probatorio. La differenza la fa il modo in cui gestiamo i sorgenti.

L’idea è semplice: oltre ad inserire nella pagina l’immagine ridimensionata, si allega al PDF il file sorgente originario, quello con il manifest C2PA. Il documento, dal punto di vista del lettore umano, resta identico. Dal punto di vista del perito, però, dentro al PDF vive un PNG con i suoi hash e le sue Content Credentials integre.

Con strumenti come qpdf posso aggiungere un allegato al PDF, e poi verificare che nella struttura compaia una sezione di Embedded Files che descrive ai_original.png. Un perito, in un secondo momento, può estrarre quell’allegato, ricontrollare gli hash, lanciare di nuovo c2patool e dimostrare che l’immagine inserita nella pagina è una derivazione grafica di quel sorgente.

In questo scenario, se qualcuno mi chiede “può spiegare perché afferma che questa immagine è stata generata da AI”, non devo appellarmi al gusto personale, ma posso mettere sul tavolo il PNG allegato, il manifest C2PA ed il confronto fra sorgente e derivato. Il documento PDF non è più solo un contenitore di “come appare” la realtà, ma anche di “che cosa c’era sotto il cofano”.

Che cosa posso dire, e che cosa no, in una perizia

Tirando le fila del laboratorio, la lezione è meno scenografica di tante slide sulle meraviglie dell’AI, ma è esattamente il tipo di cosa che un giudice o un bravo avvocato si aspetta da un consulente tecnico: chiarezza sui limiti di ciò che si può affermare.

  • Se ho soltanto il file derivato (immagine ridimensionata, screenshot in un PDF, stampa scansionata), senza più il sorgente, non posso trasformare una sensazione sullo stile in una certezza sull’origine AI. Posso descrivere coerenze ed incoerenze, ma devo chiamarle per nome: sono valutazioni, non accertamenti su manifest interni ai file.
  • Se ho il file sorgente con Content Credentials, posso mostrare il manifest, spiegarne il significato ed illustrare che cosa il sistema dichiara a proposito dell’immagine. Posso anche discutere della fiducia che merita quella infrastruttura, ma almeno sto lavorando su dati che vivono dentro il file, non solo nella mia interpretazione.
  • Se il PDF contiene anche il sorgente, allegato in forma integra, posso trattare il documento come un contenitore probatorio: la pagina per la leggibilità, il PNG per l’analisi forense. Questo cambia completamente il tono della discussione in aula, perché mi consente di fare verifiche ripetibili e di mostrare il percorso che porta dalle credenziali AI all’immagine che tutti vedono.

Implicazioni pratiche per chi lavora con documenti, non con slogan

Tradotto in pratica, questo laboratorio dice alle organizzazioni qualcosa di molto semplice: se usate contenuti generati da AI in contesti che potrebbero avere rilievo probatorio, non buttate via i sorgenti. Conservateli, indicizzateli, annotate gli hash. E, quando trasformate quei contenuti in PDF destinati a diventare allegati ad una perizia o ad un atto, chiedetevi se non valga la pena di allegare anche i file originari.

Agli studi legali suggerisce un cambio di riflesso: invece di accontentarsi del PDF “come è arrivato”, ha senso chiedere al cliente, o ai consulenti che lo assistono, anche i file di partenza. Un conto è discutere di una immagine sgranata dentro un allegato; un altro è poter aprire il PNG originale ed analizzarne i manifest C2PA.

In fondo la domanda non è “l’AI è entrata nei processi giudiziari”, perché lo ha già fatto. La domanda vera è se la stiamo trattando come un semplice filtro grafico o come un attore che lascia tracce nei file, che possiamo studiare in modo sistematico. Per chi fa il mio mestiere, la differenza fra queste due impostazioni è la differenza fra una consulenza tecnica che si può difendere in controesame ed una che si affloscia alla prima contestazione.

Questo piccolo scenario di laboratorio non è un oracolo, ma un promemoria pratico: le prove digitali non sono solo quello che si vede a schermo, sono anche quello che i file dicono di sé, e quello che smettono di dire quando attraversano certe trasformazioni. Il modo in cui gestiamo oggi i sorgenti AI determinerà quanto saremo credibili domani quando, in aula, proveremo a raccontare come sono nati davvero quei contenuti.

Tag: AI forense Content Credentials PDF e prove digitali

← Torna all’indice del blog