Stories

Curricula, stipendi, progetti: ecco cosa la PA italiana non vuole farci leggere in rete

De-Robots, il progetto per la trasparenza dei siti pubblici presentato al Chaos Computer Congress di Amburgo da un italiano svela l’uso del protocollo “Robots” dei nostri amministratori

Nelle scorse settimane si è tenuto ad Amburgo l’annuale conferenza europea di hacking del Chaos Computer Club (33c3). Molti sono stati i talk di grande interesse come quello tenuto da Karsten Nohl sullo scarso livello di sicurezza dei sistemi che gestiscono le informazioni dei voli nel settore turistico (ve ne parlerò nei prossimi giorni ;-)).

Tra i vari esperti vi era anche Fabio Pietrosanti, uno dei maggiori esperti europei in materia cyber security e privacy, che ha presentato un talk dal titolo “Robots txt abuses by government agencies against transparency
Fabio ha approfondito il livello di trasparenza delle informazioni offerto dai vari governi partendo da un singolare punto di vista, quelli dei motori di ricerca.

web_crawler_google

Come funziona Robots.txt

I motori di ricerca come Google utilizzano applicazioni note come “web crawler” per analizzare tutti i contenuti esposti in rete ed indicizzarli.

I gestori dei siti hanno tuttavia la possibilità di evitare che i contenuti dei loro siti siano indicizzati dai motori di ricerca utilizzando dei file noti come Robots.txt.

Ciascun sito ha un suo file robot.txt in cui sono presenti gli indirizzi di tutti quei contenuti che il gestore del sito non intende che vengano indicizzati dai motori di ricerca.

robots

Figura 1 – Esempio di File Robot.txt

La sintassi utilizzata per l’editing di questi file è semplice, aprendone uno troveremo le seguenti parole chiave:
User-agent: Nome del crawler per il quale valgono le regole che seguono. È possibile usare un carattere jolly ‘*’ per far si che le regole valgano per qualunque crawler.

Disallow: Indirizzo che non si intende indicizzare.
Allow: Indirizzo che si intende indicizzare e che è presente in una sottodirectory di una directory bloccata ai crawler.

Cosa accade se il sito che analizziamo è un sito web di un Governo? Accedendo il file robot.txt potremo prendere visione di quali contenuti il gestore del sito intendere nascondere ai motori di ricerca.

Per molti tutto questo potrebbe apparire come una cosa assurda. Da un lato si pubblicano contenuti su server esposti in rete e dall’altro si cerca di impedirne l’indicizzazione, ma i contenuti sono li, alla portata di tutti. Basta andare a leggere il file robot.txt e vedere quali sono i contenuti che si cerca di nascondere e dove sono
Fabio Pietrosanti ha deciso di analizzare i contenuti che seppur esposti in rete, non sono indicizzati dai motori di ricerca per volontà della PA perché i link relativi sono esplicitamente bloccati attraverso il meccanismo dei robot.txt.

SenzaFiltri, un progetto per la trasparenza amministrativa

Il progetto SenzaFiltri, o De-Robots, si prefigge quindi l’analisi di tutti i contenuti nascosti ai motori di ricerca dalle agenzie governative e di renderli disponibili agli utenti della rete.
Il fine ultimo è quello di aumentare implementare la trasparenza della pubblica amministrazione nei confronti dei propri cittadini.

Fabio Pietrosanti ha mostrato nel corso del suo talk i risultati ottenuti dall’analisi dei robot.txt dei siti web della PA italiana, parliamo di circa 23,000 siti presenti nell’indicePA.

Il processo è estremamente semplice, ma trovo geniale quanto interessante l’attività condotta per il progetto.
Gli esperti hanno utilizzato degli script per estrarre i file robots.txt da questi siti e da essi tutte le linee che riportavano la direttiva “Disallow,” ovvero quei file pubblicati su server della PA che “qualcuno” intenzionalmente o per errore ha deciso di non far visitare ai motori di ricerca.

La ricerca ha prodotto ben 1160 percorsi nascosti ai motori di ricerca e riportati nel seguente file:

[https://docs.google.com/spreadsheets/d/12qXpcpU02j4LKGcx8qcUYmQ6DSRuhypP2Fyp5RVmZZc/edit#gid=804367425]

Ne è emersa una gran mole di documenti: porzioni di interi siti web, atti parlamentari, curricula e stipendi dei manager della PA italiana.

presentazione_pietrosanti

Figura 2 – Screenshot del talk

La Camera dei deputati e gli indirizzi nascosti

Tra gli indirizzi spiccano quelli nascosti sul sito della Camera dei Deputati il cui file robot.txt è reperibile all’indirizzo: http://www.camera.it/robots.txt
Una volta scovati gli indirizzi nascosti renderli pubblici è stato un gioco da ragazzi, i responsabili del progetto hanno registrato un dominio (senzafiltri.org) ed attraverso un meccanismo di reverse proxing hanno reso accessibili i link nascosti con il seguente indirizzo

http://originalsite.senzafiltri.org/PathNascosta

Facendo una rapida ricerca su Google (cercate site:senzafiltri.org) potremo constatare che al momento sono state indicizzati dal popolare motore di ricerca ben 46.000 percorsi nascosti.

Purtroppo mentre vi scrivo il sito del progetto senzafiltri.org non sembra essere raggiungibile.
A questo punto è auspicabile che tutti gli amministratori di siti web istituzionali facciano un verifica del contenuto che è esposto in rete, seppur non indicizzato. Per errore o dimenticanza potrebbero finire in rete documenti contenenti informazioni sensibili.

Vi ricorso che i file robot.txt sono anche creati in modo automatico dai principali CMS con regole di default, è quindi necessario prenderne visione per comprendere cosa si rende disponibile all’indicizzazione.

Il progetto De-Robots dovrebbe proseguire, come spiegato da Pietrosanti durante il talk, l’intento è quello di produrre un software per la pubblicazione dei percorsi nascosti e di implementare un motore di ricerca indipendente per gli attivisti della rete che consenta a chiunque di prendere visione di tutti i documenti nascosti (“lasciatemi dire in modo maldestro”) dai governi locali.

Dimenticavo … vi suggerisco di prendere visione della presentazione fatta da Fabio Pietrosanti ad Amburgo.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *

Cashless, in Europa e Stati Uniti pronti a vivere senza contanti. Ma privacy e sicurezza frenano

Secondo l’ING’s International Survey Mobile Banking 2017 più di 2/3 dei consumatori europei e americani sarebbero pronti al cashless. In Turchia, Italia e Polonia più del 40% ha dichiarato di essere pronto a farlo

Cos’è l’African Summer School, la scuola di startup italo-africane nata a Verona | Intervista

Dal 24 al 30 luglio a Villa Buri la 5^ edizione dell’iniziativa in collaborazione con il Business Incubator for Africa. La testimonianza del Direttore, Fortuna Ekutsu Mambulu. E di Andrea Casale, tra i fondatori di “Serviettes Ingabire” (progetto vincitore dell’edizione 2016)

Il primo viaggio dell’automobile volante del papà di Google

Kitty Hawk è stata sviluppata in Silicon Valley ed è un veicolo completamente elettrico in grado di muoversi per il momento solo sull’acqua per motivi di sicurezza. Presto potrebbe aiutare a superare il problema della congestione del traffico cittadino

Accordo tra Colombini e la startup Sweetguest per arredare le case in affitto

L’azienda di arredamento sceglie il progetto di Rocco Lomazzi ed Edoardo Grattirola che rende l’immobile performante, mette in risalto i punti di forza della casa, si occupa della gestione del check in e anche dei lavori di manutenzione