Il Robots Exclusion Protocol (REP), il protocollo di esclusione robot, è stato per 25 anni uno dei componenti più fondamentali del web.
Consente ai proprietari di siti web, mediante regole inserite nel file robots.txt, di escludere i client automatizzati, ad esempio i web crawler, dall’accedere parzialmente o completamente ai loro siti.
Il Robots Exclusion Protocol è vecchio quasi quanto il web stesso: era il 1994 quando Martijn Koster (egli stesso un webmaster) ha creato lo standard iniziale, dopo che i crawler avevano quasi travolto il suo sito. Con l’input proveniente da altri webmaster, Koster propose il REP, che è stato adottato dai motori di ricerca per aiutare i proprietari di siti web a gestire le risorse dei loro server in modo più facile.
Tuttavia, ha spiegato Google nel suo blog dedicato ai webmaster, il REP non è mai stato trasformato in uno standard Internet ufficiale, proposto e ratificato dall’Internet Engineering Task Force (IETF).
Ciò significa che gli sviluppatori hanno interpretato il protocollo con alcune differenze nel corso degli anni. Inoltre, dalla sua introduzione, il REP non è stato aggiornato per coprire alcuni dei casi del web di oggi. Tali aree di ambiguità di questo standard de-facto rappresentano un problema per i proprietari di siti web, perché rende difficile scrivere correttamente le regole.
Per questo motivo Google ha annunciato un’iniziativa portata avanti insieme all’autore originale del protocollo, ai webmaster e agli altri motori di ricerca: l’azienda ha documentato come il REP viene utilizzato sul web attuale e inviato tale documentazione all’IETF.
Il draft di proposta REP, spiega ancora Google, riflette oltre 20 anni di esperienza sulle regole del robots.txt, utilizzate da Googlebot e da altri importanti crawler, così come da circa mezzo miliardo di siti web che si basano su REP.
Dei controlli granulari conferiscono al publisher il potere di decidere cosa sia sottoposto a scansione sul proprio sito e quindi venga potenzialmente mostrato agli utenti interessati. Google spiega che la proposta non cambia le regole create nel 1994, ma piuttosto definisce essenzialmente tutti gli scenari indefiniti per il parsing e il matching di robots.txt e lo estende per le esigenze del web moderno.
Il draft è in fase RFC, acronimo di Request for Comments: Google ha cioè caricato la bozza su IETF per ottenere feedback dagli sviluppatori, affinché, con la collaborazione della community, si arrivi alla definizione di questo standard che regola uno degli aspetti basilari del web.
In più, Google ha anche rilasciato come open source la libreria C++ che i suoi sistemi di produzione utilizzano per il parsing e il matching delle regole nei file robots.txt. Questa libreria, ha illustrato l’azienda, esiste da 20 anni e contiene pezzi di codice scritti negli anni ’90. Da allora, la libreria si è evoluta nel corso degli anni. Nel pacchetto open source l’azienda ha anche inserito un tool di test, che aiuta gli sviluppatori a provare alcune regole.
A questo link è possibile accedere al repository GitHub del parser di robots.txt.