I motori di ricerca fra semantica e Web 2.0

Tiscali sviluppa un motore semantico. Ask.com punta sul team di ricerca della sede di Pisa. Scopriamo la via italiana ai search engine

settembre 2006 “Nel futuro magari attaccheremo una piccola versione
di Google direttamente al cervello. Sarà disponibile in vari stili e
versioni e avremo accesso immediato a tutta la conoscenza del mondo”.
Questa “seducente” prospettiva, profetizzata da Sergey Brin, cofondatore
assieme a Larry Page del motore di ricerca più famoso al mondo, potrebbe
forse essere la soluzione al senso di frustrazione che spesso da navigatori
del Web si prova ogni qual volta il risultato di una ricerca non centra il bersaglio…cosa
che non capita poi così di rado.

Facciamo un esempio. Provate a digitare la parola apache
su Google: i primi dieci risultati hanno solo a che vedere con il Web server
open source. Ma la parola apache può essere anche riferita alla tribù
di indiani d’America o al terribile elicottero da guerra, sfumature semantiche
che la classica ricerca per parole chiave, che considera i documenti da filtrare
mere stringhe di caratteri, non rileva, visto che opera in maniera troppo poco
selettiva.

Nel frattempo la mole di dati digitali disponibili on line cresce vertiginosamente
e la necessità di gestire la quantità di informazioni con metodi
efficienti e rapidi è diventata impellente : secondo uno studio accreditato,
il numero di pagine attualmente indicizzabili è di circa 14 milardi.
Di queste, i quattro motori di ricerca più diffusi, vale a dire Google,
MSN, Yahoo e Ask.com riescono ad indicizzarne solo il 30%. I margini di miglioramento,
quindi, sia sul fronte della quantità delle informazioni reperite, sia
su quello della qualità delle risposte, potrebbero essere significativi.

Per fare il punto della situazione e, più in generale, per confrontarsi
sul futuro dei motori di ricerca, si è tenuto lo scorso giugno un seminario
a Pula, in Sardegna presso il Parco Scientifico e Tecnologico Polaris: il workshop,
denominato DART 2006 (Distributed Agent-based Retrivial Tools), organizzato
da Tiscali in collaborazione con il CRS4 e l’Università di Cagliari
(Dipartimento di Ingegneria elettrica ed elettronica – DIEE), ha riunito i principali
player del mercato, quali Google, Yahoo e Ask, nonché i rappresentanti
del mondo accademico italiano e internazionale e ha fatto emergere diverse iniziative
interessanti.

Quaero, un eurofiasco
Una di queste è stata presentata da Pieter Van Der Linden, responsabile
dello sviluppo del progetto Quaero, l’attesissimo motore di ricerca europeo,
risposta del Vecchio Continente allo strapotere dei colossi mondiali della ricerca
sul Web. L’anti Google europeo, nato dalla collaborazione tra società
come Exalead, France Telecom, Thomson e il Gruppo Bertelsmann, nonché
finanziato dal governo francese, ha approfittato della splendida ribalta mediterranea
per fare la sua prima uscita ufficiale, dimostrandosi però piuttosto
deludente.

Il progetto appare a oggi ancora troppo fumoso, privo di una strategia precisa,
e dai tempi di realizzazione, cinque anni nelle parole di Van Der Linden, davvero
spropositati per un settore che si muove velocissimo. In tutto questo si è
anche venuti a sapere che il progetto “è bloccato per motivi
amministrativi
”. Quindi, incassata la bocciatura degli esperti di
quello che era stato definito dalla stampa internazionale l’euromotore
“Google killer”, si è passati ad un altro progetto, questa
volta italiano, nato dalla collaborazione tra Tiscali, il CRS4, e il
DIEE dell’Università di Cagliari
.

Si tratta di un progetto congiunto che ha l’obiettivo di
offrire agli utenti strumenti innovativi mediante i quali poter reperire ogni
tipologia di contenuto in rete e fruirne agevolmente in un contesto personalizzato

afferma Domenico Dato, responsabile ricerca e sviluppo di Tiscali
e coordinatore del progetto. “Partiamo da un motore di ricerca semantico,
quindi che sfrutta non il tradizionale sistema di “query” ma elementi
di semantica. Sarà in grado, cioè, di capire le parole ricercate
dagli utenti che potranno consultarlo ponendo domande in linguaggio naturale
”.

Quattro saranno le principali linee d’azione che perseguiremo
prosegue Dato “e il motore semantico sarà solo una di queste.
Creeremo un sistema ad architettura distribuita, dove ogni utente potrà
contribuire mettendo a disposizione una piccola porzione della CPU del proprio
computer, in modo da rendere il sistema più veloce ed efficace. Punteremo
molto sulla personalizzazione nella distribuzione dei contenuti, che dovranno
essere forniti in base alla posizione geografica, al profilo e alle preferenze
dell’utente. Ed infine daremo molta rilevanza alle ricerche di contenuti
multimediali
”.

Quando si parla di Web semantico, si intende un Web che possieda
delle strutture di collegamenti più espressive di quelle attuali. Coniato
per la prima volta nel 2001 da Tim Berners Lee, notoriamente uno dei padri del
World Wide Web, il web semantico implica l’utilizzo di “agenti intelligenti”
in grado di comprendere il significato dei testi presenti sulla rete e quindi
capaci di guidare l’utente verso l’informazione ricercata, oppure
di sostituirsi a lui nello svolgimento di alcune operazioni.

Semplice concettualmente, ma non altrettanto da realizzare nella pratica.
Il problema più grosso da affrontare è la potenza
di calcolo
” afferma Domenico Dato “che però sta
costantemente aumentando. Ecco quindi che la nostra soluzione di sistema distribuito
potrà attingere la potenza anche dalle CPU dei diversi utenti
”.

Ma non tutti sono della stessa opinione. Antonio Gulli, direttore
Advanced Search Products di Ask.com
infatti è scettico. “Di
Web semantico se ne parla da tanto, ma fino ad oggi non abbiamo ancora visto
nulla di funzionante. I miliardi di pagine attualmente indicizzate non hanno
alcuna informazione catalogata in modo semantico e il lavoro da fare ancora
è immenso
”. Ask.com, quindi propende più per una soluzione
“alla Web 2.0” afferma Gulli, e cioè, sintetizzando al massimo,
verso un Web dei servizi. La “fase 2” della vita della Rete la vedrebbe
così trasformarsi da sterminata raccolta di risorse a piattaforma per
far girare applicazioni, in una dimensione più aperta alla partecipazione
degli utenti, visti non più come semplici clienti, ma anche partner e
collaboratori.

In questo contesto si inserisce la strategia di Ask.com, che da notare, ha
aperto il suo centro Ricerca e Sviluppo in Italia, a Pisa. La società
americana sta investendo non poco su differenziazione e personalizzazione delle
ricerche e ha lanciato lo scorso marzo la versione beta del popolare motore
(www.ask.com).

Basato su algoritmo proprietario (ExpertRank), il motore
è in grado di classificare i risultati non solo in base alla popolarità
del link ma anche in base all’autorevolezza delle comunità tematiche
che si occupano degli specifici argomenti ricercati dall’utente. “ExpertRank
afferma Gulli “lavora sulla segmentazione del Web in comunità
di siti basati su specifici argomenti, e dà la precedenza a tutti quei
siti che vengono riconosciuti come autorità nella specifica materia
”.
Il metodo, così concepito, spesso procura risultati migliori dei ritorni
massicci ma indifferenziati di Google.

Nella stessa strategia “social web” si inserisce quindi il rilascio
dello scorso giugno del nuovo motore di ricerca per Blog e Feed, che va ad unirsi
a quelli già disponibili per immagini (Ask Immagini) e mappe (Ask Mappe).
Un motore di ricerca attualmente ancora di nicchia, ma in crescita e molto affidabile,
tanto che Searchenginewatch.com, la Bibbia del settore, lo paragona a ciò
che è Apple, con la sua ridotta ma fidatissima folla di seguaci, nei
confronti del gigante Microsoft.

E visto che ci siamo, vediamo cosa sta succedendo in casa Redmond. Lo scorso
novembre è stato lanciato Windows Live, sotto il segno,
anche qui, della piattaforma multiservizio per gli utenti,che si affianca all’inossidabile
MSN. Chiediamo la differenza tra i due strumenti. “Se possiamo utilizzare
una metafora giornalistica
” afferma Stefano Maruzzi, Strategy
Director MSN Media Network International
MSN propone un
percorso di lettura programmato da altri, simile ad un quotidiano, mentre Windows
Live è la vista dell’utente sul mondo, la sua rassegna stampa
”.
Da novembre, data in cui è stato presentato” prosegue
Maruzzi, il prodotto è cambiato.

Alla sua nascita doveva seguire il “modello Google”, ma nel tempo
l’idea è evoluta. Oggi per noi è il modo più appropriato
per presentare un servizio: una finestrella di “search” vuota che
può essere arricchita trasferendo contenuti dalle fonti più disparate,
personalizzabile secondo i gusti e le esigenze dell’utente, che nella
nostra visione ha familiarità con la rete e sa bene cosa gli serve”.

Una serie di servizi Internet, quindi, personali e di software, ideati per
riunire in un unico luogo tutte le relazioni (ad esempio con Live Messenger
e Live Mail), le informazioni, le immagini e gli interessi che più contano
per il singolo utente.

Stessa visione stile “Web 2.0” si ritrova in Yahoo, che ha deciso
di usare la “ricerca sociale” per risolvere le richieste sempre
più soggettive. Evitare la genericità a favore di contenuti originali
ed eclettici, quindi, come avviene con MyWeb, engine del gruppo che, come afferma
Massimo Martini, Country Manager italiano, “applica
la linea che in Yahoo definiamo better search through people. Lo strumento,
infatti, permette di accedere non solo ai propri risultati di ricerca ma anche
a quelli della community di riferimento, con cui si decide di condividere la
propria lista di siti Web
”.

Stessa filosofia sta dietro l’acquisizione da parte di Yahoo di Flickr
(www.flickr.com) il servizio on line diventato in breve tempo il punto di riferimento
di più di un milione di utenti di tutto il mondo per la condivisione
di fotografie (oltre 37 milioni).
Insomma, la battaglia tra i motori e le rispettive filosofie è ancora
aperta e in campo le forze sono davvero agguerrire. Il primo della classe dovrà
riuscire a mantenere la posizione.

LASCIA UN COMMENTO

Inserisci il tuo commento
Inserisci il tuo nome