Introduzione
TauRo è software innovativo, modulare e sofisticato che
consente la memorizzazione compressa, e l'analisi/ricerca efficiente di pattern arbitrari
in grandi collezioni di documenti XML.
Il nome TauRo nasce dall'acronimo di Text Retrieval componendo il nome delle corrispondenti lettere dell'alfabeto greco:
Tau e
Ro: il nucleo del sistema è infatti un motore di ricerca per documenti XML.
TauRo-core
Prima di descrivere nel dettaglio le caratteristiche di
TauRo-core
riteniamo importante fare un po' di cronistoria: i primi esperimenti nell’ambito dell’analisi testuale
informatizzata che si sono svolti al CRIBeCu (attualmente
Signum),
avevano portato alla definizione di alcuni algoritmi per l’Information Retrieval confluiti nella realizzazione
di un motore di ricerca, denominato TReSy, che risultava sufficientemente efficiente ed efficace da
gestire i problemi tipici dell'analisi testuale. TReSy è stato applicato con successo a varie collezioni
di testi marcati con XML-TEI3, quali per esempio Le Vite vasariane e il più complesso Vocabolario della Crusca
in edizione elettronica.
L'evoluzione della tecnologia e l'esperienza pregressa ci hanno permesso di giungere a
TauRo-core.
Le innovazioni che
TauRo-core presenta rispetto allo stato dell'arte riguardano le specifiche
funzionalità di analisi lessicografica sulla parte testuale dei documenti, la gestione degli
smart tag, e
soprattutto la definizione di un linguaggio di interrogazione proprietario espresso in termini di sintassi XML.
Per comprendere la nozione di smart-tag mostreremo degli esempi.
Iniziamo
con un esempio in cui si verifica un cambio di contesto rispetto al piano testuale
principale:
[ ... ]
La mia edizione è di Venezia con annotazioni di Arnoldo
<note>Arnaldo da Villanova.</note>
medico di Como accresciute
da Giovanni Curione [ ... ]
Supponiamo che allo studioso interessi trovare la frase "Arnoldo medico di Como"
nella fonte intervallata dalla nota. Un motore di ricerca tradizionale non restituirebbe
alcun risultato, perché prenderebbe in considerazione unicamente la parte testuale
nella sua sequenza di parole adiacenti; le porzioni "Arnoldo" e "medico di Como" non
risultano infatti contigue poiché sono separate dal contenuto del tag
. La nota,
peraltro, non fa parte del testo vero e proprio, ma, oltreché collocata spazialmente
altrove, afferisce a un piano semantico diverso; le parti della frase in oggetto, dunque,
sono a tutti gli effetti contigue e lo studioso, che non è tenuto a conoscere le modalità
di codifica del testo, si aspetterebbe giustamente di recuperare quella occorrenza.
Il secondo esempio illustra i problemi che la marcatura di una lettera maiuscola può
far emergere durante una ricerca:
[ ... ] Per <c>E</c>ndimione biso<lb />gna [ ... ]
La "E" di "Endimione" è marcata come maiuscola significativa perché iniziale di un nome
proprio: una ricerca eseguita con un motore tradizionale non troverebbe però la parola
"Endimione" perché,
come si è già visto, questa risulterebbe divisa in più parti dal tag
<c>. Lo stesso si può dire per la parola "bisogna" divisa dal tag puntuale <lb/> che
indica la fine di una linea.
Quindi, vista la crescente esigenza da parte degli umanisti di strumenti che agevolino l'analisi
dei testi, la ricerca informatica si sta impegnando nello sviluppo di motori di ricerca
dalle caratteristiche sempre più sofisticate ed evolute. [...per saperne di più]
TauRo: il sito
Da qui l'idea di realizzare un sistema in grado di sfruttare la versatilità e la potenza di
TauRo nell'ambito dell'indicizzazione e della ricerca di grandi collezioni documentali XML quali biblioteche digitali, ma non solo.
L'intento che ci siamo proposti è quello di contribuire fattivamente realizzando
questo sito attraverso il quale dare la possibilità di condividere documenti XML e creare la propria biblioteca digitale.
Noi vorremmo fornire un modo semplice per ricercare documenti XML attraverso TauRo, il motore appositamente studiato e vorremmo realizzare
la prima biblioteca digitale "fai da te".
Tutti gli utenti che abbiano dei documenti in formato XML possono realizzare la propria collezione
digitale.
Particolare attenzione è stata posta alla realizazione delle funzionalità di ricerca, volte a sfruttare le
potenzialità del motore TauRo.
È possibile effettuare ricerche attraverso le espressioni regolari; ricerche di parole che differiscono dalla parola specificata per
un numero fissato di discordanze: elisioni, aggiunte e variazioni di caratteri; ricerche di parole per prefisso, suffisso e infisso.[...per saperne di più]