testata tauro

Introduzione

TauRo è software innovativo, modulare e sofisticato che consente la memorizzazione compressa, e l'analisi/ricerca efficiente di pattern arbitrari in grandi collezioni di documenti XML.
Il nome TauRo nasce dall'acronimo di Text Retrieval componendo il nome delle corrispondenti lettere dell'alfabeto greco: Tau e Ro: il nucleo del sistema è infatti un motore di ricerca per documenti XML.

TauRo-core

Prima di descrivere nel dettaglio le caratteristiche di TauRo-core riteniamo importante fare un po' di cronistoria: i primi esperimenti nell’ambito dell’analisi testuale informatizzata che si sono svolti al CRIBeCu (attualmente Signum), avevano portato alla definizione di alcuni algoritmi per l’Information Retrieval confluiti nella realizzazione di un motore di ricerca, denominato TReSy, che risultava sufficientemente efficiente ed efficace da gestire i problemi tipici dell'analisi testuale. TReSy è stato applicato con successo a varie collezioni di testi marcati con XML-TEI3, quali per esempio Le Vite vasariane e il più complesso Vocabolario della Crusca in edizione elettronica.
L'evoluzione della tecnologia e l'esperienza pregressa ci hanno permesso di giungere a TauRo-core.
Le innovazioni che TauRo-core presenta rispetto allo stato dell'arte riguardano le specifiche funzionalità di analisi lessicografica sulla parte testuale dei documenti, la gestione degli smart tag, e soprattutto la definizione di un linguaggio di interrogazione proprietario espresso in termini di sintassi XML. Per comprendere la nozione di smart-tag mostreremo degli esempi.
Iniziamo con un esempio in cui si verifica un cambio di contesto rispetto al piano testuale principale:

[ ... ] La mia edizione è di Venezia con annotazioni di Arnoldo
<note>Arnaldo da Villanova.</note> medico di Como accresciute
da Giovanni Curione
[ ... ]

Supponiamo che allo studioso interessi trovare la frase "Arnoldo medico di Como" nella fonte intervallata dalla nota. Un motore di ricerca tradizionale non restituirebbe alcun risultato, perché prenderebbe in considerazione unicamente la parte testuale nella sua sequenza di parole adiacenti; le porzioni "Arnoldo" e "medico di Como" non risultano infatti contigue poiché sono separate dal contenuto del tag . La nota, peraltro, non fa parte del testo vero e proprio, ma, oltreché collocata spazialmente altrove, afferisce a un piano semantico diverso; le parti della frase in oggetto, dunque, sono a tutti gli effetti contigue e lo studioso, che non è tenuto a conoscere le modalità di codifica del testo, si aspetterebbe giustamente di recuperare quella occorrenza.

Il secondo esempio illustra i problemi che la marcatura di una lettera maiuscola può far emergere durante una ricerca:

[ ... ] Per <c>E</c>ndimione biso<lb />gna [ ... ]

La "E" di "Endimione" è marcata come maiuscola significativa perché iniziale di un nome proprio: una ricerca eseguita con un motore tradizionale non troverebbe però la parola "Endimione" perché,
come si è già visto, questa risulterebbe divisa in più parti dal tag <c>. Lo stesso si può dire per la parola "bisogna" divisa dal tag puntuale <lb/> che indica la fine di una linea.

Quindi, vista la crescente esigenza da parte degli umanisti di strumenti che agevolino l'analisi dei testi, la ricerca informatica si sta impegnando nello sviluppo di motori di ricerca dalle caratteristiche sempre più sofisticate ed evolute. [...per saperne di più]

TauRo: il sito

Da qui l'idea di realizzare un sistema in grado di sfruttare la versatilità e la potenza di TauRo nell'ambito dell'indicizzazione e della ricerca di grandi collezioni documentali XML quali biblioteche digitali, ma non solo.
L'intento che ci siamo proposti è quello di contribuire fattivamente realizzando questo sito attraverso il quale dare la possibilità di condividere documenti XML e creare la propria biblioteca digitale.
Noi vorremmo fornire un modo semplice per ricercare documenti XML attraverso TauRo, il motore appositamente studiato e vorremmo realizzare la prima biblioteca digitale "fai da te".
Tutti gli utenti che abbiano dei documenti in formato XML possono realizzare la propria collezione digitale.
Particolare attenzione è stata posta alla realizazione delle funzionalità di ricerca, volte a sfruttare le potenzialità del motore TauRo. È possibile effettuare ricerche attraverso le espressioni regolari; ricerche di parole che differiscono dalla parola specificata per un numero fissato di discordanze: elisioni, aggiunte e variazioni di caratteri; ricerche di parole per prefisso, suffisso e infisso.[...per saperne di più]