corpora
che cos'è ?
Un corpus è una raccolta di testi del linguaggio parlato o scritto selezionati e organizzati per facilitare le analisi linguistiche. Il termine è noto fin dai tempi più antichi. I corpora possono essere creati su carta oppure oralmente, ma oggi si è molto diffuso l'uso dei corpora in formato elettronico attraverso l'utilizzo del computer.
L'area linguistica in cui vengono usati i corpora è anche nota come Linguistica dei corpora. Altre aree menzionabili in cui i corpora sono utilizzati sono: Linguistica storica e comparativa (Italia), Comparative grammar (Stati Uniti), Comparative philology (Regno Unito).
La linguistica dei corpora è una disciplina scientifica matura con cinquant'anni di ricerca scientifica nazionale e internazionale alle spalle. Questa disciplina si serve di strumenti di analisi quantitativa e statistica, esplora le regolarità linguistiche che emergono dai testi e che costituiscono la base per la descrizione della struttura del linguaggio. L'obiettivo principale è quello di sviluppare modelli del funzionamento del linguaggio umano che possono essere tradotti in programmi eseguibili dal calcolatore e che gli consentono di acquisire le competenze necessarie per comunicare direttamente nella nostra lingua. Si tratta di un ambito di ricerca e di lavoro tipicamente interdisciplinare. Infatti, da un lato si intreccia con l'informatica e con l'ingegneria, per qualificare le attività rivolte allo sviluppo di applicazioni informatiche basate sulle tecnologie del linguaggio, mentre dall'altro lato essa dialoga, appunto, con la linguistica, le scienze cognitive, la psicologia, la filosofia e le scienze umane in generale, con le quali condivide l'obiettivo di indagare la struttura, il funzionamento e l'uso del linguaggio e il suo rapporto con le altre facoltà cognitive dell'uomo.
breve storia
Alla sua nascita, nella seconda metà del Novecento, i primi risultati riguardano lo sviluppo di programmi per lo spoglio elettronico dei testi, il calcolo della frequenza delle parole, la compilazione di indici e concordanze (ossia la lista delle occorrenze di una parola presente in un contesto linguistico) e la creazione di ripetitori lessicali elettronici, conosciuti anche come dizionari elettronici. In seguito, negli anni '50, nasce uno dei primi corpus di circa 10 milioni di parole, una cifra enorme per le capacità dei computer del tempo, ad opera di Roberto Busa S. J. Nello stesso periodo, parallelamente al diffondersi della grammatica generativa, in area anglosassone ha continuato a svilupparsi una tradizione di ricerca linguistica che fonda l'indagine linguistica sulla raccolta e l'analisi di corpora. Nel 1964, alla Brown University negli Stati Uniti, Henry Kucera e W. Nelson Francis realizzano il primo corpus elettronico progettato e costruito per lo studio di una particolare varietà linguistica contemporanea, nel caso specifico l'inglese americano degli anni sessanta: il Brown Corpus, lungo circa 1 milione di parole. La dimensione dei corpora è andata sempre più crescendo e la loro disponibilità è diventata una variabile fondamentale in ogni fase di sviluppo e di valutazione degli strumenti per il TAL (Trattamento Automatico del Linguaggio Naturale).
L'entrata sulla scena di Internet ha reso necessario lo sviluppo di tecnologie linguistiche in grado di confrontarsi con testi reali e non più con testi da laboratorio. La crescente disponibilità di corpora testuali ha facilitato l'innovazione metodologica in linguistica dei corpora, fornendo i dati linguistici necessari per un uso intensivo dei metodi statistici. Tale processo è stato poi migliorato, grazie ai linguaggi standard di marcatura del testo come XML, il processo di creazione, uso e interscambio dei corpora. Oggi il computer permette di immagazzinare quantità di dati testuali prima inimmaginabili e di interrogare in maniera avanzata il contenuto del corpus. Al tempo stesso ha reso possibile l'annotazione linguistica del testo su ampia scala, permettendo di rappresentare in maniera esplicita e dettagliata la struttura e l'organizzazione linguistica del testo stesso e per una riflessione rigorosa sulla natura dei dati annotati e sui modelli interpretativi più adatti per darne conto.
criteri di classificazione
Corpora sono disponibili in diverse forme e dimensioni, perché sono costruiti per scopi diversi. Ci sono due filosofie dietro il loro design, che porta alla distinzione tra i corpora di riferimento e i corpora di monitoraggio. I corpora di riferimento hanno una dimensione fissa, cioè, non sono espandibili, mentre i corpora di monitoraggio sono espandibili, cioè, i testi vengono continuamente aggiunti. Un altra distinzione è se un corpus contiene testi interi, o semplicemente campioni di una lunghezza specificata. L'ultima opzione consente una maggiore varietà di testi da inserire in un corpus di una certa dimensione.
Infatti, la dimensione del corpus è determinata dal numero di parole contenute nel corpus stesso, per quanto riguarda i corpora di lingua scritta, e dal numero di ore di registrazione, per quanto riguarda i corpora di lingua parlata. È possibile distinguere corpus chiusi e corpus aperti. Il primo rappresenta il corpus standard tradizionale, in cui la quantità dei testi e delle parole è prefissata all'inizio del progetto. I corpora chiusi ci restituiscono la fotografia di una lingua attraverso i testi selezionati, ma non sono adatti a seguire i mutamenti e le evoluzioni che in una lingua avvengono come conseguenza della sua natura intrinsecamente dinamica. Fu John Sinclair a proporre la soluzione per superare questo limite, estendendo la nozione tradizionale di corpus in uno strumento di monitoraggio linguistico. Un corpus di monitoraggio (monitor corpus) è una collezione aperta di testi che muta nel tempo, introducendo nuovi testi selezionati secondo gli stessi criteri usati per determinare la collezione iniziale. Questo tipo di corpus permette per esempio di monitorare le dinamiche del lessico della lingua e dunque può essere usato in contesti lessicografici come fonte di dati per mantenere aggiornati i dizionari.
Il grado di generalità di un corpus dipende quindi dalla misura in cui i suoi testi sono stati selezionati rispetto a varietà diverse di una lingua. I corpora specialistici orientati alla descrizione di una particolare varietà linguistica o ad un ristretto dominio applicativo hanno un grado minimo di generalità (ad esempio il linguaggio giuridico, infantile, giornalistico, medico). I testi dei corpora generali appartengono a diverse varietà linguistiche e sono selezionati per comporre il quadro descrittivo della lingua nel suo complesso. Si tratta, quindi, di corpora plurifunzionali che sono spesso progettati come risorse traversali di riferimento per lo studio di una lingua, ad esempio come fonte di dati per sviluppare un dizionario. Spesso i corpora generali sono articolati in vari sottocorpora, ovvero in sottoinsiemi di testi che appartengono ad una particolare varietà.
L'evoluzione dei corpora segue un percorso molto ripido in fatto di crescita: i corpora di prima generazione (anni '60 e '70) contenevano milioni di parole, poi decine di milioni di parole, negli anni '80 e '90, centinaia di milioni di parole nei corpora creati dopo il 2000 fino ai corpora di ultima generazione che contano miliardi di parole.
I corpora possono derivare dalla lingua scritta o dalla lingua parlata. Esempi di corpora di lingua scritta sono i libri, i giornali, le riviste e le pagine web. Le conversazioni telefoniche o faccia a faccia, invece, rappresentano corpus di lingua parlata.
La grande diversità che caratterizza a tutti i livelli la lingua scritta e quella parlata rende la modalità (scritta e orale) di produzione dei testi un parametro estremamente rilevante per definire la fisionomia del corpus e anche deciderne gli usi più opportuni. Rispetto a questa dimensione possiamo suddividere i corpora in tre tipologie: corpora di lingua scritta, corpora di lingua parlata, corpora misti.
I corpora di lingua scritta contengono solo testi prodotti originariamente in forma scritta, come libri o articoli di giornale.
I corpora di lingua parlata contengono solo testi originariamente prodotti in modalità orale e successivamente trascritti, come conversazioni spontanee, trasmissioni radiofoniche. Questi si distinguono i corpora audio, ovvero i campioni di linguaggio parlato in forma di segnale acustico, eventualmente accompagnati dalla loro trascrizione. Questi stanno acquistando sempre più importanza come strumenti per lo sviluppo di applicazioni per il riconoscimento o la sintesi automatica vocale, in cui è necessario accedere a dati acustici. Ultimo arrivato è il corpus multimediale (o corpus audio-visivo), che contiene le registrazioni audio-video di scambi comunicativi. Queste consentono di acquisire dati importanti non solo sulla struttura linguistica, ma anche sugli aspetti gestuali, facciali, emozionali e ambientali della comunicazione. I corpora misti contengono in proporzioni variabili sia testi prodotti in modalità scritta sia trascrizioni di lingua parlata.
I corpora differiscono anche per l'aspetto cronologico che distingue tra corpora sincronici e corpora diacronici. I corpora sincronici includono testi che appartengono a una stessa finestra temporale, selezionata per lo studio di una particolare fase della lingua. I corpora diacronici comprendono, invece, testi appartenenti a periodi diversi, con lo scopo di descrivere il mutamento linguistico.
In base alla lingua si distinguono in corpora monolingui e corpora bilingui o multilingui, che possono essere ulteriormente distinti in corpora paralleli e corpora comparabili. I corpora monolingui contengono testi di una sola lingua. I corpora bilingui o multilingui contengono testi di due o più lingue. In termini di contenuto, corpora può essere generale, cioè di riflettere una specifica lingua o varietà in tutti i suoi contesti d'uso, o specializzati, cioè, hanno lo scopo di concentrarsi su contesti e utenti specifici, e possono contenere linguaggio scritto o parlato. I corpora possono anche rappresentare le diverse varietà di una lingua unica. Infine, corpora può essere monolingue (contengono cioé campioni di una sola lingua), o multilingue e Corpora multilingue sono di due tipi: possono contenere gli stessi tipi di testo in diverse lingue, oppure possono contenere gli stessi testi tradotti in diverse lingue, nel qual caso sono anche noti come corpora paralleli.
I corpora paralleli comprendono testi sia nella loro lingua originaria sia in traduzione in un'altra lingua. Se le unità linguistiche dei testi nella loro lingua originaria sono esplicitamente collegate alle unità linguistiche nei testi in traduzione in un'altra lingua che ne costituiscono le traduzioni, si parla di corpora paralleli allineati: l'unità tipica di allineamento è la frase. I corpora comparabili non contengono, invece, testi in traduzione, ma testi originali in lingue diverse. Questi corpora permettono di confrontare due o più lingue rispetto allo stesso genere testuale o dominio tematico; dal momento che i testi sono tutti originali, i dati raccolti possiedono un maggiore grado di naturalezza, evitando le artificiosità che talvolta conseguono dall'opera di traduzione.
Quando invece si parla dell'integrità dei corpora si fa riferimento al fatto che i corpora possono contenere testi interi oppure porzioni di testi di lunghezza prefissata.
Un ulteriore elemento di differenziazione tra corpora è il modo in cui sono rappresentati i testi digitali. Nei corpora codificati ad alto livello i testi sono arricchiti con etichette (codici) che rendono espliciti vari tipi di informazione, come ad esempio la struttura testuale e la composizione. Tipi particolari di corpora codificati sono i corpora annotati, nei quali le informazioni codificate riguardano la struttura linguistica del testo a livelli diversi di rappresentazione.
Nella linguistica dei corpora il bilanciamento è assunto come condizione essenziale per garantire la rappresentatività di un corpus che voglia essere plurifunzionale e traversale rispetto alle diverse varietà di una lingua. Il bilanciamento presuppone la creazione di una descrizione accurata della popolazione linguistica di riferimento: è necessario dunque definire una mappa della lingua tracciando i confini spaziali e temporali (quali testi sono inclusi o esclusi dalla popolazione) e la tipologia dei testi (l'articolazione in strati della popolazione). Un bilanciamento corretto richiede una quantità consistente di testi selezionati per le diverse tipologie individuate nella popolazione. Se la selezione dei testi di un corpus è fatta bene, esso è ben bilanciato e quindi può essere rappresentativo.
È rappresentativo un corpus che tiene traccia dell'intero ambito di variabilità dei tratti e delle proprietà di una lingua. Ciò significa che un corpus deve fornire un modello delle proprietà linguistiche del linguaggio analizzato, ovvero deve essere in grado di restituire un quadro delle varietà e delle tendenze linguistiche nel modo più accurato possibile, rispettandone le proporzioni e permettendo, in questo modo, di generalizzare le proprietà linguistiche del corpus all'intera popolazione[7]. Tuttavia non si può dimostrare che un corpus sia veramente rappresentativo di una determinata sezione del linguaggio e di conseguenza le informazioni ricavate dall'analisi di un corpus devono essere considerate al massimo delle ragionevoli assunzioni.
Per creare un corpus utile è necessario, in primo luogo, i testi che il corpus deve contenere vengano selezionati e conservati in formato elettronico. Testi scritti, se non sono già in forma elettronica dovranno essere scansionati, testi parlati devono essere registrati e trascritti. Il risultato di questa fase è un corpus di base. Anche in questa forma può fornire alcune informazioni circa l'uso della lingua i delle linguee, ma la sua utilità è limitata. L'utilità e la flessibilità di un corpus può essere aumentata con l'aggiunta di codice che un computer è in grado di riconoscere. Le etichette (tags) sono assegnate alle parole, frasi, paragrafi, sezioni, o interi testi nel corpus. Le informazioni relative alle proprietà non linguistiche dei testi sono identificate come mark-up. Il mark-up può dare informazioni sulla fonte del testo (libro, giornale), la data di pubblicazione o trasmissione, l'autore o partecipanti, o parti di testo (introduzione, conclusione). Informazioni relative alle proprietà linguistica dei testi nel corpus si chiama annotazione. La maggior parte dei corpora sono annotati per la parte del discorso e la forma delle parole ( teso singolare / plurale, presente / passato). Questo tipo di annotazione è anche chiamato annotazioni grammaticali, o tagging. I corpora possono anche essere commentati per senso lessicale (aspettative) e la funzione pragmatica (richiesta, invito). Il tipo di mark-up o annotazione aggiunto a un corpus è determinato dalle informazioni da estrarre.
I corpus sono largamente utilizzati nell'insegnamento delle lingue in diversi modi, contribuisce alla creazione di un linguaggio descrittivo più accurato aiutando la compilazione di grammatiche e dizionari pedagogici, aiuta la comprensione dei processi di apprendimento delle lingue, facilita lo sviluppo di materiali pedagogici più efficaci.
Sono numerosi ormai i siti delle università o di altri enti o di singoli linguisti o appassionati della ricerca linguistica che mettono a disposizione i corpora che hanno creato.
Di seguito una breve selezione che potete consultare (alcune richiedono l'iscrizione o una domanda di accesso)


Corpora di lingua parlata
API
API/AVIP/IPAR è un progetto di raccolta di materiale fonico spontaneo di lingua italiana, cui hanno partecipato il laboratorio di linguistica della Scuola Normale di Pisa, il CIRASS e l’Orientale di Napoli, il Politecnico di Bari e l’Università del Piemonte Orientale. Il corpus è composto da circa 14 ore di parlato (di cui circa 3,5 trascritte ortograficamente e un'ora e un quarto trascritta foneticamente). Il corpus è stato sottoposto a etichettatura fonetica e prosodica per fini linguistici e applicazioni tecnologiche. Il progetto è conforme alle specifiche di codifica e annotazione di eagles . Il materiale del corpus è costituito principalmente da dialoghi semi-spontanei di tipo map-task e lettura di liste di parole raccolti in Toscana, Campania e Puglia. I software utilizzati per l'etichettatura e la consultazione sono SegWin e SegView. Avip è il primo progetto di una certa ampiezza di corpus di parlato in lingua italiana. Il materiale (files e software) è disponibile su 5 cd-rom, distribuiti dal cirass e via ftp sempre dal sito del CIRASS.
CIT
Il Corpus di Italiano Televisivo è una raccolta di testi trascritti in formato elettronico da trasmissioni televisive selezionate (sono state escluse le fiction, i film, i telefilm, gli sceneggiati, le telenovelas, ecc.), mirata all'analisi delle caratteristiche lessicali e grammaticali dell'italiano trasmesso in televisione. Composto da 250.000 parole e successivamente programmato un ampliamento del corpus a 500.000 parole, per una maggiore omogeneità con altri corpora italiani di lingua scritta (LIF) e parlata (LIP). I testi prescelti sono tratti da trasmissioni originali non di fiction, tratte da diverse categorie di attualità, intrattenimento, pubblicità, sport e telegiornali. Il Cit è annotato secondo gli standard della Text Encoding Initiative (TEI). Il progetto ha avuto inizio nell'agosto 1998 e si propone di affiancare gli altri corpora elettronici dell'italiano che sono stati creati, specialmente in questi ultimi anni, per permettere di effettuare analisi linguistiche dell'italiano contemporaneo fondate su dati quantitativi strutturati e affidabili.
CLIPS
Corpora Linguistici per l'Italiano Parlato e Scritto (CLIPS), diretto da Federico Albano Leoni dell'Università "Federico II" di Napoli, è il più esteso corpus italiano per la sezione sul parlato (raccolto tra il 2000 e il 2003). Il corpus raccoglie circa 100 ore di parlato in diverse varietà, registrate in 15 località diverse. Una parte del corpus è trascritta, e della parte trascritta circa un terzo è anche etichettata dal punto di vista fonetico e fonologico. Al momento il corpus non è ancora stato pubblicato, ma sarà reso disponibile in forma annotata e non, insieme a un pacchetto di applicazioni per l'elaborazione e l'interrogazione. Rrappresenta il corpus audio dell'italiano parlato di varie tipologie (dialogico, letto, parlato televisivo, conversazioni telefoniche e corpora speciali), bilanciato dal punto di vista diafasico e diatopico. È il secondo degli otto progetti del Cluster C18 "LINGUISTICA COMPUTAZIONALE: RICERCHE MONOLINGUI E MULTILINGUI", finanziato dal Ministero dell'Istruzione, dell'Università e della Ricerca (MIUR). È costituito da circa 100 ore di parlato, equamente ripartito tra voci maschili e voci femminili, in parte trascritto ortograficamente ed etichettato foneticamente. Le registrazioni sono state effettuate in quindici località italiane scelte in base a criteri di rappresentatività linguistica e socioeconomica: Bari, Bergamo, Bologna, Cagliari, Catanzaro, Firenze, Genova, Lecce, Milano, Napoli, Palermo, Parma, Perugia, Roma, Venezia. Per ogni località è stato raccolto il parlato radiotelevisivo, quello dialogico, quello letto da parlanti non professionisti, quello telefonico e quello letto da 20 parlanti professionisti e registrato in camera anecoica.
LABLITA
Il Laboratorio Linguistico del Dipartimento di Italianistica è nato nel 1973 e si occupa della raccolta e gestione di corpora con lo standard di trascrizione chat. Il fine è quello di studiare la lingua italiana orale sulla base di corpora di parlato spontaneo e conduce ricerche teoriche e sperimentali sull'intonazione dell'italiano. Si tratta di un insieme di corpora composto da: 1) un corpus di italiano parlato spontaneo adulto che raccoglie circa 120 testi che riguardano situazioni comunicative diafasiche diverse per un totale di 60 ore; 2) un corpus della lingua dei media (cinema, radio e televisione); 3) un corpus di 100 ore di italiano registrato nella fase del primo apprendimento (in bambini di 18-36 mesi). In questo corpus i testi sono trascritti, ma l'audio è disponibile in formato digitalizzato (wav). Indicazioni e materiali si trovano nei due volumi accompagnati da cd-rom multimediale: Emanuela Cresti (2000), Corpus di italiano Parlato, Accademia della Crusca.
LIP
Lessico di frequenza dell'italiano parlato (LIP), curato da un gruppo di linguisti guidati da Tullio De Mauro, Mancini, Vedovelli e Voghera (1993) costituisce la raccolta di testi dell'italiano parlato più importante e più utilizzata nella ricerca linguistica ed è la controparte del LIF per l'italiano parlato. Il corpus, costituito come il primo lessico di frequenza dell'italiano parlato nel 1990-1992, è composto da circa 500.000 parole grafiche, trascrizioni di registrazioni effettuate a Milano, Firenze, Roma e Napoli, pari a quasi 57 ore di parlato. Le tipologie del parlato rappresentate sono dialoghi faccia a faccia e non, a presa di parola libera e non, monologhi faccia a faccia e non. I lemmi dei suoi 469 testi sono consultabili secondo frequenza e secondo ordine alfabetico, vi è anche una lista di frequenza dei fonosimboli e delle polirematiche. Il volume del lessico è corredato da due dischetti che contengono le trascrizioni di tutti i testi del corpus, permettendo dunque a chi voglia svolgere ulteriori analisi l'accesso diretto ai materiali.
LinguaGiovani
progetto sul Linguaggio giovanile a cura del Dip.to di Romanistica dell'Univ. degli Studi di Padova e coordinato dal Prof. M. Cortelazzo. Il progetto, che si pone l'obiettivo di coordinare le ricerche sul tema e di raccogliere materiali editi ed inediti, prevede anche la creazione di un dizionario online di termini tratti dal linguaggio giovanile acquisti tramite segnalazioni spontanee online.
LIR
Lessico di frequenza dell'Italiano Radiofonico è un progetto finalizzato alla realizzazione di Lessici di frequenza dell'italiano radiofonico (LIR), nato nel 1998, coordinato da Nicoletta Maraschio e Stefania Stefanelli presso il Centro di Studi di Grammatica Italiana dell'Accademia della Crusca. Il progetto prevede che l'intero corpus, trascritto ortograficamente, allineato all'audio mediate software apposito, lemmatizzato e "in voce" (circa 50 ore di parlato corrispondenti a circa 500.000 occorrenze lessicali), sia allegato al vocabolario su CD-ROM. Nessuno strumento online e' al momento disponibile.
Corpora di lingua italiana scritta
CORIS/CODIS
Il Corpus di Italiano Scritto contemporaneo (CORIS/CODIS) è un corpus di riferimento bilanciato sincronico dell'italiano scritto contemporaneo. Si tratta di un progetto iniziato nel 1998 dall'Università di Bologna, elaborato e coordinato da R. Rossini Favretti, con l'obiettivo di costruire un corpus generale dell'italiano scritto. Questo contiene 100 milioni di parole, tratte da una raccolta di testi contenenti prevalentemente narrativa prodotta negli anni ottanta e Novanta, in formato elettronico, selezionati come rappresentativi dell'italiano attuale; inoltre sarà aggiornato tramite un corpus di monitoraggio inglobato con cadenza biennale. Dal corpus generale si distinguono alcuni sottocorpora, rappresentanti delle diverse varietà dell'italiano scritto. Accanto al Coris si aggiunge il Corpus Dinamico dell'Italiano Scritto (Codis). Quest'ultimo permette la selezione di sottocorpora e contiene gli stessi materiali del Coris, ma l'interfaccia di ricerca consente di selezionarli per gruppi e con dimensioni variabili dei gruppi.
BOLC
Il corpus tratta testi giuridici (leggi, sentenze, codici, costituzione, decreti). E' permessa l'interrogazione fatta unicamente per scopi di ricerca scientifica e non per uso commerciale.
APHASIA
Il corpus è stato sviluppato nel 2001 da A. Serino sotto la guida del Prof. Andrea Moro e tratta il contributo della linguistica comparativa allo studio della produzione dei pronomi del linguaggio nella demenza di Alzheimer e nella malattia di Parkinson.
LIF
Lessico di frequenza della lingua italiana contemporanea, elaborato nel 1971 al CNUCE (Centro Nazionale Universitario di Calcolo elettronico) di Pisa. Si tratta del primo grande progetto di costruzione di un lessico di frequenza per la lingua italiana (non tagliato su un singolo autore o su testi specificatamente letterari). Il lessico contiene circa 5.000 lemmi ordinati per frequenza e secondo l'ordine alfabetico, tratti dallo spoglio di testi per un complesso di 500.000 parole. I testi che sono entrati a far parte del corpus sono datati tra il 1947 e il 1968, sono tutti testi scritti, presi da 5 fonti diverse (teatro, romanzi, cinema, periodici, sussidiari), a rappresentare diverse forme testuali alcune delle quali vicine al parlato. Il corpus non è disponibile per la consultazione né offline né online. Esso è il risultato dello spoglio di un corpus di 500.000 occorrenze della lingua italiana contemporanea, dal quale sono stati ricavati dati statistici di diverso tipo su circa 5.000 lemmi. Il LIF è stato la base per la compilazione del Vocabolario di Base (VDB) della lingua italiana di Tullio De Mauro, che è composto, nella versione attuale, da 7.950 lemmi classificati in tre livelli. Nessuno strumento online e' al momento disponibile.
LIZ
Letteratura Italiana Zanichelli (LIZ) è una banca dati testuale che comprende integralmente 1000 testi letterari italiani, dalle Laudes creaturarum di Francesco d'Assisi alle opere di Pirandello e D'Annunzio. Gli autori maggiori sono presenti con le opere complete, i minori con i testi più significativi. LIZ consente di fare un elevato numero di ricerche, producendo concordanze, co-occorrenze, ricerche sequenziali, liste di frequenza, indices locorum, rimari, indici inversi ecc.
TLIO
Il Tesoro della lingua italiana delle origini (TLIO) è un database testuale composto da circa 1.780 testi per circa 20 milioni di parole, tratte da scritti in lingua italiana prima del 1375, in prosa e in poesia. Una prima versione della banca dati fu implementata in dbt di Eugenio Picchi. Basato sul corpus testuale dell'italiano antico dell'OVI (Opera del Vocabolario Italiano), il TLIO è nato nel 1995 ed è stato inaugurato nel 1998. Rappresenta, inoltre, la prima sezione cronologica del vocabolario storico italiano. Il database è interrogabile online con registrazione gratuita al sito dell'Istituto Opera del Vocabolario Italiano (OVI).
OVI
Il corpus, creato da ItalNet, contiene 1960 testi in lingua volgare (22,3 milioni di parole, 456.000 forme uniche) la maggior parte dei quali sono datati prima del 1375, anno della morte di Boccaccio. Le opere in versi e in prosa sono dei primi maestri della letteratura italiana come Dante, Petrarca e Boccaccio, oltre a testi meno noti di poeti, mercanti e cronisti medievali. E' stato creato per aiutare nella compilazione di un dizionario storico della lingua italiana, il Tesoro della lingua italiana delle Origini (TLIO, parti della quale sono ora disponibili on-line) e per consentire agli studiosi di tutto il mondo a beneficiare di questa ricca risorsa testuale. ItalNet è un consorzio internazionale fondato nel 1995 la cui missione è quella di creare risorse internet per gli studiosi della lingua italiana dei materiali letterari e storici. Link supplementare Artfl Project
CoLFIS
Il Corpus e Lessico di Frequenza dell'Italiano Scritto (CoLFIS) è stato costruito da costruito da Bertinetto, Burani, Laudanna, Marconi, Ratti, Rolando e Thornthon. È costituito da 3.150.075 occorrenze lessicali tratte da quotidiani del periodo 1992 - 1994 ('La Repubblica', 'La Stampa', 'Il Corriere della Sera'), periodici e libri di varia natura bilanciate secondo le letture degli italiani. Al momento sono disponibili gratuitamente online le liste con il lemmario (non il corpus). . Nel campionare i testi, gli autori hanno ponderato i dati dell'ISTAT relativi alle letture preferite dagli italiani, per ottenere un corpus che fosse il più possibile rappresentativo di ciò che gli italiani effettivamente leggono. Il lessico di frequenza tratto dal corpus include due sottoparti: il formario e il lemmario. Il formario contiene la frequenza di ciascuna forma presente nel corpus, senza distinguere fra i vari lemmi a cui la forma si può ricondurre. Il lemmario contiene invece le frequenze delle forme lemmatizzate, cioè ricondotte al lemma di provenienza e indica, inoltre, la frequenza delle parole 'sintagmatiche'. COLFIS si distingue dai precedenti lessici di frequenza per il bilanciamento delle fonti, che conferisce un carattere di non casualità alle rilevazioni numeriche estraibili dall'archivio lessicale, e per la sua ampiezza, nel senso che non esistono molti altri esempi di corpora di queste dimensioni interamente lemmatizzati.
DOP
Dizionario italiano multimediale e multilingue d'Ortografia e di Pronunzia della RAI, versione online del vocabolario redatto a partire dal 1959 da Bruno Migliorini, Carlo Tagliavini e Piero Fiorelli (riv., agg. e accr. da P. Fiorelli e T. F. Borri) per la sede fiorentina della Radio Televisione Italiana, ora disponibile in versione multimediale. Il corpus, ricco di oltre 92.000 voci di lessico della lingua italiana e oltre 37.000 di una sessantina di lingue diverse, presenta anche la registrazione fonetica delle voci.
PENELOPE
Un corpus di italiano, scritto e orale, antico e contemporaneo, composto da campionature molto strette, piccoli prelievi di pochi periodi per testo o per autore, che cercano di coprire il numero più alto possibile di varietà d’uso della lingua. Il corpus è interrogabile sulla base della tipologia testuale.
VINCA
Un corpus prodotto da nativi liberamente disponibile e consultabile online.Ideato da Manuel Barbera e Carla Marello, subito affiancati Elisa Corino, VINCA è nato nel 2004 come corpus appaiato a VALICO.
VALICO
Un corpus creato da apprendenti di italiano e per apprendenti di italiano.
CORPUS TAURINESE
Il corpus è una raccolta di testi italiani risalenti al tredicesimo secolo.
NUNC
I Newsgroups UseNet Corpora costituistcono la più grande raccolta di testi di italiano scritto etichettati e liberamente accessibli. Sono inoltre disponibili corpora settoriali in spagnolo, inglese e francese. La raccolta è in continua crescita.
Corpus Italiano scritto L2
Il corpus è costituito da testi scritti prodotti da apprendenti dell'italiano come lingua seconda presso l’Università di Greenwich, Londra. Il corpus comprende 227 testi per un totale di 22.931 parole ed è classificato in base al tipo di testo e al livello di competenza linguistica.
PAROLE
Corpus di riferimento bilanciato sincronico, dell'italiano scritto contemporaneo. Il corpus è stato sviluppato nel progetto europeo 'Parole' ed è comparabile con altri corpora per lingue europee (a pagamento).
LA REPUBBLICA
Questo corpus include le annate del quotidiano 'La Repubblica' dal 1985 al 2000. Si tratta di un ampio corpus di italiano giornalistico composto da circa 380mila parole del lessico del quotidiano la Repubblica. Nel progetto, curato dall'Università di Bologna, il corpus è stato lemmatizzato, taggato e categorizzato per genere e topic; gli articoli nel corpus sono strutturati nelle seguenti parti:titolo, sottotitolo, sommario, testo. E' possibile accedervi con username e password.
LINGUAGGIO POLITICO-PARLAMENTARE (lessico e sintassi, leggibilità)
Il corpus comprende testi del Senato della Repubblica della XIV e XV legislatura a cura di M. Emanuela Piemontese, analisi del linguaggio politico-parlamentare con strumenti informatici di tipo matematico-quantitativo come le formule di leggibilità.
VELI
Il Vocabolario elettronico della lingua italiana (VELI) è un progetto nato nel 1989 e guidato da Tullio De Mauro. È costituito da circa 10.000 lessemi(tratto da un corpus di più di 25 milioni di parole) ordinati per frequenza nella lingua italiana, di cui sono possibili le consultazioni con analisi grammaticale, forme flesse, sinonimi e sillabazione. Nessuno strumento online e' al momento disponibile.


CIC
Il Cambridge International Corpus è un database molto ampio, predisposto dalla Cambridge University Press. Comprende al suo interno il corpus di parlato inglese Cancode, composto di 5 milioni di parole; inoltre è costituito da circa 600 milioni di parole di inglese britannico e statunitense scritto e parlato, tratto da giornali, romanzi, saggi, trasmissioni tv e radio.
COBUILD project (cfr. Bank of English)
International Computer Archive of Modern and Medieval English è un corpus della lingua inglese, specificamente approntato per la ricerca linguistica, dal Norwegian Computing Centre for the Humanities (NCCH) di Bergen in Norvegia. Si tratta in realtà di un insieme di diversi corpora di inglese scritto e parlato. Per l'inglese scritto, comprende il Brown Corpus, il LOB, e corpus di inglese australiano, indiano, africano e neozelandese; per l'inglese scritto, comprende il London Lund Corpus, il Lancaster/IBM Spoken English Corpus (SEC), il Corpus of London Teenage Language (COLT), e un corpus di parlato neozelandese e africano. Una parte del sec (MARSEC) è etichettata a livello fonetico. Del corpus fa parte anche una importante sezione storica che comprende il The Helsinki Corpus of English Texts: Diachronic Part, The Helsinki Corpus of Older Scots, Corpus of Early English Correspondance, The Newdigate Newsletters, Lampeter Corpus, Innsbruck Computer-Archive of Machine-Readable English Texts (ICAMET). Il corpus è distribuito su cd-rom , al costo di nok 3.500, e può anche essere interrogato online, previo pagamento di una sottoscrizione. I manuali dei corpora compresi in ICAME si possono scaricare gratuitamente all'indirizzo: http://khnt.hit.uib.no/icame/manuals/index.htm


Corpora | repertori
Parlar italiano
repertorio di corpora dell'italiano parlato ospitato dall'Università di Salerno. Le schede descrivono le caratteristiche e le aree tematiche dei progetti di indagine e forniscono l'accesso diretto ai corpora.
Repertorio delle Banche Dati dell'Italiano Parlato
censimento dei corpora più importanti dell'italiano parlato che sono stati raccolti e pubblicati dal 1965 in poi. Il repertorio e' ospitato su un sito gratuito dedicato alla pubblicazione di corpora e altri materiali per l'analisi e lo studio dell'italiano parlato che fa parte del Language Server della Karl-Franzens-Universität Graz (Austria).

Corpora di lingua francese

Corpora di lingua tedesca

Corpora di lingua spagnola

Corpora di lingua portoghese
Corpora di lingua olandese

Corpora multilingui e paralleli
UNIVERSITA' DI LEEDS
Elenchi parole del CTS in Inglese, Russo, Arabo, Cinese, Francese, Tedesco, Greco, Italiano, Portoghese, Spagnolo



abc @ parolando.it

