Che cos’è?

Un corpus è una raccolta di testi del linguaggio parlato o scritto selezionati e organizzati per facilitare le analisi linguistiche. Il termine è noto fin dai tempi più antichi. I corpora possono essere creati su carta oppure oralmente, ma oggi si è molto diffuso l’uso dei corpora in formato elettronico attraverso l’utilizzo del computer.
L’area linguistica in cui vengono usati i corpora è anche nota come Linguistica dei corpora. Altre aree menzionabili in cui i corpora sono utilizzati sono: Linguistica storica e comparativa (Italia), Comparative grammar (Stati Uniti), Comparative philology (Regno Unito).
La linguistica dei corpora è una disciplina scientifica matura con cinquant’anni di ricerca scientifica nazionale e internazionale alle spalle. Questa disciplina si serve di strumenti di analisi quantitativa e statistica, esplora le regolarità linguistiche che emergono dai testi e che costituiscono la base per la descrizione della struttura del linguaggio. L’obiettivo principale è quello di sviluppare modelli del funzionamento del linguaggio umano che possono essere tradotti in programmi eseguibili dal calcolatore e che gli consentono di acquisire le competenze necessarie per comunicare direttamente nella nostra lingua. Si tratta di un ambito di ricerca e di lavoro tipicamente interdisciplinare. Infatti, da un lato si intreccia con l’informatica e con l’ingegneria, per qualificare le attività rivolte allo sviluppo di applicazioni informatiche basate sulle tecnologie del linguaggio, mentre dall’altro lato essa dialoga, appunto, con la linguistica, le scienze cognitive, la psicologia, la filosofia e le scienze umane in generale, con le quali condivide l’obiettivo di indagare la struttura, il funzionamento e l’uso del linguaggio e il suo rapporto con le altre facoltà cognitive dell’uomo.

corpora-4 Corpora

Criteri di classificazione

Classificazione

Corpora sono disponibili in diverse forme e dimensioni, perché sono costruiti per scopi diversi. Ci sono due filosofie dietro il loro design, che porta alla distinzione tra i corpora di riferimento e i corpora di monitoraggio. I corpora di riferimento hanno una dimensione fissa, cioè, non sono espandibili, mentre i corpora di monitoraggio sono espandibili, cioè, i testi vengono continuamente aggiunti. Un altra distinzione è se un corpus contiene testi interi, o semplicemente campioni di una lunghezza specificata. L’ultima opzione consente una maggiore varietà di testi da inserire in un corpus di una certa dimensione.
Infatti, la dimensione del corpus è determinata dal numero di parole contenute nel corpus stesso, per quanto riguarda i corpora di lingua scritta, e dal numero di ore di registrazione, per quanto riguarda i corpora di lingua parlata. È possibile distinguere corpus chiusi e corpus aperti. Il primo rappresenta il corpus standard tradizionale, in cui la quantità dei testi e delle parole è prefissata all’inizio del progetto. I corpora chiusi ci restituiscono la fotografia di una lingua attraverso i testi selezionati, ma non sono adatti a seguire i mutamenti e le evoluzioni che in una lingua avvengono come conseguenza della sua natura intrinsecamente dinamica. Fu John Sinclair a proporre la soluzione per superare questo limite,  estendendo la nozione tradizionale di corpus in uno strumento di monitoraggio linguistico. Un corpus di monitoraggio (monitor corpus) è una collezione aperta di testi che muta nel tempo, introducendo nuovi testi selezionati secondo gli stessi criteri usati per determinare la collezione iniziale. Questo tipo di corpus permette per esempio di monitorare le dinamiche del lessico della lingua e dunque può essere usato in contesti lessicografici come fonte di dati per mantenere aggiornati i dizionari.

Il grado di generalità di un corpus dipende quindi dalla misura in cui i suoi testi sono stati selezionati rispetto a varietà diverse di una lingua. I corpora specialistici orientati alla descrizione di una particolare varietà linguistica o ad un ristretto dominio applicativo hanno un grado minimo di generalità (ad esempio il linguaggio giuridico, infantile, giornalistico, medico). I testi dei corpora generali appartengono a diverse varietà linguistiche e sono selezionati per comporre il quadro descrittivo della lingua nel suo complesso. Si tratta, quindi, di corpora plurifunzionali che sono spesso progettati come risorse traversali di riferimento per lo studio di una lingua, ad esempio come fonte di dati per sviluppare un dizionario. Spesso i corpora generali sono articolati in vari sottocorpora, ovvero in sottoinsiemi di testi che appartengono ad una particolare varietà.

L’evoluzione dei corpora segue un percorso molto ripido in fatto di crescita: i corpora di prima generazione (anni ’60 e ’70) contenevano milioni di parole, poi decine di milioni di parole, negli anni ’80 e ’90,  centinaia di milioni di parole nei corpora creati dopo il 2000 fino ai corpora di ultima generazione  che contano miliardi di parole.

I corpora possono derivare dalla lingua scritta o dalla lingua parlata. Esempi di corpora di lingua scritta sono i libri, i giornali, le riviste e le pagine web. Le conversazioni telefoniche o faccia a faccia, invece, rappresentano corpus di lingua parlata.
La grande diversità che caratterizza a tutti i livelli la lingua scritta e quella parlata rende la modalità (scritta e orale) di produzione dei testi un parametro estremamente rilevante per definire la fisionomia del corpus e anche deciderne gli usi più opportuni. Rispetto a questa dimensione possiamo suddividere i corpora in tre tipologie: corpora di lingua scritta, corpora di lingua parlata, corpora misti.

I corpora di lingua scritta contengono solo testi prodotti originariamente in forma scritta, come libri o articoli di giornale.

I corpora di lingua parlata contengono solo testi originariamente prodotti in modalità orale e successivamente trascritti, come conversazioni spontanee, trasmissioni radiofoniche. Questi si distinguono i corpora audio, ovvero i campioni di linguaggio parlato in forma di segnale acustico, eventualmente accompagnati dalla loro trascrizione. Questi stanno acquistando sempre più importanza come strumenti per lo sviluppo di applicazioni per il riconoscimento o la sintesi automatica vocale, in cui è necessario accedere a dati acustici. Ultimo arrivato è il corpus multimediale (o corpus audio-visivo), che contiene le registrazioni audio-video di scambi comunicativi. Queste consentono di acquisire dati importanti non solo sulla struttura linguistica, ma anche sugli aspetti gestuali, facciali, emozionali e ambientali della comunicazione. I corpora misti contengono in proporzioni variabili sia testi prodotti in modalità scritta sia trascrizioni di lingua parlata.

I corpora differiscono anche per l’aspetto cronologico che distingue tra corpora sincronici e corpora diacronici. I corpora sincronici includono testi che appartengono a una stessa finestra temporale, selezionata per lo studio di una particolare fase della lingua. I corpora diacronici comprendono, invece, testi appartenenti a periodi diversi, con lo scopo di descrivere il mutamento linguistico.

In base alla lingua si distinguono in corpora monolingui e corpora bilingui o multilingui, che possono essere ulteriormente distinti in corpora paralleli e corpora comparabili. I corpora monolingui contengono testi di una sola lingua. I corpora bilingui o multilingui contengono testi di due o più lingue. In termini di contenuto, corpora può essere generale, cioè di riflettere una specifica lingua o varietà in tutti i suoi contesti d’uso, o specializzati, cioè, hanno lo scopo di concentrarsi su contesti e utenti specifici, e possono contenere linguaggio scritto o parlato. I corpora possono anche rappresentare le diverse varietà di una lingua unica. Infine, corpora può essere monolingue (contengono cioé campioni di una sola lingua), o multilingue e Corpora multilingue sono di due tipi: possono contenere gli stessi tipi di testo in diverse lingue, oppure possono contenere gli stessi testi tradotti in diverse lingue, nel qual caso sono anche noti come corpora paralleli.
I corpora paralleli comprendono testi sia nella loro lingua originaria sia in traduzione in un’altra lingua. Se le unità linguistiche dei testi nella loro lingua originaria sono esplicitamente collegate alle unità linguistiche nei testi in traduzione in un’altra lingua che ne costituiscono le traduzioni, si parla di corpora paralleli allineati: l’unità tipica di allineamento è la frase. I corpora comparabili non contengono, invece, testi in traduzione, ma testi originali in lingue diverse. Questi corpora permettono di confrontare due o più lingue rispetto allo stesso genere testuale o dominio tematico; dal momento che i testi sono tutti originali, i dati raccolti possiedono un maggiore grado di naturalezza, evitando le artificiosità che talvolta conseguono dall’opera di traduzione.

Quando invece si parla dell’integrità dei corpora si fa riferimento al fatto che i corpora possono contenere testi interi oppure porzioni di testi di lunghezza prefissata.

Un ulteriore elemento di differenziazione tra corpora è il modo in cui sono rappresentati i testi digitali. Nei corpora codificati ad alto livello i testi sono arricchiti con etichette (codici) che rendono espliciti vari tipi di informazione, come ad esempio la struttura testuale e la composizione. Tipi particolari di corpora codificati sono i corpora annotati, nei quali le informazioni codificate riguardano la struttura linguistica del testo a livelli diversi di rappresentazione.

Nella linguistica dei corpora il bilanciamento è assunto come condizione essenziale per garantire la rappresentatività di un corpus che voglia essere plurifunzionale e traversale rispetto alle diverse varietà di una lingua. Il bilanciamento presuppone la creazione di una descrizione accurata della popolazione linguistica di riferimento: è necessario dunque definire una mappa della lingua tracciando i confini spaziali e temporali (quali testi sono inclusi o esclusi dalla popolazione) e la tipologia dei testi (l’articolazione in strati della popolazione). Un bilanciamento corretto richiede una quantità consistente di testi selezionati per le diverse tipologie individuate nella popolazione. Se la selezione dei testi di un corpus è fatta bene, esso è ben bilanciato e quindi può essere rappresentativo.

È rappresentativo un corpus che tiene traccia dell’intero ambito di variabilità dei tratti e delle proprietà di una lingua. Ciò significa che un corpus deve fornire un modello delle proprietà linguistiche del linguaggio analizzato, ovvero deve essere in grado di restituire un quadro delle varietà e delle tendenze linguistiche nel modo più accurato possibile, rispettandone le proporzioni e permettendo, in questo modo, di generalizzare le proprietà linguistiche del corpus all’intera popolazione[7]. Tuttavia non si può dimostrare che un corpus sia veramente rappresentativo di una determinata sezione del linguaggio e di conseguenza le informazioni ricavate dall’analisi di un corpus devono essere considerate al massimo delle ragionevoli assunzioni.

Per creare un corpus utile è necessario, in primo luogo, i testi che il corpus deve contenere vengano selezionati e conservati in formato elettronico. Testi scritti, se non sono già in forma elettronica dovranno essere scansionati, testi parlati devono essere registrati e trascritti. Il risultato di questa fase è un corpus di base. Anche in questa forma può fornire alcune informazioni circa l’uso della lingua i delle linguee, ma la sua utilità è limitata. L’utilità e la flessibilità di un corpus può essere aumentata con l’aggiunta di codice che un computer è in grado di riconoscere. Le etichette (tags) sono assegnate alle parole, frasi, paragrafi, sezioni, o interi testi nel corpus. Le informazioni relative alle proprietà non linguistiche dei testi sono identificate come mark-up. Il mark-up può dare informazioni sulla fonte del testo (libro, giornale), la data di pubblicazione o trasmissione, l’autore o partecipanti, o parti di testo (introduzione, conclusione). Informazioni relative alle proprietà linguistica dei testi nel corpus si chiama annotazione. La maggior parte dei corpora sono annotati per la parte del discorso e la forma delle parole ( teso singolare / plurale, presente / passato). Questo tipo di annotazione è anche chiamato annotazioni grammaticali, o tagging. I corpora possono anche essere commentati per senso lessicale (aspettative) e la funzione pragmatica (richiesta, invito). Il tipo di mark-up o annotazione aggiunto a un corpus è determinato dalle informazioni da estrarre.

I corpus sono largamente utilizzati nell’insegnamento delle lingue in diversi modi, contribuisce alla creazione di un linguaggio descrittivo più accurato aiutando la compilazione di grammatiche e dizionari pedagogici, aiuta la comprensione dei processi di apprendimento delle lingue, facilita lo sviluppo di materiali pedagogici più efficaci.

Sono numerosi ormai i siti delle università o di altri enti o di singoli linguisti o appassionati della ricerca linguistica che mettono a disposizione i corpora che hanno creato.

L’elenco dei corpora è una selezione dei più conosciuti, alcuni richiedono l’iscrizione o una domanda di accesso.

virgolette-sx_a Corpora Se volete far arrivare a destinazione il vostro messaggio, dovete imparare a comunicare nella lingua di chi lo riceve.

 John C. Maxwell

Breve storia

Alla sua nascita,  nella seconda metà del Novecento, i primi risultati riguardano lo sviluppo di programmi per lo spoglio elettronico dei testi, il calcolo della frequenza delle parole, la compilazione di indici e concordanze (ossia la lista delle occorrenze di una parola presente in un contesto linguistico) e la creazione di ripetitori lessicali elettronici, conosciuti anche come dizionari elettronici. In seguito, negli anni ’50, nasce uno dei primi corpus di circa 10 milioni di parole, una cifra enorme per le capacità dei computer del tempo, ad opera di Roberto Busa S. J.  Nello stesso periodo, parallelamente al diffondersi della grammatica generativa, in area anglosassone ha continuato a svilupparsi una tradizione di ricerca linguistica che fonda l’indagine linguistica sulla raccolta e l’analisi di corpora. Nel 1964, alla Brown University negli Stati Uniti, Henry Kucera e W. Nelson Francis realizzano il primo corpus elettronico progettato e costruito per lo studio di una particolare varietà linguistica contemporanea, nel caso specifico l’inglese americano degli anni sessanta: il Brown Corpus, lungo circa 1 milione di parole. La dimensione dei corpora è andata sempre più crescendo e la loro disponibilità è diventata una variabile fondamentale in ogni fase di sviluppo e di valutazione degli strumenti per il TAL (Trattamento Automatico del Linguaggio Naturale).
L’entrata sulla scena di Internet ha reso necessario lo sviluppo di tecnologie linguistiche in grado di confrontarsi con testi reali e non più con testi da laboratorio. La crescente disponibilità di corpora testuali ha facilitato l’innovazione metodologica in linguistica dei corpora, fornendo i dati linguistici necessari per un uso intensivo dei metodi statistici. Tale processo è stato poi migliorato, grazie ai linguaggi standard di marcatura del testo come XML,  il processo di creazione, uso e interscambio dei corpora. Oggi il computer permette di immagazzinare quantità di dati testuali prima inimmaginabili e di interrogare in maniera avanzata il contenuto del corpus. Al tempo stesso ha reso possibile l’annotazione linguistica del testo su ampia scala, permettendo di  rappresentare in maniera esplicita e dettagliata la struttura e l’organizzazione linguistica del testo stesso e per una riflessione rigorosa sulla natura dei dati annotati e sui modelli interpretativi più adatti per darne conto.

codifica-caratteri-5 Corpora

Corpora

Lingua italiana

Corpora di lingua italiana parlata

API
API/AVIP/IPAR è un progetto di raccolta di materiale fonico spontaneo di lingua italiana, cui hanno partecipato il laboratorio di linguistica della Scuola Normale di Pisa, il CIRASS e l’Orientale di Napoli, il Politecnico di Bari e l’Università del Piemonte Orientale. Il corpus è composto da circa 14 ore di parlato (di cui circa 3,5 trascritte ortograficamente e un’ora e un quarto trascritta foneticamente). Il corpus è stato sottoposto a etichettatura fonetica e prosodica per fini linguistici e applicazioni tecnologiche. Il progetto è conforme alle specifiche di codifica e annotazione di eagles . Il materiale del corpus è costituito principalmente da dialoghi semi-spontanei di tipo map-task e lettura di liste di parole raccolti in Toscana, Campania e Puglia. I software utilizzati per l’etichettatura e la consultazione sono SegWin e SegView. Avip è il primo progetto di una certa ampiezza di corpus di parlato in lingua italiana. Il materiale (files e software) è disponibile su 5 cd-rom, distribuiti dal cirass e via ftp sempre dal sito del CIRASS.

CIT
Il Corpus di Italiano Televisivo è una raccolta di testi trascritti in formato elettronico da trasmissioni televisive selezionate (sono state escluse le fiction, i film, i telefilm, gli sceneggiati, le telenovelas, ecc.), mirata all’analisi delle caratteristiche lessicali e grammaticali dell’italiano trasmesso in televisione. Composto da 250.000 parole e successivamente programmato un ampliamento del corpus a 500.000 parole, per una maggiore omogeneità con altri corpora italiani di lingua scritta (LIF) e parlata (LIP). I testi prescelti sono tratti da trasmissioni originali non di fiction, tratte da diverse categorie di attualità, intrattenimento, pubblicità, sport e telegiornali. Il Cit è annotato secondo gli standard della Text Encoding Initiative (TEI). Il progetto ha avuto inizio nell’agosto 1998 e si propone di affiancare gli altri corpora elettronici dell’italiano che sono stati creati, specialmente in questi ultimi anni, per permettere di effettuare analisi linguistiche dell’italiano contemporaneo fondate su dati quantitativi strutturati e affidabili.

CLIPS
Corpora Linguistici per l’Italiano Parlato e Scritto (CLIPS), diretto da Federico Albano Leoni dell’Università “Federico II” di Napoli, è il più esteso corpus italiano per la sezione sul parlato (raccolto tra il 2000 e il 2003). Il corpus raccoglie circa 100 ore di parlato in diverse varietà, registrate in 15 località diverse. Una parte del corpus è trascritta, e della parte trascritta circa un terzo è anche etichettata dal punto di vista fonetico e fonologico. Al momento il corpus non è ancora stato pubblicato, ma sarà reso disponibile in forma annotata e non, insieme a un pacchetto di applicazioni per l’elaborazione e l’interrogazione. Rrappresenta il corpus audio dell’italiano parlato di varie tipologie (dialogico, letto, parlato televisivo, conversazioni telefoniche e corpora speciali), bilanciato dal punto di vista diafasico e diatopico. È il secondo degli otto progetti del Cluster C18 “LINGUISTICA COMPUTAZIONALE: RICERCHE MONOLINGUI E MULTILINGUI”, finanziato dal Ministero dell’Istruzione, dell’Università e della Ricerca (MIUR). È costituito da circa 100 ore di parlato, equamente ripartito tra voci maschili e voci femminili, in parte trascritto ortograficamente ed etichettato foneticamente. Le registrazioni sono state effettuate in quindici località italiane scelte in base a criteri di rappresentatività linguistica e socioeconomica: Bari, Bergamo, Bologna, Cagliari, Catanzaro, Firenze, Genova, Lecce, Milano, Napoli, Palermo, Parma, Perugia, Roma, Venezia. Per ogni località è stato raccolto il parlato radiotelevisivo, quello dialogico, quello letto da parlanti non professionisti, quello telefonico e quello letto da 20 parlanti professionisti e registrato in camera anecoica.

LABLITA
Il Laboratorio Linguistico del Dipartimento di Italianistica è nato nel 1973 e si occupa della raccolta e gestione di corpora con lo standard di trascrizione chat. Il fine è quello di studiare la lingua italiana orale sulla base di corpora di parlato spontaneo e conduce ricerche teoriche e sperimentali sull’intonazione dell’italiano. Si tratta di un insieme di corpora composto da: 1) un corpus di italiano parlato spontaneo adulto che raccoglie circa 120 testi che riguardano situazioni comunicative diafasiche diverse per un totale di 60 ore; 2) un corpus della lingua dei media (cinema, radio e televisione); 3) un corpus di 100 ore di italiano registrato nella fase del primo apprendimento (in bambini di 18-36 mesi). In questo corpus i testi sono trascritti, ma l’audio è disponibile in formato digitalizzato (wav). Indicazioni e materiali si trovano nei due volumi accompagnati da cd-rom multimediale: Emanuela Cresti (2000), Corpus di italiano Parlato, Accademia della Crusca.

LIP
Lessico di frequenza dell’italiano parlato (LIP), curato da un gruppo di linguisti guidati da Tullio De Mauro, Mancini, Vedovelli e Voghera (1993) costituisce la raccolta di testi dell’italiano parlato più importante e più utilizzata nella ricerca linguistica ed è la controparte del LIF per l’italiano parlato. Il corpus, costituito come il primo lessico di frequenza dell’italiano parlato nel 1990-1992, è composto da circa 500.000 parole grafiche, trascrizioni di registrazioni effettuate a Milano, Firenze, Roma e Napoli, pari a quasi 57 ore di parlato. Le tipologie del parlato rappresentate sono dialoghi faccia a faccia e non, a presa di parola libera e non, monologhi faccia a faccia e non. I lemmi dei suoi 469 testi sono consultabili secondo frequenza e secondo ordine alfabetico, vi è anche una lista di frequenza dei fonosimboli e delle polirematiche. Il volume del lessico è corredato da due dischetti che contengono le trascrizioni di tutti i testi del corpus, permettendo dunque a chi voglia svolgere ulteriori analisi l’accesso diretto ai materiali.

LinguaGiovani
progetto sul Linguaggio giovanile a cura del Dip.to di Romanistica dell’Univ. degli Studi di Padova e coordinato dal Prof. M. Cortelazzo. Il progetto, che si pone l’obiettivo di coordinare le ricerche sul tema e di raccogliere materiali editi ed inediti, prevede anche la creazione di un dizionario online di termini tratti dal linguaggio giovanile acquisti tramite segnalazioni spontanee online.

LIR
Lessico di frequenza dell’Italiano Radiofonico è un progetto finalizzato alla realizzazione di Lessici di frequenza dell’italiano radiofonico (LIR), nato nel 1998, coordinato da Nicoletta Maraschio e Stefania Stefanelli presso il Centro di Studi di Grammatica Italiana dell’Accademia della Crusca. Il progetto prevede che l’intero corpus, trascritto ortograficamente, allineato all’audio mediate software apposito, lemmatizzato e “in voce” (circa 50 ore di parlato corrispondenti a circa 500.000 occorrenze lessicali), sia allegato al vocabolario su CD-ROM. Nessuno strumento online e’ al momento disponibile.

Corpora di lingua italiana scritta

CORIS/CODIS
Il Corpus di Italiano Scritto contemporaneo (CORIS/CODIS) è un corpus di riferimento bilanciato sincronico dell’italiano scritto contemporaneo. Si tratta di un progetto iniziato nel 1998 dall’Università di Bologna, elaborato e coordinato da R. Rossini Favretti, con l’obiettivo di costruire un corpus generale dell’italiano scritto. Questo contiene 100 milioni di parole, tratte da una raccolta di testi contenenti prevalentemente narrativa prodotta negli anni ottanta e Novanta, in formato elettronico, selezionati come rappresentativi dell’italiano attuale; inoltre sarà aggiornato tramite un corpus di monitoraggio inglobato con cadenza biennale. Dal corpus generale si distinguono alcuni sottocorpora, rappresentanti delle diverse varietà dell’italiano scritto. Accanto al Coris si aggiunge il Corpus Dinamico dell’Italiano Scritto (Codis). Quest’ultimo permette la selezione di sottocorpora e contiene gli stessi materiali del Coris, ma l’interfaccia di ricerca consente di selezionarli per gruppi e con dimensioni variabili dei gruppi.

BOLC
Il corpus tratta testi giuridici (leggi, sentenze, codici, costituzione, decreti). E’ permessa l’interrogazione fatta unicamente per scopi di ricerca scientifica e non per uso commerciale.

APHASIA
Il corpus è stato sviluppato nel 2001 da A. Serino sotto la guida del Prof. Andrea Moro e tratta il contributo della linguistica comparativa allo studio della produzione dei pronomi del linguaggio nella demenza di Alzheimer e nella malattia di Parkinson.

LIF
Lessico di frequenza della lingua italiana contemporanea, elaborato nel 1971 al CNUCE (Centro Nazionale Universitario di Calcolo elettronico) di Pisa. Si tratta del primo grande progetto di costruzione di un lessico di frequenza per la lingua italiana (non tagliato su un singolo autore o su testi specificatamente letterari). Il lessico contiene circa 5.000 lemmi ordinati per frequenza e secondo l’ordine alfabetico, tratti dallo spoglio di testi per un complesso di 500.000 parole. I testi che sono entrati a far parte del corpus sono datati tra il 1947 e il 1968, sono tutti testi scritti, presi da 5 fonti diverse (teatro, romanzi, cinema, periodici, sussidiari), a rappresentare diverse forme testuali alcune delle quali vicine al parlato. Il corpus non è disponibile per la consultazione né offline né online. Esso è il risultato dello spoglio di un corpus di 500.000 occorrenze della lingua italiana contemporanea, dal quale sono stati ricavati dati statistici di diverso tipo su circa 5.000 lemmi. Il LIF è stato la base per la compilazione del Vocabolario di Base (VDB) della lingua italiana di Tullio De Mauro, che è composto, nella versione attuale, da 7.950 lemmi classificati in tre livelli. Nessuno strumento online e’ al momento disponibile.

LIZ
Letteratura Italiana Zanichelli (LIZ) è una banca dati testuale che comprende integralmente 1000 testi letterari italiani, dalle Laudes creaturarum di Francesco d’Assisi alle opere di Pirandello e D’Annunzio. Gli autori maggiori sono presenti con le opere complete, i minori con i testi più significativi. LIZ consente di fare un elevato numero di ricerche, producendo concordanze, co-occorrenze, ricerche sequenziali, liste di frequenza, indices locorum, rimari, indici inversi ecc.

TLIO
Il Tesoro della lingua italiana delle origini (TLIO) è un database testuale composto da circa 1.780 testi per circa 20 milioni di parole, tratte da scritti in lingua italiana prima del 1375, in prosa e in poesia. Una prima versione della banca dati fu implementata in dbt di Eugenio Picchi. Basato sul corpus testuale dell’italiano antico dell’OVI (Opera del Vocabolario Italiano), il TLIO è nato nel 1995 ed è stato inaugurato nel 1998. Rappresenta, inoltre, la prima sezione cronologica del vocabolario storico italiano.  Il database è interrogabile online con registrazione gratuita al sito dell’Istituto Opera del Vocabolario Italiano (OVI).

OVI
Il corpus, creato da ItalNet, contiene 1960 testi in lingua volgare (22,3 milioni di parole, 456.000 forme uniche) la maggior parte dei quali sono datati prima del 1375, anno della morte di Boccaccio. Le opere in versi e in prosa sono dei primi maestri della letteratura italiana come Dante, Petrarca e Boccaccio, oltre a testi meno noti di poeti, mercanti e cronisti medievali. E’ stato creato per aiutare nella compilazione di un dizionario storico della lingua italiana, il Tesoro della lingua italiana delle Origini (TLIO, parti della quale sono ora disponibili on-line) e per consentire agli studiosi di tutto il mondo a beneficiare di questa ricca risorsa testuale. ItalNet è un consorzio internazionale fondato nel 1995 la cui missione è quella di creare risorse internet per gli studiosi della lingua italiana dei materiali letterari e storici. Link supplementare Artfl Project

CoLFIS

Il Corpus e Lessico di Frequenza dell’Italiano Scritto (CoLFIS) è stato costruito da costruito da Bertinetto, Burani, Laudanna, Marconi, Ratti, Rolando e Thornthon. È costituito da 3.150.075 occorrenze lessicali tratte da quotidiani del periodo 1992 – 1994 (‘La Repubblica’, ‘La Stampa’, ‘Il Corriere della Sera’), periodici e libri di varia natura bilanciate secondo le letture degli italiani. Al momento sono disponibili gratuitamente online le liste con il lemmario (non il corpus). . Nel campionare i testi, gli autori hanno ponderato i dati dell’ISTAT relativi alle letture preferite dagli italiani, per ottenere un corpus che fosse il più possibile rappresentativo di ciò che gli italiani effettivamente leggono. Il lessico di frequenza tratto dal corpus include due sottoparti: il formario e il lemmario. Il formario contiene la frequenza di ciascuna forma presente nel corpus, senza distinguere fra i vari lemmi a cui la forma si può ricondurre. Il lemmario contiene invece le frequenze delle forme lemmatizzate, cioè ricondotte al lemma di provenienza e indica, inoltre, la frequenza delle parole ‘sintagmatiche’. COLFIS si distingue dai precedenti lessici di frequenza per il bilanciamento delle fonti, che conferisce un carattere di non casualità alle rilevazioni numeriche estraibili dall’archivio lessicale, e per la sua ampiezza, nel senso che non esistono molti altri esempi di corpora di queste dimensioni interamente lemmatizzati.

DOP
Dizionario italiano multimediale e multilingue d’Ortografia e di Pronunzia della RAI, versione online del vocabolario redatto a partire dal 1959 da Bruno Migliorini, Carlo Tagliavini e Piero Fiorelli (riv., agg. e accr. da P. Fiorelli e T. F. Borri) per la sede fiorentina della Radio Televisione Italiana, ora disponibile in versione multimediale. Il corpus, ricco di oltre 92.000 voci di lessico della lingua italiana e oltre 37.000 di una sessantina di lingue diverse, presenta anche la registrazione fonetica delle voci.

PENELOPE
Un corpus di italiano, scritto e orale, antico e contemporaneo, composto da campionature molto strette, piccoli prelievi di pochi periodi per testo o per autore, che cercano di coprire il numero più alto possibile di varietà d’uso della lingua. Il corpus è interrogabile sulla base della tipologia testuale.

VINCA
Un corpus prodotto da nativi liberamente disponibile e consultabile online.Ideato da Manuel Barbera e Carla Marello, subito affiancati Elisa Corino, VINCA è nato nel 2004 come corpus appaiato a VALICO.

VALICO
Un corpus creato da apprendenti di italiano e per apprendenti di italiano.

CORPUS TAURINE
Il corpus è una raccolta di testi italiani risalenti al tredicesimo secolo.

NUNC
I Newsgroups UseNet Corpora costituistcono la più grande raccolta di testi di italiano scritto etichettati e liberamente accessibli. Sono inoltre disponibili corpora settoriali in spagnolo, inglese e francese. La raccolta è in continua crescita.

Corpus Italiano scritto L2
Il corpus  è costituito da testi scritti prodotti da apprendenti dell’italiano come lingua seconda presso l’Università di Greenwich, Londra. Il corpus comprende 227 testi per un totale di 22.931 parole ed è classificato in base al tipo di testo e al livello di competenza linguistica.

PAROLE
Corpus di riferimento bilanciato sincronico, dell’italiano scritto contemporaneo. Il corpus è stato sviluppato nel progetto europeo ‘Parole’ ed è comparabile con altri corpora per lingue europee (a pagamento).

LA REPUBBLICA
Questo corpus include le annate del quotidiano ‘La Repubblica’ dal 1985 al 2000. Si tratta di un ampio corpus di italiano giornalistico composto da circa 380mila parole del lessico del quotidiano la Repubblica. Nel progetto, curato dall’Università di Bologna, il corpus è stato lemmatizzato, taggato e categorizzato per genere e topic; gli articoli nel corpus sono strutturati nelle seguenti parti:titolo, sottotitolo, sommario, testo. E’ possibile accedervi con username e password.

LINGUAGGIO POLITICO-PARLAMENTARE (lessico e sintassi, leggibilità)
Il corpus comprende testi del Senato della Repubblica della XIV e XV legislatura a cura di M. Emanuela Piemontese, analisi del linguaggio politico-parlamentare con strumenti informatici di tipo matematico-quantitativo come le formule di leggibilità.

VELI
Il Vocabolario elettronico della lingua italiana (VELI) è un progetto nato nel 1989 e guidato da Tullio De Mauro. È costituito da circa 10.000 lessemi(tratto da un corpus di più di 25 milioni di parole) ordinati per frequenza nella lingua italiana, di cui sono possibili le consultazioni con analisi grammaticale, forme flesse, sinonimi e sillabazione. Nessuno strumento online e’ al momento disponibile.

Corpora | Repertori

Parlar italiano
repertorio di corpora dell’italiano parlato ospitato dall’Università di Salerno. Le schede descrivono le caratteristiche e le aree tematiche dei progetti di indagine e forniscono l’accesso diretto ai corpora.

Repertorio delle Banche Dati dell’Italiano Parlato

censimento dei corpora più importanti dell’italiano parlato che sono stati raccolti e pubblicati dal 1965 in poi. Il repertorio e’ ospitato su un sito gratuito dedicato alla pubblicazione di corpora e altri materiali per l’analisi e lo studio dell’italiano parlato che fa parte del Language Server della Karl-Franzens-Universität Graz (Austria).

copora-3 Corpora

Lingua inglese

Corpora di lingua inglese parlata

OTA

The Oxford Text Archive è un database di testi elettronici letterari e scientifici e fornisce gratuitamente alcuni corpora di media grandezza tra cui il Lampeter Corpus, Northern Ireland Speech Corpus, SUSANNE Corpus.

CIC
Il Cambridge International Corpus è un database molto ampio, predisposto dalla Cambridge University Press. Comprende al suo interno il corpus di parlato inglese Cancode, composto di 5 milioni di parole; inoltre è costituito da circa 600 milioni di parole di inglese britannico e statunitense scritto e parlato, tratto da giornali, romanzi, saggi, trasmissioni tv e radio.

Corpora di lingua inglese scritta

BNC

Il British National Corpus è un corpus misto, di riferimento bilanciato, sincronico, della lingua inglese britannica. È stato sviluppato tra il 1991 e il 1994 dalla Oxford University Press. È composto da più di 100 milioni di parole, di cui il 90% deriva da testi in inglese contemporaneo scritti (romanzi e saggi, e testi tecnico-scientifici) e il 10% da trascrizioni di parlato (programmi radiofonici, conversazioni telefoniche, parlato spontaneo). Tutti i testi del corpus sono etichettati per parti del discorso (65 categorie classificate mediante il programma automatico “Claws” dell’Università di Lancaster).

E’ consultabile online grazie alla flessibilità del software Sara ma è disponibile anche il CD (circa £50 per un utente singolo e £250 per le istituzioni) e occupa 6 Gb.

CIC

The Cambridge International Corpus è un database molto ampio predisposto dalla Cambridge University Press. Contiene ad oggi circa 600 milioni di parole di inglese britannico e statunitense scritto e parlato, tratto da giornali, romanzi, saggi, trasmissioni TV e radio. Comprende inoltre al suo interno il corpus di parlato inglese Cancode, composto di 5 milioni di parole.

ANC

American National Corpus è un progetto americano tarato con gli stessi criteri del British National Corpus (BNC). Il corpus contiene 100 milioni di parole divise per vari generi secondo le percentuali del BNC e tratte da testi scritti e da trascrizioni di parlato. Il corpus sarà distribuito gratuitamente per ricerche a scopo scientifico. La prima versione, del 2003, conteneva 10 milioni di parole, ed è etichettata solo per parti del discorso. Il materiale viene distribuito dal Linguistic Data Consortium

Brown Corpus

Il Brown Corpus of Standard American English (Brown Corpus) è un corpus di riferimento bilanciato sincronico della lingua inglese americana scritta, creato da W. N. Francis e H. Kucera nel 1961 e reso pubblico nel 1964 alla Brown University (Stati Uniti). Il corpus è costituito da 500 testi, presi da 15 categorie diverse, per un totale di 1 milione di parole. Dal momento che è stato il primo corpus linguistico elettronico dell’inglese americano, è stato probabilmente quello più usato nella ricerca. Oggi il Brown Corpus è accorpato all’insieme dell’ICAME. Esiste anche una versione dell’inglese britannico ricalcata sul Brown corpus chiamata LOB.

LOB

Il Lancaster-Oslo/Bergen Corpus contiene circa un milione di parole in inglese britannico, in testi che partono dal 1961. Il corpus è stato tarato per essere il corrispondente britannico del Brown Corpus e contiene 500 testi di circa 2.000 parole divisi in 15 categorie diverse. È disponibile sia annotato (per parti del discorso) sia non annotato ed è distribuito nell’insieme di corpora ICAME.

Corpora di lingua inglese scritta e parlata

ICAME

L’International Computer Archive of Modern and Medieval English è un corpus della lingua inglese, specificamente approntato per la ricerca linguistica, dal Norwegian Computing Centre for the Humanities (NCCH) di Bergen in Norvegia. Si tratta di un insieme di diversi corpora di inglese scritto e parlato.

BoE

Bank of English è un corpus in continua espansione (monitor corpus) di testi scritti e parlati in inglese britannico. Il progetto procede insieme al lavoro lessicografico del Collins COBUILD English Dictionary for Advanced Learners (2001) e dell’Università di Birmingham. Un documento descrittivo sintetico è disponibile sul sito:http://www.lingsoft.fi/doc/engcg/Bank-of-English.html

COBUILD project (cfr. Bank of English)
International Computer Archive of Modern and Medieval English è un corpus della lingua inglese, specificamente approntato per la ricerca linguistica, dal Norwegian Computing Centre for the Humanities (NCCH) di Bergen in Norvegia. Si tratta in realtà di un insieme di diversi corpora di inglese scritto e parlato. Per l’inglese scritto, comprende il Brown Corpus, il LOB, e corpus di inglese australiano, indiano, africano e neozelandese; per l’inglese scritto, comprende il London Lund Corpus, il Lancaster/IBM Spoken English Corpus (SEC), il Corpus of London Teenage Language (COLT), e un corpus di parlato neozelandese e africano. Una parte del sec (MARSEC) è etichettata a livello fonetico. Del corpus fa parte anche una importante sezione storica che comprende il The Helsinki Corpus of English Texts: Diachronic Part, The Helsinki Corpus of Older Scots, Corpus of Early English Correspondance, The Newdigate Newsletters, Lampeter Corpus, Innsbruck Computer-Archive of Machine-Readable English Texts (ICAMET). Il corpus è distribuito su cd-rom , al costo di nok 3.500, e può anche essere interrogato online, previo pagamento di una sottoscrizione. I manuali dei corpora compresi in ICAME si possono scaricare gratuitamente all’indirizzo: http://khnt.hit.uib.no/icame/manuals/index.htm

COCA

Corpus of Contemporary American English, 425.000.000 parole, lingua inglese americano, periodo 1990-2011, parallelismo con: Google, BNC, ANC, BoE

COHA

Corpus of Historical American English, 400.000.000 parole, lingua inglese americano, periodo 1810-2009, parallelismo con: Google Books, piccoli corpora

TIME

Magazine Corpus of American English, 100.000.000 parole, lingua inglese americano, periodo 1923-2006

BYU-BNC

British National Corpus, 100.000.000 parole, lingua inglese, periodo anni ’80 – 1993, parallelismo con: COCA

GOOGLE BOOK

Google Book (American English) Corpus, 155.000.000 parole, lingua inglese americano, periodo 1810-2009, parallelismo con: Google Books standard

PHRASES IN ENGLISH

Esplora la distribuzione delle parole e delle frasi in inglese attraverso diverse interfacce di interrogazione.

Big English Word List

Creato da Keith Vertanen con il parallelismo di 10 diverse liste di parole: British national corpus, American national corpus, Gigaword newswire corpus, LM-CSR newswire corpus, Google corpus, Enron email corpus, Wikipedia, Moby word list, CMU pronuciation dictionary, 20 newsgroup corpus.

FREE WORD FREQUENCY

60.000 parole in inglese, posizionamento e frequenza, basato su CAE che contiene 425.000.000 di parole

Switchboard Corpus 

Lo Switchboard Corpus è un corpus specialistico dell’inglese americano. Basato sulle conversazioni telefoniche, è usato per addestrare i programmi per il riconoscimento automatico del parlato.

HCRC Map Task Corpus

L’HCRC Map Task Corpus è un corpus audio di dialoghi semi-spontanei raccolti col metodo ‘map task’ da parlanti adulti di inglese britannico.

Lingua francese

Corpora di lingua francese parlata

BDLEX 

Lexical Data and Knowledge Base of Spoken and Written French è una banca dati costituita da circa 440.000 parole (per 50.000 lemmi).

BREF

E’ un corpus di parlato continuo, fonico, ma non spontaneo, composto da testi tratti dal quotidiano francese “Le Monde”, letti ad alta voce da 120 diversi speakers.

RTFL Project (FRANTEXT)

E’un progetto di raccolta di testi in lingua francese fondato dall’American and French Research on the Treasury of the French Langua-ge (ARTFL). 114.7 milioni di parole dal 1700 al Ventesimo secolo.

QUÉBÉTEXT

Corpus di sogni di Michel Santacroce

Questo corpus è una raccolta di narrazioni di sogni (scritte e parlate) in lingua francese, 1999-2004. Il corpus (scaricabile in formato testuale PDF) è messo a disposizione dal sito della rivista on-line Marges Linguistiques.

Lingua tedesca

Lingua tedesca parlata e scritta

COSMAS

COSMAS I e II (Corpus Storage, Maintenance and Access System) è un corpus in sviluppo dal 1992, all’IDS (Institut für Deutsche Sprache) di Mannheim, che oggi conta circa 1.080 milioni di parole.

Negra Corpus

E’ un progetto dell’Università di Saarland, relativo a testi degli anni ’90.

TüBa-D/Z

The Tübingen Treebank of Written German è un corpus di linguaggio giornalistico tedesco annotato sintatticamente gestito dal Seminar für Sprachwissenschaft dell’Università di Tubinga.

Lingua spagnola

Lingua spagnola parlata e scritta

Corpus del español

Il corpus del español è stato ideato e gestito da Mark Davies e mette insieme una serie di corpora di origine diversa preparati negli anni. Contiene 100 milioni di parole di lingua spagnola scritta e orale dal 1200 ad oggi.

CREA

Il Corpus de Referencia de la Lengua Española Contemporánea della Real Academia Española è costituito da 100 milioni di parole tratte da testi] scritti e parlati (trascritti) dal 1975 ad oggi.

Corpora creati da Mark Davies

Davis ha costruito altri corpus tra i quali: il corpus di spagnolo storico (1200-1800, 4.000 testi), versioni spagnole della Bibbia (1.000.000 di parole), linguaggio giornalistico contemporaneo dello spagnolo latino-americano (35.000.000 di parole), testi letterari spagnoli e argentini, conversazioni parlate in spagnolo contemporaneo (2.500.000 parole di spagnolo anche latino-americano, e 1.000.000 di parlato spagnolo). Una lista di link a materiali relativi a questi corpora si può trovare online.

TREC

Spanish Corpus prodotto dal Linguistic Data Consortium (LDC).

Corpus chileno

Corpus argentino

Corpus oral peninsular http://www.elda.fr/catalogue/en/speech/S0006.html

Corpus del Español

Il corpus è formato da 100.000.000 parole, lingua spagnolo, periodo 1200-1900, parallelismo con: CORDE, CREA.

Lingua portoghese

Lingua portoghese parlata e scritta

SUBTLEX-NL

Corpus lingua olandese, 44.000.000 parole dai sottotitoli di film e televisione.

Multilingui e Paralleli

Corpora multilingui e paralleli

UNIVERSITA’ DI LEEDS
Elenchi parole del CTS in Inglese, Russo, Arabo, Cinese, Francese, Tedesco, Greco, Italiano, Portoghese, Spagnolo

French – English Parallel Corpus (BAF)

Un corpus di testi istituzionali paralleli (mutue traduzioni) di inglese e francese.

Bononia Legal Corpus (BoLC)

BoLC Italian – English Comparable Corpus è un corpus multilingue di testi di tipo giuridico di lingua italiana e inglese. Il progetto prevede l’estensione ad altre lingue ed è nato nel 1997, sviluppato al Centro Interfacoltà di Linguistica Teorica e Applicata ‘L. Heilmann’ con la consulenza scientifica di John Sinclair e coordinato da R. Rossini Favretti; i supporti informatici, invece, sono stati sviluppati da Fabio Tamburini.

CALLHOME project

Un corpus multilingue di parlato conversazionale, che copre spagnolo, cinese, giapponese, inglese americano, tedesco ed arabo.

CHILDES

Child Language Data Exchage System è un grande progetto finalizzato alla composizione di un corpus del parlato dei bambini, delle conversazioni con bambini e di alcune patologie del linguaggio (http://childes.psy.cmu.edu/).

C-ORAL-ROM

Un progetto di costruzione di un corpus di parlato spontaneo di quattro lingue romanze (italiano, francese, portoghese, spagnolo), coordinato da LABLITA.

CRATER

Un corpus trilingue di inglese, francese e spagnolo.

INTERSECT

(International Sample of English Contrastive Texts è un progetto dell’università di Brighton per la costruzione e analisi di testi scritti paralleli Inglese-Francese.

Korpus romanischer Zeitungssprachen (Französisch, Italienisch, Spanisch)

MULTEX

Multilingual Text Tools and Corpora è un corpus specialistico multilingue (inglese, francese, tedesco, spagnolo, italiano) parallelo. i testi sono tratti dall’Official Journal of the European Community. L’obiettivo è quello di definire standard per la codifica dei corpora, per lo sviluppo di strumenti applicativi e risorse multilingui.

REAL Parallel Corpus

(German-English Translation Corpus) raccoglie testi paralleli in inglese (americano e britannico) e tedesco.

TRATTORE

TELRI Research Archive of Computational Tools and Resources è un progetto mantenuto dal Centre for Corpus linguistics dell’università di Birmingham. Si tratta di un archivio di materiali e software per l’analisi di corpora. Tra le lingue trattate ci sono le principali lingue europee e anche bulgaro, ceco, le lingue baltiche, romeno, russo e altre.

AN.ANA.S._MT

Corpus AN.ANA.S. Multilingue nasce dalla volontà di estendere gli standard di etichettatura AN.ANA.S. a lingue diverse dall’italiano per costruire e disporre di un sistema applicabile almeno alle lingue dell’Europa Occidentale e, in prospettiva, creare una Treebank multilingue. Attualmente il corpus è costituito da testi di italiano, inglese e spagnolo parlato annotati sintatticamente, per un totale di circa 21300 parole.Si tratta sia di conversazioni spontanee (faccia a faccia o radiotelevisive) che di dialoghi elicitati (map task, test delle differenze).

The Internet TESL Journal’s

Elenco liste corpora utili

ECI/MCI

European Corpus Initiative Multilingual Corpus è un’iniziativa del 1994 che ha lo scopo della creazione e diffusione di corpus multilingue.

TRIPTIC

TRIlingual Parallel Text Information Corpus è un corpus di inglese, francese e olandese composto da circa 2 milioni di parole, in testi paralleli allineati.

Tatoeba

Un corpus parallelo open source che raccoglie frasi in 90 differenti lingue, di cui le prime dieci per importanza sono costituite da inglese, giapponese, esperanto, francese, tedesco, spagnolo, polacco, cinese mandarino, russo e italiano.

CHC

Il Canadian Hansards Corpus è un corpus specialistico bilingue (inglese e francese canadese) parallelo, i cui testi sono tratti dagli atti del Parlamento canadese.