app corpora

scarica l'app, 

è gratuita !

 

 

 

 

 

 

corpora in inglese

 

 

Corpora | repertori

 

Parlar italiano
repertorio di corpora dell'italiano parlato ospitato dall'Università di Salerno. Le schede descrivono le caratteristiche e le aree tematiche dei progetti di indagine e forniscono l'accesso diretto ai corpora.

 

 

Repertorio delle Banche Dati dell'Italiano Parlato
censimento dei corpora più importanti dell'italiano parlato che sono stati raccolti e pubblicati dal 1965 in poi. Il repertorio e' ospitato su un sito gratuito dedicato alla pubblicazione di corpora e altri materiali per l'analisi e lo studio dell'italiano parlato che fa parte del Language Server della Karl-Franzens-Universität Graz (Austria).

 

 

corpora italiano

 

 

Corpora di lingua francese

 

Lexical Data and Knowledge Base of Spoken and Written French è una banca dati costituita da circa 440.000 parole (per 50.000 lemmi).
Corpora di lingua francese parlata 
 
E'un corpus di parlato continuo, fonico, ma non spontaneo, composto da testi tratti dal quotidiano francese "Le Monde", letti ad alta voce da 120 diversi speakers.
 
 
RTFL Project (FRANTEXT) 
E'un progetto di raccolta di testi in lingua francese fondato dall’American and French Research on the Treasury of the French Langua-ge (ARTFL). 114.7 milioni di parole dal 1700 al Ventesimo secolo. 
 
 
 
 
Questo corpus è una raccolta di narrazioni di sogni (scritte e parlate) in lingua francese, 1999-2004. Il corpus (scaricabile in formato testuale PDF) è messo a disposizione dal sito della rivista on-line Marges Linguistiques. 

 

 

corpora

 

 

Corpora di lingua tedesca

 

COSMAS I e II (Corpus Storage, Maintenance and Access System) è un corpus in sviluppo dal 1992, all'IDS (Institut für Deutsche Sprache) di Mannheim, che oggi conta circa 1.080 milioni di parole.
 
 
E' un progetto dell'Università di Saarland, relativo a testi degli anni '90.
 
 
The Tübingen Treebank of Written German è un corpus di linguaggio giornalistico tedesco annotato sintatticamente gestito dal Seminar für Sprachwissenschaft dell’Università di Tubinga.

 

 

corpora

 

Corpora di lingua spagnola

 
 
Il corpus del español è stato ideato e gestito da Mark Davies e mette insieme una serie di corpora di origine diversa preparati negli anni. Contiene 100 milioni di parole di lingua spagnola scritta e orale dal 1200 ad oggi.
 
 
Il Corpus de Referencia de la Lengua Española Contemporánea della Real Academia Española è costituito da 100 milioni di parole tratte da testi] scritti e parlati (trascritti) dal 1975 ad oggi.
 
 
Davis ha costruito altri corpus tra i quali: il corpus di spagnolo storico (1200-1800, 4.000 testi), versioni spagnole della Bibbia (1.000.000 di parole), linguaggio giornalistico contemporaneo dello spagnolo latino-americano (35.000.000 di parole), testi letterari spagnoli e argentini, conversazioni parlate in spagnolo contemporaneo (2.500.000 parole di spagnolo anche latino-americano, e 1.000.000 di parlato spagnolo). Una lista di link a materiali relativi a questi corpora si può trovare online.
 
 
Spanish Corpus prodotto dal Linguistic Data Consortium (LDC).
 
 
 
 
 
 
Corpus oral peninsular http://www.elda.fr/catalogue/en/speech/S0006.html
 
 
Il corpus è formato da 100.000.000 parole, lingua spagnolo, periodo 1200-1900, parallelismo con: CORDE, CREA

 

 

corpora

 

Corpora di lingua portoghese

 

Il corpus è formato da  45.000.000 parole, lingua portoghese, periodo 1300-1900
 
 

 

 

corpora

 

Corpora di lingua olandese

 

 

Corpus lingua olandese, 44.000.000 parole dai sottotitoli di film e televisione.
 
 

 

 

corpora

Corpora multilingui e paralleli

 

UNIVERSITA' DI LEEDS
Elenchi parole del CTS in Inglese, Russo, Arabo, Cinese, Francese, Tedesco, Greco, Italiano, Portoghese, Spagnolo

 

Un corpus di testi istituzionali paralleli (mutue traduzioni) di inglese e francese.

 

BoLC Italian - English Comparable Corpus  è un corpus multilingue di testi di tipo giuridico di lingua italiana e inglese. Il progetto prevede l'estensione ad altre lingue ed è nato nel 1997, sviluppato al Centro Interfacoltà di Linguistica Teorica e Applicata 'L. Heilmann' con la consulenza scientifica di John Sinclair e coordinato da R. Rossini Favretti; i supporti informatici, invece, sono stati sviluppati da Fabio Tamburini.

 

Un corpus multilingue di parlato conversazionale, che copre spagnolo, cinese, giapponese, inglese americano, tedesco ed arabo. 

 

Child Language Data Exchage System è un grande progetto finalizzato alla composizione di un corpus del parlato dei bambini, delle conversazioni con bambini e di alcune patologie del linguaggio (http://childes.psy.cmu.edu/). 

 

Un progetto di costruzione di un corpus di parlato spontaneo di quattro lingue romanze (italiano, francese, portoghese, spagnolo), coordinato da LABLITA. 

 

Un corpus trilingue di inglese, francese e spagnolo. 
 

 

INTERSECT

(International Sample of English Contrastive Texts è un progetto dell’università di Brighton per la costruzione e analisi di testi scritti paralleli Inglese-Francese.

 

Korpus romanischer Zeitungssprachen (Französisch, Italienisch, Spanisch)

 

Multilingual Text Tools and Corpora è un corpus specialistico multilingue (inglese, francese, tedesco, spagnolo, italiano) parallelo. i testi sono tratti dall'Official Journal of the European Community. L'obiettivo è quello di definire standard per la codifica dei corpora, per lo sviluppo di strumenti applicativi e risorse multilingui.

 

(German-English Translation Corpus) raccoglie testi paralleli in inglese (americano e britannico) e tedesco. 
 

 

TELRI Research Archive of Computational Tools and Resources è un progetto mantenuto dal Centre for Corpus linguistics dell’università di Birmingham. Si tratta di un archivio di materiali e software per l’analisi di corpora. Tra le lingue trattate ci sono le principali lingue europee e anche bulgaro, ceco, le lingue baltiche, romeno, russo e altre.

 

Corpus AN.ANA.S. Multilingue nasce dalla volontà di estendere gli standard di etichettatura AN.ANA.S. a lingue diverse dall’italiano per costruire e disporre di un sistema applicabile almeno alle lingue dell’Europa Occidentale e, in prospettiva, creare una Treebank multilingue. Attualmente il corpus è costituito da testi di italiano, inglese e spagnolo parlato annotati sintatticamente, per un totale di circa 21300 parole.Si tratta sia di conversazioni spontanee (faccia a faccia o radiotelevisive) che di dialoghi elicitati (map task, test delle differenze).
 

 

Un elenco di liste molto utili 
 

 

ECI/MCI
European Corpus Initiative Multilingual Corpus è un’iniziativa del 1994 che ha lo scopo della creazione e diffusione di corpus multilingue. 

 

TRIPTIC
TRIlingual Parallel Text Information Corpus è un corpus di inglese, francese e olandese composto da circa 2 milioni di parole, in testi paralleli allineati.

 

Tatoeba
Un corpus parallelo open source che raccoglie frasi in 90 differenti lingue, di cui le prime dieci per importanza sono costituite da inglese, giapponese, esperanto, francese, tedesco, spagnolo, polacco, cinese mandarino, russo e italiano

 

CHC 
Il Canadian Hansards Corpus è un corpus specialistico bilingue (inglese e francese canadese) parallelo, i cui testi sono tratti dagli atti del Parlamento canadese.

 

corpora

 

 

 

 

corpora

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

corpora

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

abc  @  parolando.it
 

Contatto                                                 Privacy