Cos'è la linguistica dei corpi?

Sommario:

Cos'è la linguistica dei corpi?
Cos'è la linguistica dei corpi?
Anonim

Diversi decenni fa, gli scienziati potevano solo sognare di automatizzare la ricerca linguistica. Il lavoro è stato fatto a mano, un gran numero di studenti è stato coinvolto, c'era una probabilità significativa di un errore di "disattenzione" e, soprattutto, ci è voluto molto, molto tempo.

Con lo sviluppo della tecnologia informatica, è diventato possibile condurre ricerche molto più velocemente e oggi una delle aree promettenti nello studio della lingua è la linguistica dei corpi. La sua caratteristica principale è l'utilizzo di grandi quantità di informazioni testuali, consolidate in un unico database, marcate in modo speciale e chiamate corpus.

Oggi, ci sono molti corpora creati per scopi diversi, basati su materiale linguistico diverso, che coprono da milioni a decine di miliardi di unità lessicali. Questa direzione è riconosciuta come promettente e dimostra progressi significativi nel raggiungimento degli obiettivi applicati e di ricerca. Professionisti, in un modo o nell' altro che affrontanolinguaggio naturale, si raccomanda di familiarizzare con i corpora testuali almeno a livello base.

Storia della linguistica dei corpi

La formazione di questa direzione è legata alla creazione del Brown Corps negli USA all'inizio degli anni '60 del secolo scorso. La raccolta di testi consisteva di solo 1 milione di forme di parole e oggi un corpus di un tale volume sarebbe completamente non competitivo. Ciò è in gran parte dovuto al ritmo di sviluppo della tecnologia informatica, nonché alla crescente domanda di nuove risorse di ricerca.

Negli anni '90, la linguistica dei corpi si è trasformata in una disciplina a tutti gli effetti e indipendente, raccolte di testi sono state compilate e contrassegnate per diverse dozzine di lingue. Durante questo periodo, ad esempio, il British National Corpus è stato creato per 100 milioni di parole usate.

linguistica dei corpi
linguistica dei corpi

Man mano che questa direzione della linguistica si sviluppa, il volume dei testi diventa più grande (e raggiunge miliardi di unità di vocabolario) e il markup diventa sempre più vario. Oggi, nello spazio Internet, puoi trovare corpora di discorsi scritti e orali, multilingue e didattici, incentrati sulla narrativa o sulla letteratura accademica, oltre a molte altre varietà.

Che casi ci sono

I tipi di corpus nella linguistica dei corpus possono essere rappresentati in diversi modi. È intuitivamente chiaro che la base per la classificazione può essere la lingua dei testi (russo, tedesco), la modalità di accesso (open source, closed source, commerciale), il genere del materiale di partenza (fictionletteratura, documentario, accademico, giornalismo).

metodi della linguistica dei corpora
metodi della linguistica dei corpora

In modo interessante, viene eseguita la generazione di materiali che rappresentano il discorso orale. Poiché la registrazione deliberata di tale discorso creerebbe condizioni artificiali per gli intervistati e il materiale risultante non potrebbe essere definito "spontaneo", la moderna linguistica dei corpus è andata dall' altra parte. Il volontario è dotato di microfono, e durante la giornata vengono registrate tutte le conversazioni a cui partecipa. Le persone circostanti, ovviamente, non possono sapere che nel corso di una conversazione quotidiana stanno contribuendo allo sviluppo della scienza.

Successivamente, le registrazioni audio ricevute vengono archiviate nella banca dati e sono accompagnate da testo stampato come una trascrizione. In questo modo, diventa possibile il markup necessario per creare un corpus di discorsi quotidiani parlati.

Applicazione

Dove è possibile utilizzare la lingua, è anche possibile utilizzare corpora di testo. Lo scopo dell'utilizzo dei metodi corpus in linguistica può essere:

  • Creare programmi di sentiment ampiamente utilizzati in politica e negli affari per tenere traccia dei feedback positivi e negativi rispettivamente di elettori e clienti.
  • Collegamento del sistema informativo a dizionari e traduttori per migliorarne le prestazioni.
  • Vari compiti di ricerca che contribuiscono alla comprensione della struttura della lingua, della storia del suo sviluppo e delle previsioni del suo cambiamento nel prossimo futuro.
  • Sviluppo di sistemi di estrazione di informazioni basati su morfologia,caratteristiche sintattiche, semantiche e di altro tipo.
  • Ottimizzazione del lavoro di vari sistemi linguistici, ecc.

Usare le conchiglie

L'interfaccia delle risorse è simile a un tipico motore di ricerca e richiede all'utente di inserire una parola o una combinazione di parole per cercare nell'infobase. Oltre al modulo di richiesta esatto, puoi utilizzare la versione estesa, che ti consente di trovare informazioni testuali in base a quasi tutti i criteri linguistici.

informatica e linguistica dei corpora
informatica e linguistica dei corpora

La base per la ricerca può essere:

  • appartenente a un certo gruppo di parti del discorso;
  • caratteristiche grammaticali;
  • semantica;
  • colorazione stilistica ed emozionale.

Inoltre, puoi combinare i criteri di ricerca per una sequenza di parole: ad esempio, trova tutte le occorrenze di un verbo al presente, prima persona, singolare seguito dalla preposizione "in" e un sostantivo in accusativo. Risolvere un compito così semplice richiede all'utente pochi secondi e richiede solo pochi clic del mouse nei campi indicati.

Processo di creazione

La ricerca stessa può essere effettuata sia in tutti i sottocorpi, sia in uno, appositamente selezionato, a seconda delle esigenze al raggiungimento di uno specifico obiettivo:

  1. Prima di tutto, si determina quali testi formeranno la base del corpus. Per scopi pratici, vengono spesso utilizzati materiali giornalistici, giornali, commenti su Internet. Nei progetti di ricerca, la maggior partevari tipi di corpora, ma i testi devono essere selezionati su una base comune.
  2. Il set di testi risultante viene preelaborato, eventuali errori vengono corretti, viene preparata una descrizione bibliografica ed extralinguistica del testo.
  3. Tutte le informazioni non testuali vengono filtrate: grafica, immagini, tabelle vengono eliminate.
  4. I token, solitamente parole, vengono allocati per ulteriori elaborazioni.
  5. Infine, viene eseguita la marcatura morfologica, sintattica e di altro tipo dell'insieme di elementi risultante.

Il risultato di tutte le operazioni eseguite è una struttura sintattica con un insieme di elementi distribuiti su di essa, per ognuno dei quali vengono definite una parte del discorso, caratteristiche grammaticali e, in alcuni casi, semantiche.

Difficoltà nella creazione dei casi

È importante capire che per ottenere un corpus non basta mettere insieme tante parole o frasi. Da un lato, una raccolta di testi deve essere equilibrata, cioè presentare diversi tipi di testi in determinate proporzioni. D' altra parte, il contenuto della custodia deve essere contrassegnato in modo speciale.

Linguistica dei corpi di Zacharov
Linguistica dei corpi di Zacharov

Il primo problema si risolve di comune accordo: ad esempio, la raccolta comprende il 60% di testi di narrativa, il 20% di documentari, una certa quota è data alla presentazione scritta di discorsi orali, atti legislativi, articoli scientifici, ecc.. La ricetta ideale per un corpus equilibrato oggi non esiste.

La seconda domanda riguardante il markup dei contenuti è più difficile da risolvere. Esistono programmi e algoritmi speciali utilizzati per il markup automatico dei testi, ma non danno un risultato del 100%, possono causare errori e richiedere un perfezionamento manuale. Opportunità e problemi nella risoluzione di questo problema sono descritti in dettaglio nel lavoro di V. P. Zakharov sulla linguistica dei corpi.

Il markup del testo viene eseguito a diversi livelli, che elencheremo di seguito.

Marcatura morfologica

Dal banco di scuola, ricordiamo che nella lingua russa ci sono diverse parti del discorso, e ognuna di esse ha le sue caratteristiche. Ad esempio, un verbo ha categorie di umore e tempo che un sostantivo non ha. Un madrelingua rifiuta i nomi e coniuga i verbi senza esitazione, ma il lavoro manuale non è adatto per contrassegnare un corpus di 100 milioni di usi di parole. Tutte le operazioni necessarie possono essere eseguite da un computer, tuttavia, per questo deve essere insegnato.

Il markup morfologico è necessario affinché il computer "capisca" ogni parola come una parte del discorso che ha determinate caratteristiche grammaticali. Poiché un certo numero di regole regolari funzionano in lingua russa (come in qualsiasi altra), è possibile costruire una procedura automatica per l'analisi morfologica inserendo un certo numero di algoritmi nella macchina. Tuttavia, ci sono eccezioni alla regola, oltre a vari fattori complicanti. Di conseguenza, la pura analisi del computer oggi è tutt' altro che ideale e anche gli errori del 4% danno un valore di 4 milioni di parole in un corpus di 100 milioni di unità, il che richiede un perfezionamento manuale.

Questo problema è descritto in dettaglio dal libro di V. P. Zakharov "Corpus Linguistics".

Marcatura sintattica

L'analisi sintattica o l'analisi è una procedura che determina la relazione delle parole in una frase. Con l'aiuto di una serie di algoritmi, diventa possibile determinare l'oggetto, il predicato, le aggiunte e le varie evoluzioni del discorso nel testo. Determinando quali parole nella sequenza sono principali e quali dipendenti, possiamo estrarre in modo efficiente informazioni dal testo e addestrare la macchina a restituire solo le informazioni che ci interessano in risposta a una richiesta di ricerca.

laboratori di corpus linguistica nelle università russe
laboratori di corpus linguistica nelle università russe

A proposito, i moderni motori di ricerca lo usano per fornire numeri specifici invece di lunghi testi in risposta a domande pertinenti come: "quante calorie ci sono in una mela" o "distanza da Mosca a San Pietroburgo". Tuttavia, per comprendere anche le basi del processo descritto, dovrai familiarizzare con "Introduzione alla Linguistica dei Corpus" o un altro libro di testo di base.

Marcatura semantica

La semantica di una parola è, in parole povere, il suo significato. Un approccio ampiamente applicabile nell'analisi semantica è l'attribuzione di tag a una parola, che riflette la sua appartenenza a un insieme di categorie e sottocategorie semantiche. Tali informazioni sono preziose per ottimizzare gli algoritmi di analisi del sentimento del testo, il riferimento automatico e l'esecuzione di altre attività utilizzando i metodi della linguistica del corpo.

Ci sono un certo numero di "radici" dell'albero, che sono parole astratte che hannosemantica molto ampia. Man mano che questo albero si ramifica, si formano nodi contenenti elementi lessicali sempre più specifici. Ad esempio, la parola "creatura" può essere associata a concetti come "umano" e "animale". La prima parola continuerà a ramificarsi in varie professioni, termini di parentela, nazionalità e la seconda - in classi e tipi di animali.

Utilizzo di sistemi di recupero delle informazioni

Le sfere d'uso della linguistica del corpo coprono un'ampia varietà di aree di attività. I corpora sono usati per compilare e correggere dizionari, creare sistemi di traduzione automatica, riassumere, estrarre fatti, determinare sentimenti e altre elaborazioni di testi.

Corpus linguistica tipi di corpus
Corpus linguistica tipi di corpus

Inoltre, tali risorse vengono utilizzate attivamente nello studio delle lingue del mondo e dei meccanismi di funzionamento della lingua nel suo insieme. L'accesso a grandi volumi di informazioni pre-preparate contribuisce allo studio rapido e completo delle tendenze nello sviluppo delle lingue, alla formazione di neologismi e turni linguistici stabili, ai cambiamenti nei significati delle unità lessicali, ecc.

Poiché lavorare con volumi di dati così grandi richiede automazione, oggi c'è una stretta interazione tra il computer e la linguistica dei corpus.

Corpus nazionale della lingua russa

Questo corpus (abbreviato in NKRC) include una serie di sottocorpus che consentono di utilizzare la risorsa per risolvere un'ampia varietà di compiti.

I materiali nel database NCRA sono suddivisi in:

  • sulle pubblicazioni nei media degli anni '90 e 2000anni, sia nazionali che esteri;
  • registrazioni di discorsi orali;
  • accento testi contrassegnati logicamente (cioè con accenti);
  • discorso in dialetto;
  • opere poetiche;
  • materiali con markup sintattico, ecc.

Il sistema informativo comprende anche sottocorpi con traduzioni parallele di opere dal russo all'inglese, tedesco, francese e molte altre lingue (e viceversa).

Inoltre, il database ha una sezione di testi storici che rappresentano discorsi scritti in russo in vari periodi del suo sviluppo. C'è anche un corpus di formazione che può essere utile per i cittadini stranieri nella padronanza della lingua russa.

Il corpus nazionale della lingua russa comprende 400 milioni di unità lessicali e per molti versi precede una parte significativa dei corpora delle lingue europee.

Prospettive

Un dato a favore del riconoscimento di quest'area come promettente è la presenza di laboratori di corpus linguistics nelle università russe, oltre che in quelle straniere. Con l'uso e la ricerca nell'ambito delle risorse di reperimento delle informazioni considerate, è associato lo sviluppo di alcune aree nel campo delle alte tecnologie, i sistemi di domande e risposte, ma questo è stato discusso sopra.

storia della linguistica dei corpora
storia della linguistica dei corpora

Ulteriore sviluppo della linguistica dei corpora è previsto a tutti i livelli, da quello tecnico, in termini di introduzione di nuovi algoritmi che ottimizzino i processi di ricerca ed elaborazione delle informazioni, ampliando le capacità dei computer, aumentando lememoria e termina con quelli domestici, poiché gli utenti trovano sempre più modi per utilizzare questo tipo di risorsa nella vita di tutti i giorni e al lavoro.

In conclusione

A metà del secolo scorso, il 2017 sembrava un futuro lontano, in cui i veicoli spaziali navigano nelle distese dell'Universo e i robot fanno tutto il lavoro per le persone. In re altà, tuttavia, la scienza è piena di "punti vuoti" e sta facendo tentativi disperati di rispondere a domande che hanno turbato l'umanità per secoli. Le domande sul funzionamento della lingua hanno qui un posto d'onore, e il corpus e la linguistica computazionale possono aiutarci a rispondere.

L'elaborazione di grandi quantità di dati consente di rilevare schemi precedentemente inaccessibili, prevedere lo sviluppo di determinate caratteristiche linguistiche, monitorare la formazione delle parole quasi in tempo reale.

A livello pratico globale, i corpora possono essere considerati, ad esempio, come un potenziale strumento per valutare il sentimento pubblico - Internet è un database continuamente aggiornato di vari testi creati da utenti reali: si tratta di commenti, recensioni, articoli, e molte altre forme di discorso.

Inoltre, lavorare con i corpora contribuisce allo sviluppo degli stessi mezzi tecnici coinvolti nel recupero delle informazioni, a noi familiari dai servizi Google o Yandex, dalla traduzione automatica, dai dizionari elettronici.

Si può affermare con certezza che il corpus linguistics sta solo facendo i suoi primi passi e si svilupperà rapidamente nel prossimo futuro.

Consigliato: