Analisi del testo della frequenza: caratteristiche ed esempi

Sommario:

Analisi del testo della frequenza: caratteristiche ed esempi
Analisi del testo della frequenza: caratteristiche ed esempi
Anonim

Hai incontrato questo concetto più di una volta nella tua vita se dovevi lavorare con i testi. In particolare, potresti rivolgerti a calcolatori online che effettuano esattamente l'analisi di frequenza del testo. Questi utili strumenti mostrano quante volte un particolare carattere o lettera ricorre in un qualsiasi passaggio di testo. Spesso viene mostrata anche una percentuale. Perché è necessario? In che modo l'analisi della frequenza del testo contribuisce al "cracking" di semplici cifrari? Qual è la sua essenza, chi l'ha inventata? Risponderemo a queste e ad altre importanti domande sull'argomento nel corso dell'articolo.

Definizione

L'analisi di frequenza è una delle varietà di crittoanalisi. Si basa sul presupposto degli scienziati sull'esistenza di una distribuzione statistica non banale dei singoli caratteri e delle loro sequenze regolari sia nel testo normale che in quello cifrato.

Si ritiene che tale distribuzione, fino alla sostituzione dei singoli caratteri, sarà preservata anche nei processi di cifratura/decodifica.

analisi di frequenza dei sistemi
analisi di frequenza dei sistemi

Caratteristiche del processo

Ora diamo un'occhiata all'analisi della frequenza in termini semplici. Ciò implica che il numero di occorrenze dello stesso carattere alfabetico in testi di lunghezza sufficiente è lo stesso in testi diversi scritti nella stessa lingua.

E ora che dire della crittografia monoalfabetica? Si presume che se c'è un carattere con una simile probabilità di occorrenza nella sezione con testo cifrato, allora è realistico presumere che sia quella lettera cifrata.

I seguaci dell'analisi del testo della frequenza applicano lo stesso ragionamento ai digrammi (sequenze di due lettere). Trigrammi - questo è per il caso di cifrari già polialfabetici.

Storia del metodo

L'analisi della frequenza delle parole non è una scoperta della modernità. È noto al mondo scientifico sin dal IX secolo. La sua creazione è associata al nome Al-Kindi.

Ma i casi noti di applicazione del metodo di analisi della frequenza appartengono a un periodo molto più tardo. L'esempio più eclatante qui è la decifrazione dei geroglifici egizi, prodotta nel 1822 da J.-F. Champollion.

Se passiamo alla finzione, possiamo trovare molti riferimenti interessanti a questo metodo di decrittazione:

  • Conan Doyle - "The Dancing Men".
  • Jules Verne - "Figli del capitano Grant".
  • Edgar Poe - "Gold Bug".

Tuttavia, dalla metà del secolo scorso, la maggior parte degli algoritmi utilizzati nella crittografia sono stati sviluppati tenendo conto della loro resistenza a tale crittoanalisi di frequenza. Pertanto essooggi sono spesso usati solo per addestrare futuri crittografi.

analisi della frequenza del testo
analisi della frequenza del testo

Metodo di base

Presentiamo ora in dettaglio l'analisi della risposta in frequenza. Questo tipo di analisi si basa direttamente sul fatto che il test è composto da parole e quelle, a loro volta, da lettere. Il numero di lettere che riempiono gli alfabeti nazionali è limitato. Le lettere possono essere semplicemente elencate qui.

Le caratteristiche più importanti di un tale testo saranno sia la ripetizione di lettere, vari bigram, trigrammi e n-grammi, sia la compatibilità di varie lettere tra loro, l' alternanza di consonanti/vocali e altro varietà di questi simboli.

L'idea principale dei metodi è contare le occorrenze di possibili n-grammi (indicati da nm) in testi in chiaro abbastanza lunghi per l'analisi (indicati da T=t1t2…tl) composti da lettere dell'alfabeto nazionale (indicato con {a1, a2, …, an}). Tutto quanto sopra fa sì che alcuni m-grammi consecutivi del testo:

t1t2…tm, t2t3… tm+1, …, ti-m+1tl-m+2…tl.

Se questo è il numero di occorrenze dell'm-gram ai1ai2…mira in un certo testo T, e L è il numero totale di m-grammi analizzati dal ricercatore, allora è possibile stabilire empiricamente che per L sufficientemente grande, le frequenze per un tale m-gram saranno leggermente diverse l'una dall' altra.

analisi di frequenza
analisi di frequenza

Lettere frequenti dell'alfabeto russo

Ma l'analisi tempo-frequenza, nonostante il nome simile, non ha nulla a che fare con l'argomento della nostra conversazione. Questo tipo di analisi viene effettuata persegnali provenienti da stazioni radar a bassa osservabilità utilizzando una speciale trasformata wavelet.

Ora torniamo all'argomento principale. Quando si esegue un'analisi della frequenza, è possibile scoprire quali lettere dell'alfabeto russo si trovano più spesso in testi abbastanza voluminosi (percentuale da 0,062 a 0,018):

  • LA.
  • V.
  • Re.
  • F.
  • I.
  • K.
  • M.
  • O.
  • R.
  • T.
  • F.
  • T.
  • Sh.
  • b.
  • E.
  • I.

È stata introdotta anche una speciale regola mnemonica, che aiuta ad imparare le lettere più comuni dell'alfabeto russo. Per fare questo, è sufficiente ricordare una sola parola: "fienile".

In generale, la frequenza di utilizzo delle lettere in termini percentuali è semplicemente impostata: lo specialista conta quante volte la lettera compare nel testo, quindi divide il valore risultante per il numero totale di caratteri del testo. E per esprimere questo valore in percentuale basta moltiplicarlo per 100.

È importante considerare che la frequenza dipenderà non solo dal volume del testo, ma anche dalla sua natura. Ad esempio, nelle fonti tecniche la lettera "F" appare molto più spesso che nella narrativa. Pertanto, per risultati oggettivi, uno specialista deve digitare testi di varia natura e stile per la ricerca.

programmi di analisi della frequenza del testo
programmi di analisi della frequenza del testo

Bi-, tri-, quattro grammi

Nei testi significativi, puoi anche trovare i più comuni (rispettivamente, i piùripetute) combinazioni di due o più lettere. Gli specialisti hanno anche compilato diverse tabelle, che indicano le frequenze di digrammi simili di vari alfabeti.

Per quanto riguarda il russo, l'analisi della frequenza dei sistemi di testi voluminosi e significativi ha permesso di stabilire i bigram e i trigram più comuni:

  • IT.
  • ST.
  • MA.
  • NON.
  • ON.
  • RA.
  • OV.
  • KO.
  • VO.
  • STO.
  • NUOVO
  • ENO.
  • TOV.
  • OVA.
  • OVO.

Le relazioni preferite tra le lettere

E queste non sono tutte le possibilità che l'analisi della frequenza può fornire ai ricercatori di testo. Sistematizzando le informazioni da tabelle simili di bigram e trigram, è possibile estrarre dati sulle più comuni combinazioni di lettere. O, in altre parole, i loro rapporti preferiti tra loro.

Uno studio così ampio è già stato condotto da esperti. Il risultato fu una tabella in cui, insieme a ogni lettera dell'alfabeto, venivano indicati i suoi vicini. Inoltre, quei personaggi che spesso si trovano sia subito prima che dopo. Le lettere nella tabella non sono scritte a caso. Più vicino al simbolo, sono indicati i vicini più frequenti, ulteriormente - quelli più rari.

Considera esempi:

  • Lettera "A". Qui si distinguono le seguenti connessioni preferite: l-d-k-t-v-r-n-A-l-n-s-t-r-v-to-m. Da qui vediamo che molto spesso prima di "A" nei testi c'è "H" ("NA"). E dopo "A" il più delle volte nei testi in russo possiamo incontrare "L"("AL").
  • Lettera "M". Gli esperti hanno identificato tali connessioni preferite: "I-s-a-i-e-o-M-i-e-o-u-a-n-p-s".
  • Lettera "b". Le connessioni preferite sono le seguenti: "n-s-t-l-b-n-k-v-p-s-e-o-i".
  • Lettera "Sh". Collegamenti preferiti: "e-b-a-i-u-Sch-e-i-a".
  • Lettera "P". Collegamenti preferiti con questo simbolo dell'alfabeto russo: "v-s-u-a-i-e-o-P-o-r-e-a-u-i-l".
analisi tempo-frequenza
analisi tempo-frequenza

Cosa definisce l'analisi?

I moderni programmi di analisi del testo con frequenza aiutano a studiare grandi volumi di un'ampia varietà di articoli, saggi, passaggi e così via. Le seguenti informazioni vengono fornite al ricercatore come standard:

  • Numero totale di caratteri nel testo.
  • Numero di spazi utilizzati dall'autore.
  • Numero di cifre.
  • Informazioni sui segni di punteggiatura utilizzati - punti, virgole, ecc.
  • Il numero di lettere in ciascuno degli alfabeti disponibili: cirillico, latino, ecc.
  • Informazioni sulla frequenza di utilizzo di ogni lettera e simbolo nel testo - il numero di citazioni e la percentuale rispetto all'intero testo.

Lotta contro l'eccessiva ottimizzazione e la sovrasaturazione

Perché viene eseguita l'analisi della frequenza del testo? È solo per curiosità: stabilire quali caratteri nel testo scritto si sono rivelati incontrati di frequente? No, l'applicazione principale dell'analisi è pratica e sta altrove.

N-grammi non includono solo bigram e trigram stabili. Allo stessole categorie includono parole chiave (tag), collocazioni. Cioè, combinazioni stabili composte da due o più parole. Si distinguono per il fatto che tali composizioni si trovano insieme nel testo e allo stesso tempo portano un certo carico semantico.

Questo gioca nelle mani di specialisti SEO senza scrupoli. Nel loro lavoro, a volte abusano della ripetizione di tag e parole chiave nel testo per aumentare artificialmente la rilevanza di una determinata pagina web. Stanno cercando di ingannare il sistema con un tale "trucco": trasformare una combinazione naturale con la solita combinazione di parole, tradizionale per la lingua russa ("compra una pelliccia di visone") in una incoerente. Ovvero, ottenuto riordinando le parole in un N-gram così naturale ("compra una pelliccia di visone").

Ma oggi, gli algoritmi di ricerca hanno imparato a rilevare l'ottimizzazione eccessiva con la stessa efficacia dell'overspam: saturazione eccessiva del testo con parole chiave, tag che influiscono sul posizionamento dei risultati nella pagina di ricerca. Le pagine sovra-ottimizzate ora sono, al contrario, classificate più in basso in base alla query dell'utente. E le persone stesse non tendono a leggere testo insignificante, saturo di tag, preferendo informazioni utili su un' altra risorsa.

metodo di analisi della frequenza
metodo di analisi della frequenza

Aiutare l'analisi privata per gli specialisti SEO

Così, i moderni filtri di testo dei motori di ricerca oggi danno la preferenza a quelle pagine Internet, le cui informazioni non sono solo facili da leggere, ma anche utili ai visitatori. Per ottimizzare il loro lavoro per i nuovi standard, gli specialisti SEOe passare all'analisi della frequenza del testo. Molti servizi popolari lo forniscono oggi.

L'analisi della frequenza aiuta a rivedere il testo in preparazione per la pubblicazione a scopo informativo. Elimina la ridondanza non necessaria di tag e frasi chiave. Consente inoltre di attirare l'attenzione dell'autore su combinazioni innaturali di parole che destano sospetti nei filtri di testo dei motori di ricerca.

analisi della risposta in frequenza
analisi della risposta in frequenza

L'analisi della frequenza del testo aiuta quindi a determinare la frequenza di menzione di un particolare carattere nella fonte. Il metodo viene utilizzato oggi per valutare il sovraccarico di testo con tag, permutazioni innaturali di parole.

Consigliato: