N-gramma
Un n-gramma è una sottosequenza di n elementi di una data sequenza. Secondo l'applicazione, gli elementi in questione possono essere fonemi, sillabe, lettere, parole, ecc. Un n-gramma di lunghezza 1 è chiamato "unigramma", di lunghezza 2 "digramma", di lunghezza 3 "trigramma" e, da lunghezza 4 in poi, "n-gramma". Alcuni modelli del linguaggio costruiti a partire da n-grammi sono catene di Markov di ordine n-1.
Esempi
modificaSeguono alcuni esempi di trigrammi di parole e relativi conteggi ottenuti dal Google n-gram corpus.
- ceramics collectables collectibles (55)
- ceramics collectables fine (130)
- ceramics collected by (52)
- ceramics collectible pottery (50)
- ceramics collectibles cooking (45)
Bibliografia
modifica- (EN) Christopher D. Manning e Hinrich Schütze, Foundations of Statistical Natural Language Processing, MIT Press, 1999, ISBN 0-262-13360-1.
- Ted Dunning, Statistical Identification of Language. Computing Research Laboratory Memorandum (1994) MCCS-94-273.
- Owen White, Ted Dunning, Granger Sutton, Mark Adams, J.Craig Venter, and Chris Fields. A quality control algorithm for dna sequencing projects. Nucleic Acids Research, 21(16):3829--3838, 1993.
- Frederick J. Damerau, Markov Models and Linguistic Theory. Mouton. The Hague, 1971.