N-gram

N-gram je odborný termín, který je definován jako sled n po sobě jdoucích položek z dané posloupnosti. Ze sémantického pohledu může být tato posloupnost buď posloupností slov nebo písmen, nebo čehokoli jiného (včetně interpunkčních znamének a mezer). V praxi se častěji vyskytují n-gramy jako sled slov.

N-gram tvořený jednou položkou se nazývá unigram, sled dvou po sobě jdoucích slov bývá často označován jako bigram, pro sled tří položek je zažitý pojem trigram. Od čtyř a výše se používá označení n-gram, kde n je nahrazeno počtem za sebou jdoucích elementů. Při řešení úloh z oblasti počítačového zpracování přirozeného jazyka se na reprezentaci textu využívají ve většině případů slova nebo n-gramy slov.

Související články