Word2Vec

Word2Vec je způsob zpracování přirozeného jazyka, kdy jsou slova reprezentována vektory.[1] Bezkontextový model byl publikovan v roce 2013 výzkumníkem Tomasem Mikolovem, pracujícím pro Google. Algoritmus word2vec využívá model neuronové sítě k učení slovních asociací z velkého korpusu textu. Po natrénování může takový model odhalit synonyma nebo navrhnout další slova pro další část věty. Word2vec reprezentuje každé odlišné slovo určitým seznamem čísel, kterému se říká vektor. Vektory jsou pečlivě vybrány tak, aby zachycovaly sémantické a syntaktické vlastnosti slov; jednoduchá matematická funkce (kosinus úhlu mezi vektory) tak může indikovat úroveň sémantické podobnosti mezi slovy reprezentovanými těmito vektory.

Bezkontextové modely, jako je word2vec nebo GloVe, vytvářejí pro každé slovo ve slovníku jedinečnou reprezentaci, přičemž BERT bere v úvahu kontext pro každý výskyt daného slova. Zatímco vektor pro slovo anglické slovo "run" bude mít stejnou reprezentaci z word2vec pro oba jeho výskyty ve větách "He is running a company" a "He is running a marathon", BERT poskytne kontextové osazení, které se bude lišit v závislosti na větě. Nově se právě pro vnoření slov používají novější modely jako BERT či GPT-3.[2]

Odkazy

Reference

V tomto článku byl použit překlad textu z článku Word2vec na anglické Wikipedii.

  1. A Beginner's Guide to Word2Vec and Neural Word Embeddings. Pathmind [online]. [cit. 2022-10-29]. Dostupné online. (anglicky) 
  2. ALAMMAR, Jay. The Illustrated Word2vec. jalammar.github.io [online]. [cit. 2022-10-29]. Dostupné online. 

Externí odkazy