WordNet
Vývojář | Christiane Fellbaum |
---|---|
Aktuální verze | 3.1 (červen 2011) |
Typ softwaru | lexikální databáze |
Licence | BSD licence |
Web | wordnet |
Některá data mohou pocházet z datové položky. |
WordNet je lexikální databáze pro anglický jazyk vyvíjená od roku 1985 týmem okolo profesora psychologie George Armitage Millera v laboratoři kognitivních věd na Princetonské univerzitě.[1] Obecněji se jako WordNet, případně přesněji lexikální databáze typu WordNet či také sémantická síť typu WordNet, označují i příbuzné projekty týkající se jiných jazyků (např. Český WordNet). Původní anglická databáze pak v takovém kontextu bývá někdy pro rozlišení nazývána princetonský WordNet.
WordNet seskupuje slova do synonymických řad zvaných synsety (anglicky synsets), poskytuje krátké obecné definice jejich významu a zachycuje různé sémantické vztahy, které mezi synsety existují. To činí WordNet jakýmsi intuitivněji použitelným křížencem slovníku a tezauru a současně jazykovým zdrojem využitelným v aplikacích v oblastech zpracování přirozeného jazyka a umělé inteligence. Data princetonského WordNetu a související programové vybavení byly uvolněny licencí typu BSD a jsou poskytovány k bezplatnému stažení a použití. Databázi je také možno konzultovat on-line prostřednictvím internetu.
Obsah databáze
Rozsah
Nejnovější verze WordNetu je 3.1. Ve verzi 3.0 obsahuje databáze 155 287 slov uspořádaných do 117 659 synsetů, čímž je pokryto 206 941 slovních významů (dvojic slovo-smysl). V komprimované formě mají data velikost okolo 12 megabytů.[2]
Synsety
WordNet zahrnuje podstatná jména, slovesa, přídavná jména a příslovce, ale vzhledem k jejich odlišným gramatickým vlastnostem uchovává data pro každý z těchto slovních druhů odděleně. Jiné slovní druhy jako jsou zájmena či předložky nejsou součástí databáze. Každý synset se skládá z jednoho či více slov nebo slovních spojení stejného slovního druhu (slovním spojením je skupina slov nesoucí specifický ustálený význam, např. "babí léto"). Následuje ukázka několika synsetů různých typů z Českého WordNetu:[3]
- substantivní synset: louže:1, kaluž:1, tratoliště:1
- slovesný synset: chvátat:1, kvapit:2, spěchat:1
- adjektivní synset: jednoduchý:1, prostý:1
- adverbiální synset: postupně:1, pozvolna:1
Polysémie
U homonym a obecně slov s více významy (polysémických) náleží každý význam do jiného synsetu a jednotlivé významy téhož slova jsou v takovém případě v rámci téhož slovního druhu od sebe odlišovány tzv. číslem smyslu uváděným za znakem dvojtečka. Význam synsetu bývá také často popsán prostřednictvím glosy (tj. definice a/nebo příkladu použití). Identifikaci významu synsetu napomáhají také sémantické vztahy, např. u podstatných jmen příslušný nadřazený pojem. Příkladem víceznačného slova je "koruna":
- koruna:1 = "ozdoba hlavy kruhového tvaru, odznak panovnické hodnosti"
- koruna:2 – nadřazeným pojmem je synset "mince:1, peníze:1, penízek:1"
- koruna:3 – nadřazeným pojmem je synset "hořejšek:1, vrch:1"
Sémantické vztahy
Sémantickými vztahy je s jinými synsety propojena velká část synsetů ve WordNetu. Typy těchto vztahů se liší v závislosti na slovním druhu. Jedná se mj. o sémantické vztahy těchto typů:
- Mezi podstatnými jmény:
- nadřazený pojem: Y je nadřazeným pojmem k X, jestliže každé X je (druhem) Y (psovitá šelma je nadřazeným pojmem k pes, protože každý pes je členem obecnější kategorie psovitých šelem)
- podřazený pojem: Y je podřazeným pojmem k X, jestliže každé Y je (druhem) X (pes je podřazeným pojmem k psovitá šelma)
- souřadné pojmy: Y je souřadným pojmem k X, jestliže X a Y sdílejí společný nadřazený pojem (vlk je souřadným pojmem k pes; obdobně pes je souřadným pojmem k vlk)
- holonymum (vztah celek-část): Y je holonymem k X, jestliže X je (sou)částí Y (budova je holonymem k okno)
- meronymum (vztah část-celek): Y je meronymem k X, jestliže Y je (sou)částí X (okno je meronymem k budova)
- Mezi slovesy:
- nadřazený pojem: sloveso Y je nadřazeným pojmem ke slovesu X, jestliže činnost X je (druhem) Y (vnímat je nadřazeným pojmem k poslouchat)
- troponymum: sloveso Y je troponymem ke slovesu X, jestliže Y znamená dělat X nějakým způsobem (šeptat je troponymem k mluvit)
- vyplývání (entailment): sloveso Y vyplývá ze slovesa X, jestliže pro dělání X je nutné současně dělat Y (spát vyplývá z chrápat)
- souřadné pojmy: Y je souřadným pojmem k X, jestliže X a Y sdílejí společný nadřazený pojem (šeptat je souřadným pojmem k křičet; obdobně křičet je souřadným pojmem k šeptat)
- Mezi přídavnými jmény:
- příbuzné podstatné jméno
- podobnost
- sloveso k příčestí
- Mezi příslovci:
- příbuzné přídavné jméno
Zatímco sémantický vztah platí pro všechna slova ze synsetu, kterého se týká, protože tato slova jsou si navzájem synonymická a sdílejí společný význam, lexikálními vztahy je možné propojovat mezi sebou jednotlivá slova a zachytit tak např. vztah antonymie (opaku).
Český WordNet
Lexikální databáze typu WordNet pro český jazyk pod názvem Český WordNet (anglicky Czech WordNet) je od roku 1998 vyvíjena v Centru zpracování přirozeného jazyka na Fakultě informatiky Masarykovy univerzity v Brně. Vývoj započal v rámci druhé fáze projektu EuroWordNet a pokračoval dále v rámci projektu BalkaNet, společně s vývojem podobných databází pro některé další evropské jazyky. Za účelem propojení lexikálních databází pro různé jazyky byl zaveden tzv. Inter-Lingual Index (zkratka ILI), který každému anglickému synsetu v princetonském WordNetu přiřazuje unikátní identifikátor (odvozený z jeho pozice v dané verzi databáze); synsety v neanglických databázích jsou pak doplněny o ILI-identifikátor ekvivalentního synsetu anglického.
Základních 1016 konceptů Českého WordNetu bylo nalezeno počítačovou analýzou definic ve Slovníku spisovné češtiny, další slova byla získána ze slovníku Lingea Lexicon a z připravovaného Výkladového slovníku češtiny. První verze Českého WordNetu nakonec v roce 1999 obsahovala asi 13 až 15 tisíc synsetů.[4]
Ve stavu z května 2011 obsahuje Český WordNet již 34 026 slov uspořádaných do 28 478 synsetů, což pokrývá 47 542 slovních významů (dvojic slovo-smysl). Ze synsetů je 21 018 (74 %) substantivních, 5162 (18 %) synsetů slovesných, 2129 (7 %) synsetů adjektivních a pouze 166 (1 %) synsetů adverbiálních. Synsety Českého WordNetu jsou prostřednictvím ILI propojeny se starší verzí princetonského WordNetu 2.0. Slovesné synsety jsou od roku 2005 vytvářeny z větší části odděleně v rámci databáze valenčních rámců VerbaLex (v květnu 2011 obsahovala asi 20 000 slovesných rámců).[5]
V rámci diplomové práce obhájené na Fakultě informatiky Masarykovy univerzity v červnu 2011 byl proveden pokus o rozšíření Českého WordNetu překladem anglických slov ze stávajících synsetů princetonského WordNetu prostřednictvím Velkého anglicko-českého slovníku Josefa Fronka. Výsledkem bylo 36 228 přidaných slovních významů (dvojic slovo-smysl) a 12 403 vytvořených synsetů, což znamená rozšíření původních dat o 76 % (slovní významy), resp. 43 % (synsety). Tato data však dosud nebyla zahrnuta do Českého WordNetu, i vzhledem k nutnosti jejich manuální kontroly.[5]
Odkazy
Reference
V tomto článku byl použit překlad textu z článku WordNet na anglické Wikipedii.
- ↑ G. A. Miller, R. Beckwith, C. D. Fellbaum, D. Gross, K. Miller. 1990. WordNet: An online lexical database. Int. J. Lexicograph. 3, 4, pp. 235–244.
- ↑ WordNet Statistics. wordnet.princeton.edu [online]. [cit. 2011-08-26]. Dostupné v archivu pořízeném dne 2011-08-06.
- ↑ V rámci tohoto českého článku o lexikální databázi WordNet na České Wikipedii jsou pro větší názornost používány příklady užívající českých slov a pocházejí z databáze Český WordNet.
- ↑ Pala, Karel a Ševeček, Pavel. The Czech WordNet, final report. Brno : Masarykova univerzita, 1999, 21 s., technická zpráva.
- ↑ a b Blahuš, Marek. Extending Czech WordNet Using a Bilingual Dictionary. Brno : Masarykova univerzita, Fakulta informatiky, 2011. 42 s. Magisterská práce. Vedoucí: doc. PhDr. Karel Pala, CSc..
Externí odkazy
- (anglicky) Domovská stránka projektu WordNet
- (anglicky) Global Wordnet + DEBGrid (webový interface Global Wordnet)