Tezaurus
Tezaurus (někdy také thesaurus, ve středověké latině „poklad“, z řeckého θησαυρός thesauros „pokladnice“) je v jazykovědě poměrně úplný slovník určitého jazyka nebo jen oborové terminologie, často s hierarchickým uspořádáním jednotlivých hesel od nejabstraktnějších pojmů po nejkonkrétnější;[1] referenční příručka, která uživateli nabízí seznam synonym, někdy i antonym.
Český tezaurus
Poklad jazyka českého se snažil připravit Jan Amos Komenský, ale dlouho sbíraný materiál shořel při jeho pobytu v Lešně roku 1656.
První český plnohodnotný tezaurus češtiny byl Tezaurus jazyka českého (s podtitulem Slovník českých slov a frází souznačných, blízkých a příbuzných), který vydal Aleš Klégr roku 2007. Je založen na Rogetově tezauru a obsahuje kolem 150 000 lexikálních jednotek.[2]
Předcházející, nedokončený, pokus byl Český slovník věcný a synonymický (3 díly z 1969–1977) který vedl Jiří Haller.
Klégrův i Hallerův tezaurus jsou postupně zveřejňovány online na najdislovo.cz
Další slovníky synonym v češtině jsou:
- Malý slovník českých synonym (1947), Jan Mašín, Josef Václav Bečka, nakladatelství Ing. Mikuta
- Slovník synonym a frazeologismů (1977), Josef Václav Bečka, Vydavatelství Novinář
- Slovník českých synonym (2001) Karel Pala, Jan Všianský, nakladatelství Lidové Noviny. Dostupné online jako ABZ slovník českých synonym.[3]
- Slovník českých synonym a antonym (2012), Lingea, dostupný také online a jako aplikace.
Tezaurus v kontextu indexování a vyhledávání
Řízený slovník deskriptorů, mezi nimiž jsou určeny vztahy nadřazenosti a podřazenosti, termíny synonymní a jiné související. V odborné literatuře popsán jako řízený a měnitelný slovník deskriptorového a selekčního jazyka uspořádaný tak, že explicitně zachycuje apriorní vztahy mezi lexikálními jednotkami. Lidově řečeno: slovník, který umožňuje uživatelům nabízet shodný nebo podobný seznam slov, což zajišťuje shodné vyjádření problematiky překladu určitého tématu popsaného jazykem autora do jazyka systému. Vyjadřuje pojmy, které jsou v přirozeném jazyce těžko postižitelné a pomocí složených termínů a dalších nástrojů překonává problémy s jazykem umělým.
S jeho pomocí můžeme hledat nějaké informace, aniž bychom věděli, co je preferovaný termín. Umožňuje nám ulehčit práci při nepřeberném množství informací, podobně jako propojovací jazyk v informačních systémech. Využívá se především v knihovnách, informačních střediscích atd. (Český teologický tezaurus, Český pedagogický tezaurus, EUROVOC, AGROVOC).
Tezaurus GEMET
General European Multilingual Environmental Thesaurus, Obecný vícejazyčný tezaurus pro životní prostředí (Dostupný on-line). Obsahuje asi 5200 hesel, je tříděn hierarchicky a tematicky. Vrcholovou hierarchii tvoří 4 nadskupiny, následuje 32 skupin. Pod touto úrovní jsou hierarchie položek s proměnnou hloubkou. Dále jsou položky tříděny tematicky (český překlad témat v době tvorby tohoto hesla neexistoval). Témata jsou přiřazena atributem DOMAIN, obrácená relace je pomocí atributu DOMAIN_TYPICAL.
Tezaurus Eurovoc
Tezaurus Eurovoc je vícejazyčný polytematický tezaurus zaměřený na oblast práva a legislativy Evropské unie (EU). Tezaurus byl vytvořen ve spolupráci Evropského parlamentu, Komise EU a Úřadu pro úřední tisky ES za podpory DG XIII. Za správu Eurovocu na mezinárodní úrovni odpovídá Úřad pro úřední tisky ES.
Eurovoc lze využít zejména v knihovnách a informačních střediscích specializovaných na právo, legislativu a politiku. V rámci EU se Eurovoc používá v knihovně Evropského parlamentu, Úřadu pro úřední tisky ES a dalších informačních institucích EU. Kromě toho se používá v knihovnách a dokumentačních střediscích národních parlamentů a dalších státních i soukromých organizací v členských i nečlenských zemích EU. Eurovoc dále také nachází velké uplatnění v informačních centrech zaměřených na problematiku Evropské unie. V některých případech slouží Eurovoc také jako propojovací selekční jazyk v některých metainformačních systémech.
Eurovoc existuje v 17 oficiálních jazycích členských zemí Evropské unie (angličtina, dánština, francouzština, němčina, maďarština, řečtina, španělština, italština, nizozemština, portugalština, finština, švédština, slovinština, slovenština, litevština, lotyština a čeština). V dalších zemích se překlad Eurovocu do národního jazyka připravuje. Zástupci institucí, které spravují nebo překládají Eurovoc v jednotlivých zemích, se setkávají na pravidelných seminářích uživatelů Eurovocu.
Česká verze Tezauru Eurovoc První česká verze tezauru Eurovoc vznikla ve druhé polovině 90. let překladem 3. verze oficiálního Eurovocu. V současné době již existuje český překlad verze 4.2., který byl dokončen na podzim 2005. Česká verze je plně jazykově a strukturně kompatibilní s ostatními jazykovými verzemi. Překlad Eurovocu provedla Parlamentní knihovna ve spolupráci s dalšími institucemi.
Zájemci o českou verzi tezauru Eurovoc se mohou obrátit na Parlamentní knihovnu, která poskytne veškeré informace o Eurovocu a podmínkách jeho využívání.
Automatické indexování tezauru
Informační požadavek může být vyjádřen i jinými výrazy přirozeného jazyka, než jaké se vyskytují v daném textu. Problém tkví v tom, že významy různých výrazů přirozeného jazyka se mohou různými způsoby a v různé míře vzájemně překrývat. Tři typy těchto situací jsou:
- Dva různé výrazy mají zcela stejný význam např. klisna = kobyla, kalkulace = výpočet. Tento jev se nazývá synonymie.
- Dva různé výrazy jsou ve vztahu obecné:konkrétní (nadřazené:podřazené) např. zvíře >hospodářské zvíře>kůň>hřebec apod.
- Dva různé výrazy mají pouze v širším smyslu něco společného, tedy jsou sémanticky asociované: např. kůň – dostih, výpočet – kalkulátor.
Daný problém představuje „koeficient selekční významnosti“. Řešením problémům při indexaci dokumentů a dotazů je tezaurus.
Tezaurus
Tezaurus je řízený slovník deskriptorového a selekčního jazyka, který je uspořádaný tak, že explicitně zachycuje apriorní vztahy mezi lexikálními jednotkami. Je to slovník obsahující:
- Slovní zásobu, tj. slova a sousloví se specifickým významem určitého jazyka, případně i několika jazyků.
- Odkazy na jiná hesla, která k němu mají sémantický vztah – např. synonyma, obecnější a konkrétnější výrazy a také výrazy ve vztazích např. celek – část, třída – prvek atd.
- Další informace o heslech, např. historii jejich vzniku, příklady kontextu použití atd.
Tezaury určené pro indexování jsou zpravidla omezené na terminologii určité užší odborné oblasti. Ústředním pojmem tezauru určeného k indexování je deskriptor. Z každé skupiny synonymních termínů je vybrán jeden reprezentant nazývaný deskriptorem. Tento by měl být používán k samotnému popisu (deskripci) skutečného nebo požadovaného obsahu textu.
Deskriptor je univerzální vyhledávací prvek, který při vyhledávání má zastupovat i všechna svá synonyma. Všechna synonyma jsou pak nazývána nedeskriptory. Pouze mezi deskriptory se zachycují vztahy (vazby) – nadřazený, podřazený, asociovaný, ekvivalentní deskriptory v jiných jazycích (v případě vícejazyčného tezauru).
Odkazy
Reference
- ↑ Čermák, Jazyk a jazykověda, str. 290.
- ↑ ČERMÁK, František; HLADKÁ, Zdeňka. Nový encyklopedický slovník češtiny [online]. [cit. 2022-01-05]. Kapitola Tezaurus. Dostupné online.
- ↑ ABZ slovník českých synonym - o slovníku. www.slovnik-synonym.cz [online]. [cit. 2022-01-05]. Dostupné online.
Literatura
- F. Čermák, Jazyk a jazykověda. Praha: Karolinum 2009
Související články
- Rogetův tezaurus
- Polytematický strukturovaný heslář (PSH) - vykazuje řadu znaků typických pro tezaury
Externí odkazy
- Obrázky, zvuky či videa k tématu tezaurus na Wikimedia Commons
- Eurovoc, vyhledávání Archivováno 11. 3. 2012 na Wayback Machine. – Úřad pro publikace Evropské unie
- Tezaurus v České terminologické databázi knihovnictví a informační vědy (TDKIV)
- Online verze českých tezaurů od Klégra a Hallera