Automatická indexace

Automatická indexace je automatický proces redukce textu pomocí počítačového programu za účelem získání relevantních pojmů, které výstižně charakterizují jeho obsah. Vybrané pojmy se mohou nechat v přirozeném jazyce, nebo jsou přiřazeny k heslům řízeného slovníku selekčních jazyků.[1] Takto vybrané výsledky se částečně překrývají s výstupy, které vytvořili lidští indexátoři, avšak určitá část výsledků, které nejsou shodné, je podrobena dalšímu výzkumu.[2] Ten by se měl pokusit najít odpovědět, jak tyto postupy sjednotit a pomoci zpřesnit automatickou indexaci, tak jak to umí lidští indexátoři.

Nicméně nejedná se pouze o jedinou technologii. Je zde využita řada dalších metod. Jde o kombinaci indexovacích algoritmů, statistických měření, jazykových analýz atd. Algoritmy mohou být nastaveny i tak, že neprozkoumávají pouze plný text, ale využívají i struktury daného dokumentu, jako jsou nadpisy, záhlaví a odstavce.[2]

Automatická indexace potřebuje vysoký výpočetní výkon

Typy automatické indexace

Nejčastěji se dělí na dva typy: slovní indexaci (automatická extrakce) a pojmová indexaci (automatické přiřazování). Hlavní rozdíl těchto typů automatické indexace je v jednoduchosti jejich aplikace.[3] Slovní indexace vybírá přímo z plného textu dokumentu takové termíny, které vyjadřují jeho obsah. Kdežto u pojmové indexace, kde se může částečně využít metody automatické extrakce, jde o simulování intelektuální indexace tím způsobem, že jsou porovnávány termíny z řízeného slovníku se slovy z plného textu.

Slovní indexace - postup

Lexikální analýza

Lexikální analýza identifikuje jednotlivá slova a sousloví v plném textu dokumentu.[3] Největší problém je právě v rozpoznání zkratek nebo sousloví, které jsou na identifikaci značně složitější. Počítačový program na základě zvolených algoritmů identifikuje jednotlivá slova pomocí mezer a spojovníků, přičemž může ještě normalizovat formy sousloví, a to podle syntaktických, lexikálních a morfologických variant.[3]

Odstranění „stop“ slov

Následuje odstranění tzv. „stop“ slov. „Stop“ slova nemají žádnou informační hodnotu. Jde především o spojky, přeložky, částice nebo slovesa např. být.[4][3] Tento proces se opírá o frekvenční analýzu výskytu slov amerického lingvisty a psychologa G. K. Zipfa. Zipfův zákon byl později aplikován při řešení úkolu automatického indexování.[4] Na základě zákona se konstruovaly slovníky rešeršních slov a nevýznamových (stop) slov, které jsou základem pro automatické vyhledávání. Právě porovnáním textu a tohoto slovníku se „stop“ slova vyřazují.[3]

Lemmatizace

Další krok je tzv. lemmatizace, která se snaží slova a sousloví vyskytující se v textu v různých tvarech daných gramatickými kategoriemi (číslo, pád atd.) převést na jejich základní gramatický tvar, tj. kmen nebo kořen označované termínem lemma. Tento postup provádí program tzv. lemmatizátor.[3]

S lemmatizací souvisí pojem stemming. U stemmingu je rozdíl v tom, že automaticky zkrácená slova na slovní kořeny se používají jak při indexování dokumentů, tak při vyhodnocování dotazu uživatele např. ve vyhledávači.[4] Jelikož jde o automatickou funkci, nastává zde problém, který může negativně ovlivnit výsledky vyhledávání, neboť rozšiřuje množinu vyhledaných slov o nežádoucí dokumenty.[3]

Srovnání slov

Zbylá slova, spíše jejich kořeny, jsou porovnány s termíny v řízených slovnících, deskriptorech, tezaurech nebo předmětových heslářích atp.[3]

Vážení

Každé slovo, které se dostalo až sem, má pro obsah textu různou důležitost, a právě vážení určuje selektivní sílu indexačního termínu daného slova. Termíny se váží podle těchto základních parametrů: pro váhu samotného termínu může být důležitá vlastní charakteristika, např. jeho slovní druh.[4] Z hlediska významu jsou důležitější substantiva a adjektiva před ostatními slovními druhy. U ostatních slovních druhů proto platí, že buď získávají menší váhu, anebo jsou zařazeny do negativního slovníku.[4] Roli ve váze termínu může hrát také délka textu nebo počet různých termínů v textu. Pro vážení termínu je také podstatný vztah termínu a textu (ovlivněný faktory kontextu termínu), frekvence termínu v textu (vychází se z předpokladu, že častěji používaný termín je relevantnější než ostatní), nebo umístění termínu ve specifické části textu (jako je např. název, abstrakt, nadpis kapitoly atp.). Další parametr určuje vztah termínu a všech dokumentů v databázi, kdy se určuje např. frekvence výskytu termínu v databázi.[3]

Pojmová indexace - postup

Během pojmové indexace se nejprve v plném textu identifikují termíny, které se posléze porovnávají se strukturovaným řízeným slovníkem (např. ve formě tezauru), znalostní bází, nebo s hesláři. Důležitou roli při porovnání hraje profil pojmu ve slovnících. Profil pojmu je tvořen základními charakteristikami, které určují daný pojem nebo se k němu přiřazují, jelikož mají vztah k jeho různým atributům. Na jejich základě se z nich vyberou příslušné relevantní indexační termíny, které odpovídají správnému profilu pojmu a které se shodují s termíny vybranými z plného textu dokumentu.[3]

I v pojmové indexaci se přes zdánlivě jednoduchý postup obsahuje řadu problémů, které jsou řešeny většinou na základě pravděpodobnostních modelu. Jedná se především o termíny, které se v textu přímo neobjevují (odkaz pomocí ukazovacího zájmena – to nedává smysl, kam ukazuje zájmeno? Mimo text?) nebo které jsou vyjádřeny složitou kombinací termínu případně definicí. Problém může nastat také u profilu pojmu, ke kterému výraz z dokumentu není přiřazen kvůli nedostačujícímu důvodu.[3]

Problémy

Jakýkoli text je velmi složitou soustavou znaků a vzájemných vazeb, které se vyvíjely dlouhá staletí, a tak není divu, že přes sebedokonalejší algoritmy a vzorce počítačových programů se ještě nepodařilo dosáhnout takových výsledků jako u lidského mozku. Automatická indexace proto řeší několik závažných problémů, mezi které patří sousloví, homonyma, synonyma, jiný význam slov, citové zabarvení, proměnlivost významu slova v čase, nadřazenost a podřazenost termínů, složité vazby mezi termíny, termín vystihující obsah, který není v textu obsažen, nebo termín, který slovník vůbec neobsahuje.[4]

Využití automatické indexace

Při využití automatické indexace musíme mít na paměti především to, že kvalitní zpracování obsahu textu umožňuje kvalitní vyhledávání. Asi největší a nejrozšířenější vliv tohoto postupu je u vyhledávače společnosti Google, kde jde především o oblast relevantnosti odpovědí. Existuje řada projektů a systémů, které automatickou indexaci testují nebo testovaly, např. zahraniční Media On Line Project a NASA MAI Tool, české Automatická indexace sněmovních tisků v Knihovně Poslanecké sněmovny ČR, SEMAN (SÉMantický Analyzátor; automatická indexace na základě sémantické analýzy jazyka), MOZAIKA (na Morfologickém Odvozování Založené Automatické Indexování Koherentními Agregáty; úspěšně testována v několika oborech) nebo Systém LEGSYS (znalostní databáze právních textů).[3]

V současnosti je asi nejaktivnější v projektech týkající se automatické indexace Národní technická knihovna. Knihovna využívá metodu automatické indexace pro svůj Polytematický strukturovaný heslář PSH[5] a také při zpracování šedé literatury v digitálním repozitáři Národní úložiště šedé literatury.[6] Od roku 2012 pak byla zpřístupněna beta verze aplikace Maui Indexer pro automatickou indexaci dokumentů hesly PSH, kterou používá Národní technická knihovna k indexaci dokumentů. Tato aplikace je dostupná na stránkách Automatická indexace dokumentů hesly PSH. Na stránce je indexační pole, do kterého uživatel vloží část vybraného textu, nebo okno pro vložení dokumentu, který chce uživatel indexovat. Po několika sekundách se objeví výsledek ve formě přiřazených hesel PSH, která by měla nejlépe vystihovat obsah zvoleného textu.[7]

Trendy

Vývoji automatické indexace ovlivňuje řada různých oborů (matematika, lingvistika, psychologie atd.) a jejich objevů. Trendy směřují k tvorbě zpracování a vyhledávání na bázi umělé inteligence, která bude pracovat přímo s plnými texty.[4] Takovéto systémy budou založeny přímo na zpracování plného textu dokumentů (text-based systems) oproti dnešní praxi, kdy jsou založené na externí bázi pojmů či znalostí (knowledge-based systems).[8]

Reference

  1. KTD: Česká terminologická databáze knihovnictví a informační vědy (TDKIV) [online]. Praha : Národní knihovna České republiky, 2003. [cit. 2013-05-05]. Dostupný online[nedostupný zdroj].
  2. a b COYLE, Karen. Machine Indexing. Journal of Academic Librarianship [online]. 2008, Vol. 34, No. 6, p. 530-531 [cit. 2013-05-05]. ISSN 0099-1333. Dostupné komerčně v databázi Elsevier Science Direct Freedom Collection: http://www.sciencedirect.com/.
  3. a b c d e f g h i j k l SCHWARZ, Josef. Současný stav a trendy automatické indexace dokumentů : přehledová studie [online]. Praha, 2003. [cit. 2013-05-05]. Dostupný z: http://full.nkp.cz/nkdb/docs/studie/MAIobsah.html Archivováno 4. 1. 2012 na Wayback Machine..
  4. a b c d e f g ANDERSON, James D. a José PÉREZ-CARBALLO. The Nature Of Indexing: how humans and machines analyze messages and texts for retrieval: part I: research, and the nature of human indexing. Information Processing & Management: an International Journal [online]. March 2001a, Vol. 37, No. 2, p. 231-254 [cit. 2013-05-05]. ISSN 0306-4573. Dostupné komerčně z Elsevier Science Direct Freedom Collection: http://www.sciencedirect.com.
  5. ŠKUTA, Ctibor a Kristýna KOŽUCHOVÁ. Vliv trendů systémů organizace znalostí na vývoj Polytematického strukturovaného hesláře v Národní technické knihovně. Knihovna plus [online]. 2010, č. 1 [cit. 2013-05-05]. ISSN 1801-5948. Dostupný z: http://knihovna.nkp.cz/knihovnaplus101/skuta.htm.
  6. MYNARZ, Jindřich a Ctibor ŠKUTA. Integration of an Automatic Indexing System within the Document Flow of a Grey Literature Repository. Grey Journal (TGJ) [online]. 2011, Vol. 7, Issue. 2, s. 65-71 [cit. 2013-05-20]. ISSN 1574-1796. Dostupný komerčně v databázi LISTA: http://search.ebscohost.com.
  7. NÁRODNÍ TECHNICKÁ KNIHOVNA. Automatická indexace dokumentů hesly PSH [online]. Praha, 2012 [cit. 2013-05-05]. Dostupné z: http://invenio.ntkcz.cz/indexer/ Archivováno 30. 7. 2014 na Wayback Machine..
  8. BLAŽEK, Jakub. Srovnání automatické a intelektuální indexace. Inflow: information journal [online]. 2008, roč. 1, č. 4 [cit. 2013-05-05]. ISSN 1802-9736. Dostupný z: http://www.inflow.cz/srovnani-automaticke-intelektualni-indexace Archivováno 20. 9. 2011 na Wayback Machine..

Literatura

  • BOOKSTEIN, Abraham a Don R. SWANSON. Probabilistic Models for Automatic Indexing. Journal of the American Society for Information Science [online]. 1974, Vol. 25, No. 5, s. 312-318 [cit. 2013-05-20]. ISSN 0002-8231. Dostupný komerčně v databázi LISTA: http://search.ebscohost.com.
  • BROUGHTON, Vanda. The need for a faceted methods of information retrieval. Aslib Proceedings [online]. 2006, Vol. 58, No. 1/2, s. 49-72 [cit. 2013-05-20]. ISSN 0001-253X. Dostupné z (DOI): http://dx.doi.org./10.1108/00012530610648671.
  • HUMPHREY, Susanne M. Automatic indexing of documents from journal descriptors: A preliminary investigation. Journal of the American Society for Information Science [online]. 1999, Vol. 50, Isuue 8, p. 661-674 [cit. 2013-05-20]. ISSN 0002-8231. Dostupné komerčně v databázi LISTA: http://search.ebscohost.com.
  • HWANG, San-Yih, Wan-Shiou YANG a Kang-Di TING. Automatic index construction for multimedia digital libraries. Information Processing & Management [online]. 2010, Vol. 46, No. 3, s. 295-307 [cit. 2013-05-20]. ISSN 0306-4573. Dostupné z (DOI): http://dx.doi.org./10.1016/j.ipm.2009.10.006.
  • International Society for Knowledge Organization [online]. [London: University College London], 2007- [cit. 2013-05-20]. Dostupné z: http://www.iskouk.org.
  • KOVÁŘ, Blahoslav. Věcné pořádání informací a selekční jazyky. 2. vyd. Praha: UVTEI-Institut pro mimoškolní vzdělávání, 1984. 251 s. Učební texty / UVTEI; 22.
  • KOVÁŘ, Blahoslav. Věcné pořádání informací a selekční jazyky. Díl 2, Předmětové pořádání; Mezinárodní spolupráce; Automatické indexování. 1. vyd. Praha: ÚVTEI, 1982. 138 s. Učební texty / UVTEI; 17.
  • KUCIANOVÁ, Anna. Informačná analýza - klasifikácia a indexovanie 1.: sylaby [online]. Martin: Slovenská národná knižnica, 2007- [cit. 2013-05-20]. Dostupné z: http://www.snk.sk/?Pr.
  • LANCASTER, F. Wilfrid. Indexing and abstracting in theory and practice. 2nd ed. London: Library Association Publishing, 1998. ISBN 1-85604-268-5.
  • MEDELYAN, Olena a Ian H. WITTEN. Domain-independent automatic keyphrase indexing with small training sets. Journal of the American Society for Information Science & Technology [online]. 2008, Vol. 59, No. 7, s. 1026–1040 [cit. 2013-05-20]. ISSN 1532-2882. Dostupné z (DOI): http://dx.doi.org./10.1002/asi.20790 Archivováno 30. 5. 2020 na Wayback Machine..
  • MOENS, Marie-Francine. Automatic indexing and abstracting of document texts. Boston: Kluwer Academic Publishers, 2000. ISBN 0-7923-7793-1.
  • OBASEKI, Tony I. Automated Indexing: The Key to Information Retrieval in the 21st Century. Library Philosophy & Practice [online]. 2010, Vol. 12, Issue 2, p. 1-4 [cit. 2013-05-20]. ISSN 1522-0222. Dostupný komerčně v databázi LISTA: http://search.ebscohost.com.
  • PETERS, Isabella. Folksonomies: indexing and retrieval in Web 2.0. Berlin: De Gruyter/Saur, c2009. 443 s. Knowledge and Information. ISBN 978-3-598-25179-5.
  • RAJASHEKAR, T.B. a W. Bruce CROFT. Combining Automatic and Manual Index Representations in Probabilistic Retrieval. Journal of the American Society for Information Science. 1995, Vol. 46, No. 4, s. 272-283. ISSN 0002-8231.
  • SALTON, G. a C. S. YANG. Specification of term values in automatic indexing. Journal of documentation. 1973, Vol. 29, No. 4, s. 351-372 [cit. 2013-05-20]. ISSN 0022-0418.
  • SGALL, Petr. Využitie lingvistických metód vo VTEI. Bratislava: Slovenská technická knižnica, 1984. 115 s.
  • SCHWARZ, Josef. Praktické aspekty hodnocení kvality a konzistence indexace. Ikaros [online]. 2001, roč. 5, č. 2 [cit. 2013-05-20]. ISSN 1212-5075. Dostupný z: http://www.ikaros.cz/node/3986.
  • SOUZA, Renato Rocha a K. S. RAGHAVAN. A Methodology for Noun Phrase-Based Automatic Indexing.Knowledge Organization [online]. 2006, Vol. 33, No. 1, s. 45-56 [cit. 2013-05-20]. ISSN 0943-7444. Dostupný komerčně v databázi LISTA: http://search.ebscohost.com.
  • SPARCK-JONES, K. Progess in documentation – automatic indexing. Journal of documentation. 1974, Vol. 30, No. 4, s. 393-432 [cit. 2013-05-20]. ISSN 0022-0418.
  • STROSSA, Petr. Zpracování informačních fondů. Seš. č. 2, Algoritmizace a automatizace zpracování textových informací. 2., přeprac. a rozš. vyd. Praha: Vysoká škola ekonomická, Fakulta informatiky a statistiky, 2000. 175 s. ISBN 80-245-0090-6.
  • WARD, Martin L. The future of the human indexer. Journal of librarianship and information science. 1996, Vol. 28, No. 4, s. 217-225. Lit. ISSN 0961-0006.

Související články

Externí odkazy

Média použitá na této stránce

Emulab-cluster2-front.jpg
Autor: SemaphoreX, Licence: CC BY-SA 4.0
Front view of one of the Emulab clusters.