Ústav Českého národního korpusu
Ústav Českého národního korpusu Filozofické fakulty Univerzity Karlovy v Praze, zkr. ÚČNK, vytváří a spravuje Český národní korpus a vedle vědy a výzkumu se věnuje též výuce a podpoře uživatelů Českého národního korpusu a paralelních korpusů řady InterCorp.
Struktura
Ředitelem ústavu je Mgr. Michal Škrabal, Ph.D.
Ústav je rozčleněn na následující sekce:[1]
- Lingvistická (vedoucí Mgr. Dominika Kováříková, Ph.D.)
- Komputační (vedoucí Mgr. Pavel Vondřička, Ph.D.)
- Mluvené korpusy (vedoucí Mgr. David Lukeš, Ph.D.)
- Diachronní korpusy (vedoucí Mgr. Martin Stluka, Ph.D.)
- Lingvistická analýza a anotace (vedoucí Mgr. Tomáš Jelínek, Ph.D.)[1]
- Paralelní korpusy (vedoucí Ing. Alexandr Rosen, PhD.)[1]
Činnost
Hlavním posláním ÚČNK je kontinuální rozvoj a budování jazykových korpusů různých typů. Představují reprezentativní lingvisticky zpracované datové základny pro empirický a exaktní výzkum českého jazyka a jde především o korpusy zachycující češtinu v jejím současném stavu (synchronní korpusy psaného a mluveného jazyka), v jejím historickém vývoji (diachronní korpusy) a v překladovém srovnání s jinými jazyky (paralelní korpusy).
S budováním korpusů úzce souvisí též bezplatná veřejná služba poskytování internetového uživatelského přístupu ke všem korpusům pomocí specializovaných rozhraní a nástrojů (např. nástroj pro porovnání variant SyD) a podpora uživatelů.
Řady korpusů
V současnosti projekt ČNK spravuje následující řady korpusů:
Korpusy psané současné češtiny o celkovém rozsahu 1300 milionů textových slov jsou referenční (tj. neměnné, lze na ně odkazovat a opakované dotazy dají tytéž výsledky) a reprezentativní (vyváženě pokrývají celou šíři žánrů, jež český čtenář recipuje skrze tištěné psané texty, a reprezentují tak úzus tištěné psané češtiny)
- SYN2000 – 100 mil. slov, žánrově vyvážený korpus, převažují texty z let 1990–1999
- SYN2005 – 100 mil. slov, žánrově vyvážený korpus, převažují texty z let 2000–2004
- SYN2006PUB – 300 mil. slov, korpus publicistických textů z let 1989–2004
- SYN2009PUB – 700 mil. slov, korpus publicistických textů z let 1995–2007
- SYN2010 – 100 mil. slov, žánrově vyvážený korpus, převažují texty z let 2005–2009
- SYN2013PUB – 935 mil. slov, referenční korpus publicistických textů z let 2005–2009
- SYN2015 – 100 mil. slov, referenční reprezentativní korpus, převažují texty z let 2010–2014, s novou klasifikací textů
- SYN2020 – 100 mil. slov, referenční reprezentativní korpus, převažují texty z let 2015–2019
- SYN (verze 8) – 4,5 mld. slov, verzovaný korpus, spojující synchronní psané korpusy řady SYN a další, dosud nezveřejněné texty
Korpusy mluvené češtiny (synchronní)
- Pražský mluvený korpus – 675 tis. slov, přepis nahrávek pražské mluvy z 90. let 20. století
- Brněnský mluvený korpus – 490 tis. slov, přepis nahrávek brněnské mluvy z 90. let 20. století
- ORAL2006 – 1 mil. slov, korpus neformální mluvené češtiny (pouze Čechy)
- ORAL2008 – 1 mil. slov, sociolingvisticky vyvážený korpus neformální mluvené češtiny (pouze Čechy)
- ORAL2013 – 2,8 mil. slov, reprezentativní korpus neformální mluvené češtiny (Čechy, Morava a Slezsko)
- ORAL – 5 368 391 slov, celkový čas nahrávek 582 hodin, sjednocuje korpusy ORAL2006, ORAL2008, ORAL2013 a dosud nepublikované nahrávky ORAL-Z
Mluvené korpusy řady ORAL zachycují autentickou mluvu v neformálních situacích a jsou doplněny základními sociolingvistickými údaji o mluvčích, korpus ORAL2008, pokrývající celé území Čech, je navíc vyvážen v hlavních sociolingvistických kategoriích. Rozhraní KonText zpřístupňuje i anonymizované zvukové nahrávky.
- ORTOFON – verze 2, 2,1 mil. slov, referenční reprezentativní korpus neformální mluvené češtiny s dvouúrovňovou transkripcí (Čechy, Morava a Slezsko)
Korpus ORTOFON zachycuje spontánní mluvený jazyk užívaný v neformálních situacích mezi mluvčími, kteří se znají. Korpus ORTOFON je také první korpus, který je plně vyvážený v rámci všech základních sociolingvistických kategoriích mluvčích (pohlaví, věková skupina, výše dosaženého vzdělání a oblast pobytu v dětství).
- DIALEKT – 100 tis. slov, referenční nářeční korpus s dvouúrovňovou transkripcí
Korpus DIALEKT prezentuje teritoriální dialekty zachycené na území celé České republiky. Starší časová vrstva korpusu obsahuje nahrávky, které byly pořízeny v období od konce 50. let až do 80. let 20. století. Do nové vrstvy jsou zařazeny nářeční sondy pocházející z období od 90. let 20. století až do současnosti. Korpus doplňuje Archiv diferenčních hlásek nářečí českého jazyka a webová aplikace Mapka (interaktivní mapa České republiky s detailně vyznačenými hranicemi nářečních celků (základní členění na oblasti nebo podrobné na podskupiny, úseky, typy), popisy nářečích rysů hlavních nářečních oblastí a ukázkami ve formě nahrávek a jejich přepisů s rozbory).
- ORATOR – referenční korpus monologů s jednoúrovňovou transkripcí
Korpus diachronní (DIAKORP)
Zahrnuje texty celkem ze sedmi století vývoje češtiny a je koncipován tak, aby postupně umožnil zkoumání jazykového úzu v jeho historických proměnách. Jedná se o korpus referenční, průběžně rostoucí ve verzích. Ve verzi 6 obsahuje přes 3,4 mil. slov.
Korpusy paralelní (InterCorp)
InterCorp zahrnuje překladové ekvivalenty českých textů do 40 jazyků.[2] Verze 13 z roku 2020 obsahuje 1 551,2 mil. slov.
Publikace
ÚČNK dlouhodobě spolupracuje s Nakladatelstvím Lidové noviny,[3] kde mj. vydává řadu Studie z korpusové lingvistiky. Dále vyšlo:
- Frekvenční slovník češtiny (NLN, 2004)
- Frekvenční slovník mluvené češtiny (Karolinum, 2007)
- A Frequency Dictionary of Czech: Core Vocabulary for Learners (Routledge, 2011)
- Mluvnice současné češtiny (Karolinum, 2010)
Ke stažení jsou zpřístupněny abecední a retrográdní slovníky, založené na korpusech řady SYN.
Historie
Ústav Českého národního korpusu byl založen 9. září 1994. Pravidelnou činnost vyvíjí od 1. října 1996, kdy byl sestaven kolektiv stálých zaměstnanců. Roku 2000 byl zveřejněn první stomilionový žánrově vyvážený korpus, SYN2000.[4]
Reference
- ↑ a b c Ústav Českého národního korpusu
- ↑ Dostupné korpusy. www.korpus.cz [online]. [cit. 2010-05-08]. Dostupné v archivu pořízeném dne 2010-04-17.
- ↑ přehled publikací. ucnk.ff.cuni.cz [online]. [cit. 2012-09-10]. Dostupné v archivu pořízeném dne 2012-09-27.
- ↑ Ikaros – Český národní korpus
Externí odkazy
- Oficiální internetový portál
- Veřejný přístup ke korpusu SYN2010 (bez nutnosti registrace) Archivováno 10. 1. 2015 na Wayback Machine.
- SyD - nástroj pro porovnávání variant v češtině na základě synchronních, diachronních a mluvených dat ČNK (bez nutnosti registrace)
- InterCorp - paralelní překladové korpusy více než dvaceti jazyků
- Blog korpusového lingvisty - V. Cvrček na Aktuálně