Rosetta (strojový překlad)

Rosetta je experimentální projekt strojového překladu ve Výzkumných laboratořích Philips (Philips Research Laboratories) v Eindhovenu v Nizozemsku. Projekt byl řízen Janen Landsbergenem. Základním cílem byl pokus o navržení mezijazykové interpretace založené na principech Montagueovy gramatiky, teorie která přímo spojuje syntax a sémantiku.

Historie

Projekt Rosetta má kořeny v dřívějším výzkumu Philipsových laboratoří na systému odpovídání na otázky PHLIQA. Úkolem tohoto systému bylo převést otázky vyjádřené v angličtině do reprezentace logického jazyka databází. Tyto kroky prováděl parser, založený na bezkontextové gramatice, který každému jednomu gramatickému pravidlu přiřazoval jedno překladové pravidlo v logickém jazyce. Logická interpretace otázky byla tedy založena na strukturovaných vztazích mezi jejími částmi (elementy). Tento přístup překladu však nebyl přímý, protože bezkontextová reprezentace otázky byla nejprve převedena do hybridní logicko-hloubkové syntaktické struktury, až poté bylo dosaženo čistě logické reprezentace. Tento nevyhovující přístup vedl navržení nové gramatiky, která by byla plně kompoziční a jejíž pravidla by byla silnější než u bezkontextových gramatik. Tomuto účelu vyhovoval model gramatiky popsaný filozofem Richardem Montaguem.

Montagueova gramatika

Hlavní charakteristikou Montagueovy gramatiky je vazba sémantických interpretací k strukturálním vztahům. Montagueova gramatika se řídí principy kompozicionality, tedy že význam výrazu je funkcí významů jeho částí. A protože jsou tyto části definované v syntaxi, tak existuje blízký vztah mezi syntaxí a sémantikou.

Montagueova gramatika specifikuje sadu „základních výrazů“ a sadu syntaktických pravidel. Základní výrazy jsou ty nejmenší jednotky nesoucí význam a pravidla stanovují jak větší výrazy, a nakonec i celé věty, mohou být zkonstruovány ze základních výrazů. Tyto pravidla se aplikují odspodu.[1]

Vývoj projektu

Samostatný projekt Rosetta vznikl v roce 1980. Z výzkumů strojového překladu s malým rozsahem za prvních pět let vzešly dva překladové systémy, Rosetta1 a Rosetta2. Tyto systémy byly experimentální a velmi malé.

Velký projekt začal v roce 1985; podíleli se na něm lingvisté z univerzity v Utrechtu a počítačoví vědci z Philips Research. Tento projekt se dělil na dvě fáze, první s krátkodobým cílem (Rosetta3) a druhá s dlouhodobým cílem (Rosetta4).

První fáze se soustředila na esenciální lingvistiku, počítačovou konstrukci a vybudování výzkumného systému (Rosetty3) pro překlad krátkých jednoduchých vět z nizozemštiny do angličtiny a španělštiny a z angličtiny nebo španělštiny do nizozemštiny. Byly použity malé slovníky, a tak systém nabízel všechny možné překlady. Rosetta3 nikdy nebyla testována na reálných datech, tedy na korpusech nebo reálných textech.

Druhá fáze začala až v roce 1989 a věnovala se vytvoření robustnější verze předchozího systému (Rosetty3) a konstrukci modelového systému pro reálné uplatnění (Rosetta4). Systém měl nabídnout jen jeden překlad, který je pro daný kontext nejlepší. K tomu by ale potřeboval „znalost celého světa“. Místo toho ale systém přišel s jiným způsobem, jak určit nejlepší možný překlad. V projektu se pracovalo s ideou, že nejlepší možný překlad lze dosáhnout i pomocí tzv. „inter-editingu“ (editace v průběhu analýzy), kdy je uživatel systému zapojen do desambiguačního procesu. Tento přístup, kdy systém s uživatelem interaktivně komunikuje, je vhodný pro specifické aplikace, kdy uživatel není profesionální překladatel, ale autor překládaného textu. Komunikace systému s uživatelem probíhá v průběhu analýzy vstupního textu a tak může být formulována v termínech zdrojového jazyka. Z pohledu čistého teoretického výzkumu je zajímavé, jestli může být sestaven takový systém, který je schopný přeložit zdrojový text rovnocenně do cílového jazyka s použitím zmíněných interakcí s uživatelem (s možným velkým, ale konečným množství možností nabídnutých systémem uživateli).

Základní vlastností bylo odvozování sémantických reprezentací ze syntaktických struktur výrazů podle principů kompozicionality (pro každý syntaktický derivační strom existuje odpovídající sémantický derivační strom, který je zároveň mezijazykovou interpretací daného textu). Další vlastností bylo prozkoumání oboustrannosti gramatiky, což je vlastnost využívaná v mnoha pozdějších projektech strojového překladu.[2]

Pravidla projektu Rosetta

Přístup ke strojovému překladu použitý v projektu Rosetta, obvykle nazývaný izomorfní gramatický přístup může být charakterizován pěti pravidly. Jsou to spíše „pracovní pravidla“, která měla pomoci systematickému výzkumu překladu a vlastní konstrukci překladového systému. Neměly by být interpretovány jako ověřitelná tvrzení o jazyku anebo o lidském překladu. Jednalo se o těchto pět pravidel:

  1. Pravidlo explicitní gramatiky – Oba jazyky, zdrojový i cílový jazyk, jsou definovány explicitní gramatikou.
  2. Kompoziční pravidlo – Gramatiky jsou organizovány takovým způsobem, že význam výrazu je funkcí významů jeho částí.
  3. Pravidlo jedné gramatiky – Analýza a generování komponent pro konkrétní jazyk jsou založeny na stejné gramatice.
  4. Pravidlo izomorfie – Dvě věty jsou považovány za vzájemný překlad, jestliže jejich význam je odvozen stejným způsobem ze stejných základních významů.
  5. Pravidlo mezijazykovosti – Analýza a generování komponent různých jazyků se mapují do i ze stejného mezilehlého jazyka.[3]

Odchylky z pravidel

Tato pravidla by měla vést k navržení překladového systému systematicky, ale neměla by být brána jako dogmata. Existují určité důvody proč se těmto pravidlům vyhnout při tvorbě praktických systémů.[3]

  • Pravidlo izomorfie je nevyhnutelně narušováno pro mnoho základních výrazů. Slova odpovídající si ve dvou různých jazycích často mají nepatrně rozdílný význam. Proto není možné překlad uskutečnit bez určité tolerance těchto rozdílů.
  • Pravidlo jedné gramatiky bude porušováno v praktickém systému, protože pravidla jazyka nebo základní výrazy, které mají za cíl pouze rozšíření sady parafrází v cílovém jazyce, by měly být odstraněny ze součásti generování.
  • Měření robustnosti jsou potřeba pro zacházení se špatným vstupem, neznámými slovy atd. Jsou v konfliktu s několika pravidly.

Cíl projektu

Konečným cílem projektu bylo vytvoření systému pro uživatele, kteří neznají cílový jazyk překladu. Systém by měl zahrnout jednojazyčnou interaktivní desambiguaci v průběhu analýzy překládaného textu. Tímto by měl dosáhnout možnosti vyprodukovat přeložený text, který nevyžaduje následnou editaci, čí úpravu. Těchto výsledků se ale zatím nedosáhlo, projekt se soustředil pouze na teoretickou a lingvistickou stránku.[1]

Hlavním přínosem projektu Rosetta byl a zůstane poctivě založený výzkum vysoce zásadového přístupu k překladu a následné expanzi a obohacení teorie strojového překladu. Projekt podnítil mnoho výzkumníků strojového překladu k více důkladnému zvážení základů jejich vlastních přístupů ke strojovému překladu.[1]

Reference

  1. a b c HUTCHINS, John. An Introduction to Machine Translation. [s.l.]: [s.n.] Dostupné online. ISBN 0-12-362830-X. 
  2. KOERNER, E. F. K.; ASHER, R. E. Concise History of the Language Sciences: From the Sumerians to the Cognitivists. [s.l.]: Elsevier 510 s. Dostupné online. ISBN 9781483297545. (anglicky) Google-Books-ID: VCqLBQAAQBAJ. 
  3. a b APPELO, Lisette. The Machine Translation System ROSETTA [online]. [cit. 2016-09-16]. Dostupné v archivu pořízeném dne 2011-10-17.