Dvoubajtové kódování

Dvoubajtové kódování znaků nebo dvoubajtová znaková sada, zkratkou DBCS (z anglického Double-Byte Character Set) je kódování znaků, která dvěma bajty kóduje buď celou znakovou sadu (včetně řídicích znaků) nebo její část, přičemž zbytek je reprezentován doprovodným jednobajtovým kódováním (SBCS). DBCS se používá pro jazyky, které používají velké množství znaků nebo symbolů (jednobajtovým kódem lze reprezentovat maximálně 256 znaků, dvoubajtovým až 65536 znaků) jako je čínština nebo japonština; korejské písmo hangul sice nemá tolik znaků, ale kódování KS X 1001 obsahuje písmo hangul i hanča a používá také dvoubajtové kódování.

Použití pro čínštinu japonštinu a korejštinu

Označení DBCS se původně používala pouze pro taková kódování znaků, která kódují každý tisknutelný znak dvěma bajty. Nejvýznamnější bit prvního bajtu měl vždy hodnotu jedna, aby nekolidoval s žádným sedmibitovým kódem z doprovodné jednobajtové znakové sady, SBCS. Aby starší programy (které předpokládaly, že jeden bajt = jeden znak = jedna pozice na displeji) neměly potíže s počítáním pozice na obrazovce, odpovídaly jednobajtové kódy znakům poloviční šířky a dvoubajtové kódy znakům plné šířky.

Označení DBCS může také naznačovat, že se používají podkladové struktury neodpovídající ISO/IEC 2022, konkrétně, že se nejedná o kódování Extended Unix Code (EUC).

Tento původní význam se liší od toho, jak je někdy chápáno DBCS dnes. Podle některých lidé by tato kódování znaků by měla patřit mezi vícebajtová kódování (MBCS) s proměnnou šířkou kódu, protože EUC-JP, EUC-KR, EUC-TW, GB18030 a UTF-8 používají pro některé znaky více než dva bajty a pro jiné jeden bajt.

Nejednoznačnost termínu

Někteří lidé používají DBCS pro kódování UTF-16 a UTF-8, jiní pouze pro starší znakové kódy, které používají více než jeden bajt na znak. Označovat Shift-JIS, GB2312 a Big5 za DBCS není správné, protože se ve skutečnosti jedná o kódy s proměnné šířkou kódování. Některé sálové počítače firmy IBM používají kódové stránky, které obsahují pouze dvoubajtové kódy vícebajtového kódování.

„Podpora dvoubajtových kódování“ při internacionalizaci softwaru může znamenat jak jeho přizpůsobení pro východoasijský trhy s vyžitím starších technologií kódových stránek, tak podporu Unicode. Tento termín může také znamenat překlad do východoasijských jazyků. Obvykle „podpora Unicode“ znamená internacionalizaci softwaru pomocí Unicode, zatímco „podpora dvoubajtových kódování“ naznačuje použití kódování nekompatibilních s Unicode, které se používají ve východoasijských zemích pro internacionalizaci softwaru. Protože Unicode na rozdíl od mnoha jiných kódování podporuje všechny hlavní jazyky východní Asie, je obecně vhodnější vytvářet a udržovat software, který používá Unicode. Podpora DBCS je požadována pouze tehdy, když starší operační systémy anebo aplikace Unicode nepodporují.

TBCS

Tříbajtové kódování (tříbytová znaková sada, TBCS) je kódování znaků, ve kterém jsou znaky (včetně řídicích) zakódovány třemi bajty.

Odkazy

Reference

V tomto článku byl použit překlad textu z článku DBCS na anglické Wikipedii.

Související články

Externí odkazy