ISO/IEC 8859
ISO/IEC 8859 je mezinárodní norma definující 15 osmibitových znakových sad, kterou společně vydala a udržovala Mezinárodní organizace pro normalizaci (ISO) a Mezinárodní elektrotechnická komise (IEC). Každá sada je definována jednou očíslovanou částí – ISO/IEC 8859-1 až ISO/IEC 8859-16; ISO/IEC 8859-12 nebylo vydáno. Vzhledem k očekávanému přechodu na ISO/IEC 10646 se vývoj ISO/IEC 8859 považuje za ukončený, a pracovní skupina byla rozpuštěna.
Části 1, 2, 3 a 4 ISO/IEC 8859 byly původně standardem ECMA-94 organizace Ecma International.
Úvod
Nejstarší znakové kódy byly z historických důvodů a kvůli omezení některých přenosových datových protokolů omezené na 7 bitů. 95 tisknutelných znaků ASCII stačí pro vyměnu informací v moderní angličtině, většina jiných jazyků používajících latinku však potřebuje další symboly, které nejsou součástí ASCII. ISO/IEC 8859 řeší toto problém využitím osmého bitu v osmibitovém bytu, což poskytuje prostor pro dalších 96 tisknutelných znaků v oblasti G1. Kvůli tomu, že různé jazyky používají různá diakritická znaménka, je celkový počet znaků s diakritikou větší, než kolik se vejde do jednoho osmibitového znakového kódu. Proto bylo vytvořeno několik kódování, z nichž 10 je určeno pro různé varianty latinky.
Norma ISO/IEC 8859-n definuje pouze tisknutelné znaky v oblasti G1 a byla navržena tak, aby mohla být používána ve spojení s řídicí znaky mapovanými na nepřiřazené kódy. Za tímto účelem řada kódování registrovaných organizací IANA přidává sadu řídicích znaků C0 (řídicí znaky mapované na kódy 0 až 31) z ISO/IEC 646 a sadu řídicích znaků C1 (s kódy 128 až 159) z ISO 6429, což dává osmibitové kódování, ve kterém je většina nebo všechny kódy přiřazené. Upřednostňované MIME jméno nebo kanonické jméno (pokud upřednostňované MIME jméno není zadané) těchto kódování je ISO-8859-n. Mnoho lidé používá termíny ISO/IEC 8859-n a ISO-8859-n jako synonyma. Pouze kódování ISO/IEC 8859-11 nebylo přiřazeno takovéto jméno znakové sady, pravděpodobně kvůli tomu, že je téměř identické s TIS 620.
Znaky
Norma ISO/IEC 8859 byla navržena pro spolehlivou výměnu informací, nikoli pro typografii; proto neobsahuje všechny symboly potřebné pro vysoce kvalitní typografii, jako například nepovinné slitky, uvozovky, lomítka, atd. Sázecí systémy kvůli tomu často používají proprietární rozšíření ASCII (např. kódování Cork v sázecím programu TeX) nebo ISO/IEC 8859 nebo Unicode.
Základním pravidlem bylo, že do kódování nebyly zařazeny znaky nebo symboly, které nebyly částí široce používané znakové sady pro zpracování dat a nevyskytovaly se na klávesnici psacích strojů pro příslušný jazyk. Proto se do kódování dostaly uvozovky tvaru dvojitých šipek « a » používané některými evropskými jazyky, ale nikoli dvojité uvozovky „ a “ používané v angličtině a některých jiných jazycích. Do kódování nebyly zahrnuty slitky œ a Œ používané ve francouzštině, protože je lze psát jako 'oe'. Bylo také vynecháno Ÿ, potřebné pouze pro texty psané velkými písmeny. Tyto znaky však byly zahrnuty později do ISO/IEC 8859-15, které také obsahuje nový znak Eura €. Podobně nebyla zahrnuta písmena 'ij' a 'IJ' používaná v nizozemštině, protože Nizozemci si zvykli je psát jako dvě písmena. Pro rumunštinu nebyly zařazeny znaky ‹Ș›/‹ș› a ‹Ț›/‹ț› (s čárkou) pod písmenem, protože je Unicode Consortium zpočátku považovalo za varianty znaků ‹Ş›/‹ş› a ‹Ţ›/‹ţ› (s cedillou). Písmena s čárkou pod znakem byla později přidána do standardu Unicode a jsou také v ISO/IEC 8859-16.
Většina kódování ISO/IEC 8859 obsahuje znaky diakritikou potřebné pro různé evropské jazyky používající latinku. Ostatní obsahují nelatinkové abecedy: řeckou abecedu, cyrilici, hebrejskou abecedu, arabskou abecedu a thajské písmo. Většina kódování obsahuje pouze samostatné znaky, přestože thajština, hebrejština a arabština používají i kombinační znaky. Norma však neobsahuje podporu východoasijských písem (CJK), protože jejich ideografická písma vyžadují tisíce kódových bodů. Zahrnuta není ani vietnamština, která sice používá latinku, ale má tolik znaků s diakritikou, že se nevejde se do 96 pozic (bez použití kombinační diakritiky). Obě japonské hláskové abecedy (hiragana a katakana, viz Kana) by se do tohoto počtu vešly, ale zakódované v ISO/IEC 8859 také nejsou.
Části ISO/IEC 8859
Norma ISO/IEC 8859 je rozdělena na následující části:
Část | Název | Jazyky |
---|---|---|
ISO/IEC 8859-1 | Latin-1 Western European | Pravděpodobně nejpoužívanější část ISO/IEC 8859, pokrývající většinu západoevropských jazyků: dánštinu (částečně)[1], nizozemštinu (částečně)[2], angličtinu, faerštinu, finštinu (částečně)[3], francouzštinu (částečně)[3], němčinu, islandštinu, irštinu, italštinu, norštinu, portugalštinu, rétorománštinu, skotskou gaelštinu, španělštinu, katalánštinu a švédštinu. Podporuje i některé jazyky mimo západní Evropu: východoevropskou albánštinu, jihovýchodoasijskou indonéštinu, africké jazyky afrikánštinu a svahilštinu. Chybějící znak Eura a velké Ÿ jsou v revidované verzi ISO/IEC 8859-15 (viz níže). Odpovídající znaková sada IANA je ISO-8859-1. |
ISO/IEC 8859-2 | Latin-2 Cental European | Podporuje následující středo- a východoevropské jazyky, které používají latinku, včetně bosenštiny, polštiny, chorvatštiny, češtiny, slovenštiny, slovinštiny, srbštiny a maďarštiny. Chybějící znak Eura lze nalézt ve verzi ISO/IEC 8859-16. |
ISO/IEC 8859-3 | Latin-3 South European | Turečtina, maltština a esperanto. Z větší části nahrazeno novější verzí ISO/IEC 8859-9 pro turečtinu a Unicodem pro esperanto. |
ISO/IEC 8859-4 | Latin-4 North European | Estonština, lotyština, litevština, grónština a sámské jazyky. |
ISO/IEC 8859-5 | Latin/Cyrillic | Pokrývá většinou slovanských jazyků, které používají cyrilici, včetně běloruštiny, bulharštiny, makedonštiny, ruštiny, srbštiny a (částečně) ukrajinštiny[4]. |
ISO/IEC 8859-6 | Latin/Arabic | Pokrývá nejobvyklejší arabské znaky. Nepodporuje jiné jazyky používající arabské písmo. Pro zobrazování vyžaduje podporu obousměrného textu a kurzivní spojování. |
ISO/IEC 8859-7 | Latin/Greek | Pokrývá moderní řečtinu (monotonní pravopis). Může být také použito pro starou řečtinu psanou bez diakritiky nebo monotonním pravopisem, ale nemá znaky s diakritikou pro polytonní pravopis, které jsou součástí Unicode. |
ISO/IEC 8859-8 | Latin/Hebrew | Pokrývá moderní hebrejskou abecedu, jak je používána v Izraeli. V praxi existují dvě různá kódování, logické pořadí (vyžaduje podporu obousměrného textu pro zobrazování) a vizuální (zleva doprava) pořadí (ve výsledku, po zpracování obousměrného textu a řádkovém zlomu). |
ISO/IEC 8859-9 | Latin-5 Turkish | Z větší části totožná s ISO/IEC 8859-1, ale nahrazuje zřídka používaná islandská písmena za turecká. |
ISO/IEC 8859-10 | Latin-6 Nordic | Přepracování kódu Latin-4. Považuje se za užitečnější pro severské jazyky. Pro baltské jazyky se více používá Latin-4. |
ISO/IEC 8859-11 | Latin/Thai | Obsahuje znaky potřebné pro thajštinu. Téměř identické s TIS 620. |
Latin/Devanagari | Práce na části 8859 pro Dévanágarí byla oficiálně ukončena v roce 1997. Dévanágarí je obsaženo v kódování ISCII a v Unicode/ISO/IEC 10646. | |
ISO/IEC 8859-13 | Latin-7 Baltic Rim | Doplněny některé znaky pro baltské jazyky, které chyběly v Latin-4 a Latin-6. |
ISO/IEC 8859-14 | Latin-8 Celtic | Pokrývá keltské jazyky jako například skotskou gaelštinu a bretonštinu. |
ISO/IEC 8859-15 | Latin-9 | Revize 8859-1, která nahradila některé málo používané symboly znakem Eura € a písmeny Š, š, Ž, ž, Œ, œ a Ÿ, které jsou potřebné pro francouzštinu, finštinu a estonštinu. |
ISO/IEC 8859-16 | Latin-10 South-Eastern European | Určena pro albánštinu, chorvatštinu, maďarštinu, italštinu, polštinu, rumunštinu a slovinštinu, ale také finštinu, francouzštinu, němčinu a irskou gaelštinu (nový pravopis). Klade větší důraz na písmena než na symboly. Znak měny je nahrazen znakem Eura. |
- ↑ Chybí několik samohlásek s diakritikou včetně Ǿ a ǿ, které mohou být nahrazeny znaky bez diakritiky za cenu zvětšené nejednoznačnosti.
- ↑ Chybí písmeno IJ/ij, které se obvykle zapisuje jako IJ.
- ↑ a b Chybějící znaky jsou v ISO/IEC 8859-15.
- ↑ V 8859-5 chybí písmeno Ґ/ґ, které bylo vráceno do ukrajinské abecedy v roce 1990.
Jednotlivé části ISO 8859 byly navrženy tak, aby podporovaly příbuzné jazyky, které používají stejná písmena s diakritikou, takže znaky potřebné pro jeden jazyk jsou obvykle obsaženy v jedné části. Existují však některé znaky a kombinace jazyků, které vyžadují přepínání mezi znakovými sadami podle ISO/IEC 2022. Standard byl vytvářen tak, aby konverze byly co nejjednodušší. Například všech sedm speciálních znaků používaných v němčině je ve všech variantách ISO/IEC 8859 (1–4, 9, 10, 13–16) na stejných pozicích a na mnoha pozicích se znaky v různých sadách liší pouze diakritickými znaménky. Speciálně varianty 1–4 byly navrženy společně a vyznačují se tím, že pokud se určitý znak vyskytuje ve více sadách, má ve všech stejný kód.
Tabulka
Dvojkově | Oct | Dec | Hex | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 13 | 14 | 15 | 16 | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
1010 0000 | 240 | 160 | A0 | nezlomitelná mezera (NBSP) | |||||||||||||||
1010 0001 | 241 | 161 | A1 | ¡ | Ą | Ħ | Ą | Ё | ‘ | ¡ | Ą | ก | ” | Ḃ | ¡ | Ą | |||
1010 0010 | 242 | 162 | A2 | ¢ | ˘ | ĸ | Ђ | ’ | ¢ | ¢ | Ē | ข | ¢ | ḃ | ¢ | ą | |||
1010 0011 | 243 | 163 | A3 | £ | Ł | £ | Ŗ | Ѓ | £ | Ģ | ฃ | £ | Ł | ||||||
1010 0100 | 244 | 164 | A4 | ¤ | Є | ¤ | € | ¤ | Ī | ค | ¤ | Ċ | € | ||||||
1010 0101 | 245 | 165 | A5 | ¥ | Ľ | Ĩ | Ѕ | ₯ | ¥ | Ĩ | ฅ | „ | ċ | ¥ | „ | ||||
1010 0110 | 246 | 166 | A6 | ¦ | Ś | Ĥ | Ļ | І | ¦ | Ķ | ฆ | ¦ | Ḋ | Š | |||||
1010 0111 | 247 | 167 | A7 | § | Ї | § | ง | § | |||||||||||
1010 1000 | 250 | 168 | A8 | ¨ | Ј | ¨ | Ļ | จ | Ø | Ẁ | š | ||||||||
1010 1001 | 251 | 169 | A9 | © | Š | İ | Š | Љ | © | Đ | ฉ | © | |||||||
1010 1010 | 252 | 170 | AA | ª | Ş | Ē | Њ | ͺ | × | ª | Š | ช | Ŗ | Ẃ | ª | Ș | |||
1010 1011 | 253 | 171 | AB | « | Ť | Ğ | Ģ | Ћ | « | Ŧ | ซ | « | ḋ | « | |||||
1010 1100 | 254 | 172 | AC | ¬ | Ź | Ĵ | Ŧ | Ќ | ، | ¬ | Ž | ฌ | ¬ | Ỳ | ¬ | Ź | |||
1010 1101 | 255 | 173 | AD | měkké rozdělovací znaménko (SHY) | ญ | SHY | |||||||||||||
1010 1110 | 256 | 174 | AE | ® | Ž | Ž | Ў | ® | Ū | ฎ | ® | ź | |||||||
1010 1111 | 257 | 175 | AF | ¯ | Ż | ¯ | Џ | ― | ¯ | Ŋ | ฏ | Æ | Ÿ | ¯ | Ż | ||||
1011 0000 | 260 | 176 | B0 | ° | А | ° | ฐ | ° | Ḟ | ° | |||||||||
1011 0001 | 261 | 177 | B1 | ± | ą | ħ | ą | Б | ± | ą | ฑ | ± | ḟ | ± | |||||
1011 0010 | 262 | 178 | B2 | ² | ˛ | ² | ˛ | В | ² | ē | ฒ | ² | Ġ | ² | Č | ||||
1011 0011 | 263 | 179 | B3 | ³ | ł | ³ | ŗ | Г | ³ | ģ | ณ | ³ | ġ | ³ | ł | ||||
1011 0100 | 264 | 180 | B4 | ´ | Д | ΄ | ´ | ī | ด | “ | Ṁ | Ž | |||||||
1011 0101 | 265 | 181 | B5 | µ | ľ | µ | ĩ | Е | ΅ | µ | ĩ | ต | µ | ṁ | µ | ” | |||
1011 0110 | 266 | 182 | B6 | ¶ | ś | ĥ | ļ | Ж | Ά | ¶ | ķ | ถ | ¶ | ||||||
1011 0111 | 267 | 183 | B7 | · | ˇ | · | ˇ | З | · | ท | · | Ṗ | · | ||||||
1011 1000 | 270 | 184 | B8 | ¸ | И | Έ | ¸ | ļ | ธ | ø | ẁ | ž | |||||||
1011 1001 | 271 | 185 | B9 | ¹ | š | ı | š | Й | Ή | ¹ | đ | น | ¹ | ṗ | ¹ | č | |||
1011 1010 | 272 | 186 | BA | º | ş | ē | К | Ί | ÷ | º | š | บ | ŗ | ẃ | º | ș | |||
1011 1011 | 273 | 187 | BB | » | ť | ğ | ģ | Л | ؛ | » | ŧ | ป | » | Ṡ | » | ||||
1011 1100 | 274 | 188 | BC | ¼ | ź | ĵ | ŧ | М | Ό | ¼ | ž | ผ | ¼ | ỳ | Œ | ||||
1011 1101 | 275 | 189 | BD | ½ | ˝ | ½ | Ŋ | Н | ½ | ― | ฝ | ½ | Ẅ | œ | |||||
1011 1110 | 276 | 190 | BE | ¾ | ž | ž | О | Ύ | ¾ | ū | พ | ¾ | ẅ | Ÿ | |||||
1011 1111 | 277 | 191 | BF | ¿ | ż | ŋ | П | ؟ | Ώ | ¿ | ŋ | ฟ | æ | ṡ | ¿ | ż | |||
1100 0000 | 300 | 192 | C0 | À | Ŕ | À | Ā | Р | ΐ | À | Ā | ภ | Ą | À | |||||
1100 0001 | 301 | 193 | C1 | Á | С | ء | Α | Á | ม | Į | Á | ||||||||
1100 0010 | 302 | 194 | C2 | Â | Т | آ | Β | Â | ย | Ā | Â | ||||||||
1100 0011 | 303 | 195 | C3 | Ã | Ă | Ã | У | أ | Γ | Ã | ร | Ć | Ã | Ă | |||||
1100 0100 | 304 | 196 | C4 | Ä | Ф | ؤ | Δ | Ä | ฤ | Ä | |||||||||
1100 0101 | 305 | 197 | C5 | Å | Ĺ | Ċ | Å | Х | إ | Ε | Å | ล | Å | Ć | |||||
1100 0110 | 306 | 198 | C6 | Æ | Ć | Ĉ | Æ | Ц | ئ | Ζ | Æ | ฦ | Ę | Æ | |||||
1100 0111 | 307 | 199 | C7 | Ç | Į | Ч | ا | Η | Ç | Į | ว | Ē | Ç | ||||||
1100 1000 | 310 | 200 | C8 | È | Č | È | Č | Ш | ب | Θ | È | Č | ศ | Č | È | ||||
1100 1001 | 311 | 201 | C9 | É | Щ | ة | Ι | É | ษ | É | |||||||||
1100 1010 | 312 | 202 | CA | Ê | Ę | Ê | Ę | Ъ | ت | Κ | Ê | Ę | ส | Ź | Ê | ||||
1100 1011 | 313 | 203 | CB | Ë | Ы | ث | Λ | Ë | ห | Ė | Ë | ||||||||
1100 1100 | 314 | 204 | CC | Ì | Ě | Ì | Ė | Ь | ج | Μ | Ì | Ė | ฬ | Ģ | Ì | ||||
1100 1101 | 315 | 205 | CD | Í | Э | ح | Ν | Í | อ | Ķ | Í | ||||||||
1100 1110 | 316 | 206 | CE | Î | Ю | خ | Ξ | Î | ฮ | Ī | Î | ||||||||
1100 1111 | 317 | 207 | CF | Ï | Ď | Ï | Ī | Я | د | Ο | Ï | ฯ | Ļ | Ï | |||||
Dvojkově | Oct | Dec | Hex | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 13 | 14 | 15 | 16 | |
1101 0000 | 320 | 208 | D0 | Ð | Đ | Đ | а | ذ | Π | Ğ | Ð | ะ | Š | Ŵ | Ð | ||||
1101 0001 | 321 | 209 | D1 | Ñ | Ń | Ñ | Ņ | б | ر | Ρ | Ñ | Ņ | ั | Ń | Ñ | Ń | |||
1101 0010 | 322 | 210 | D2 | Ò | Ň | Ò | Ō | в | ز | Ò | Ō | า | Ņ | Ò | |||||
1101 0011 | 323 | 211 | D3 | Ó | Ķ | г | س | Σ | Ó | ำ | Ó | ||||||||
1101 0100 | 324 | 212 | D4 | Ô | д | ش | Τ | Ô | ิ | Ō | Ô | ||||||||
1101 0101 | 325 | 213 | D5 | Õ | Ő | Ġ | Õ | е | ص | Υ | Õ | ี | Ő | ||||||
1101 0110 | 326 | 214 | D6 | Ö | ж | ض | Φ | Ö | ึ | Ö | |||||||||
1101 0111 | 327 | 215 | D7 | × | з | ط | Χ | × | Ũ | ื | × | Ṫ | × | Ś | |||||
1101 1000 | 330 | 216 | D8 | Ø | Ř | Ĝ | Ø | и | ظ | Ψ | Ø | ุ | Ų | Ø | Ű | ||||
1101 1001 | 331 | 217 | D9 | Ù | Ů | Ù | Ų | й | ع | Ω | Ù | Ų | ู | Ł | Ù | ||||
1101 1010 | 332 | 218 | DA | Ú | к | غ | Ϊ | Ú | ฺ | Ś | Ú | ||||||||
1101 1011 | 333 | 219 | DB | Û | Ű | Û | л | Ϋ | Û | Ū | Û | ||||||||
1101 1100 | 334 | 220 | DC | Ü | м | ά | Ü | Ü | |||||||||||
1101 1101 | 335 | 221 | DD | Ý | Ŭ | Ũ | н | έ | İ | Ý | Ż | Ý | Ę | ||||||
1101 1110 | 336 | 222 | DE | Þ | Ţ | Ŝ | Ū | о | ή | Ş | Þ | Ž | Ŷ | Þ | Ț | ||||
1101 1111 | 337 | 223 | DF | ß | п | ί | ‗ | ß | ฿ | ß | |||||||||
1110 0000 | 340 | 224 | E0 | à | ŕ | à | ā | р | ـ | ΰ | א | à | ā | เ | ą | à | |||
1110 0001 | 341 | 225 | E1 | á | с | ف | α | ב | á | แ | į | á | |||||||
1110 0010 | 342 | 226 | E2 | â | т | ق | β | ג | â | โ | ā | â | |||||||
1110 0011 | 343 | 227 | E3 | ã | ă | ã | у | ك | γ | ד | ã | ใ | ć | ã | ă | ||||
1110 0100 | 344 | 228 | E4 | ä | ф | ل | δ | ה | ä | ไ | ä | ||||||||
1110 0101 | 345 | 229 | E5 | å | ĺ | ċ | å | х | م | ε | ו | å | ๅ | å | ć | ||||
1110 0110 | 346 | 230 | E6 | æ | ć | ĉ | æ | ц | ن | ζ | ז | æ | ๆ | ę | æ | ||||
1110 0111 | 347 | 231 | E7 | ç | į | ч | ه | η | ח | ç | į | ็ | ē | ç | |||||
1110 1000 | 350 | 232 | E8 | è | č | è | č | ш | و | θ | ט | è | č | ่ | č | è | |||
1110 1001 | 351 | 233 | E9 | é | щ | ى | ι | י | é | ้ | é | ||||||||
1110 1010 | 352 | 234 | EA | ê | ę | ê | ę | ъ | ي | κ | ך | ê | ę | ๊ | ź | ê | |||
1110 1011 | 353 | 235 | EB | ë | ы | ً | λ | כ | ë | ๋ | ė | ë | |||||||
1110 1100 | 354 | 236 | EC | ì | ě | ì | ė | ь | ٌ | μ | ל | ì | ė | ์ | ģ | ì | |||
1110 1101 | 355 | 237 | ED | í | э | ٍ | ν | ם | í | ํ | ķ | í | |||||||
1110 1110 | 356 | 238 | EE | î | ю | َ | ξ | מ | î | ๎ | ī | î | |||||||
1110 1111 | 357 | 239 | EF | ï | ď | ï | ī | я | ُ | ο | ן | ï | ๏ | ļ | ï | ||||
1111 0000 | 360 | 240 | F0 | ð | đ | đ | № | ِ | π | נ | ğ | ð | ๐ | š | ŵ | ð | đ | ||
1111 0001 | 361 | 241 | F1 | ñ | ń | ñ | ņ | ё | ّ | ρ | ס | ñ | ņ | ๑ | ń | ñ | ń | ||
1111 0010 | 362 | 242 | F2 | ò | ň | ò | ō | ђ | ْ | ς | ע | ò | ō | ๒ | ņ | ò | |||
1111 0011 | 363 | 243 | F3 | ó | ķ | ѓ | σ | ף | ó | ๓ | ó | ||||||||
1111 0100 | 364 | 244 | F4 | ô | є | τ | פ | ô | ๔ | ō | ô | ||||||||
1111 0101 | 365 | 245 | F5 | õ | ő | ġ | õ | ѕ | υ | ץ | õ | ๕ | ő | ||||||
1111 0110 | 366 | 246 | F6 | ö | і | φ | צ | ö | ๖ | ö | |||||||||
1111 0111 | 367 | 247 | F7 | ÷ | ї | χ | ק | ÷ | ũ | ๗ | ÷ | ṫ | ÷ | ś | |||||
1111 1000 | 370 | 248 | F8 | ø | ř | ĝ | ø | ј | ψ | ר | ø | ๘ | ų | ø | ű | ||||
1111 1001 | 371 | 249 | F9 | ù | ů | ù | ų | љ | ω | ש | ù | ų | ๙ | ł | ù | ||||
1111 1010 | 372 | 250 | FA | ú | њ | ϊ | ת | ú | ๚ | ś | ú | ||||||||
1111 1011 | 373 | 251 | FB | û | ű | û | ћ | ϋ | û | ๛ | ū | û | |||||||
1111 1100 | 374 | 252 | FC | ü | ќ | ό | ü | ü | |||||||||||
1111 1101 | 375 | 253 | FD | ý | ŭ | ũ | § | ύ | LRM | ı | ý | ż | ý | ę | |||||
1111 1110 | 376 | 254 | FE | þ | ţ | ŝ | ū | ў | ώ | RLM | ş | þ | ž | ŷ | þ | ț | |||
1111 1111 | 377 | 255 | FF | ÿ | ˙ | џ | ÿ | ĸ | ’ | ÿ | |||||||||
Dvojkově | Oct | Dec | Hex | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 13 | 14 | 15 | 16 |
Na pozici 0xA0 je vždy nezlomitelná mezera, na pozici 0xAD je většinou měkké rozdělovací znaménko, který se zobrazuje pouze na koncích řádků.
Zeleně podbarvená pole jsou nepřiřazená.
Žlutě podbarvená pole jsou nově přidané znaky podle ISO/IEC 8859-7:2003 a ISO/IEC 8859-8:1999. LRM je značka přepínající směr psaní zleva doprava (U+200E), RLM zprava doleva (U+200F).
Vztah k Unicode a UCS
Od roku 1991 Unicode Consortium společně s ISO a IEC vyvíjí Univerzální znakovou sadu (UCS) Unicode/ISO/IEC 10646. Novější vydání ISO/IEC 8859 popisují znaky pomocí Unicode/UCS jmen a kódů tvaru U+nnnn, což umožňuje vnímat jednotlivé části ISO/IEC 8859 jako kódovací schéma pro Unicode/UCS znaky, které převádí znaky z malých částí UCS na osmibitové kódy. Prvních 256 znaků Unicode a UCS je identických s ISO/IEC-8859-1 (Latin-1).
V 90. letech 20. století byly oblíbené jednobytové znakové sady včetně kódování ISO/IEC 8859 a kódování z nich odvozených, protože byly snadno implementovatelné a dobře známé: fakt, že jeden znak je kódován jedním bytem a zabírá jednu pozici na displeji, usnadňuje programování a dostačuje pro většinu aplikací umožňujících používat jediný jazyk a existují ne kombinační znaky nebo variantní tvary. Od doby, kdy se více rozšířily operační systémy podporující Unicode, používání ISO/IEC 8859 a dalších starších kódování pokleslo. Zatímco zbytky ISO 8859 a jednobytových znakových modelů jsou hluboce zakořeněné v mnoha operačních systémech, programovacích jazycích, systémy pro ukládání dat, síťových aplikacích, videoadaptérech i aplikačním softwaru pro koncové uživatele, většina moderních aplikací používá interně Unicode a pro převody kódování mezi Unicode a jinými kódy vyžaduje konverzní tabulky.
Vývojový status
Řadu standardů ISO/IEC 8859 vyvíjela pracovní skupina ISO/IEC Joint Technical Committee 1, Subcommittee 2, Working Group 3 (ISO/IEC JTC 1/SC 2/WG 3). V červnu 2004 byla pracovní skupina WG 3 rozpuštěna a její úkoly byly přeneseny na SC 2. Vývoj standardu ISO/IEC 8859 byl ukončen, protože jediná zbývající pracovní skupina, WG 2, se soustřeďuje na vývoj univerzální kódované znakové sady – Unicode.
Odkazy
Reference
V tomto článku byl použit překlad textu z článku ISO/IEC 8859 na anglické Wikipedii.
- Publikovaná verze každé části ISO/IEC 8859 je za úhradu dostupná na serveru s ISO katalogem a na IEC Webstore.
- PDF verze posledních pracovních verzí některých částí ISO/IEC 8859 jak byly předloženy ISO/IEC JTC 1/SC 2/WG 3 pro revizi a publikaci jsou dostupné na WWW serveru WG 3:
- ISO/IEC 8859-1:1998 – Osmibitové jednobytové kódované grafické znakové sady, Část 1: Latinská abeceda čís. 1 (pracovní verze datovaná 12. února 1998, publikováno 15. dubna 1998)
- ISO/IEC 8859-4:1998 – Osmibitové jednobytové kódované grafické znakové sady, Část 4: Latinská abeceda čís. 4 (pracovní verze datovaná 12. února 1998, publikováno 1. července 1998)
- ISO/IEC 8859-7:1999 – Osmibitové jednobytové kódované grafické znakové sady, Část 7: Latinská/řecký abeceda (pracovní verze datovaná 10. června 1999; nahrazený novější verzí ISO/IEC 8859-7:2003, publikováno 10. října 2003)
- ISO/IEC 8859-10:1998 – Osmibitové jednobytové kódované grafické znakové sady, Část 10: Latinská abeceda čís. 6 (pracovní verze datovaná 12. února 1998, publikováno 15. července 1998)
- ISO/IEC 8859-11:1999 – Osmibitové jednobytové kódované grafické znakové sady, Část 11: Latinka/thajská znaková sada (pracovní verze datovaná 22. června 1999; nahrazena novější verzí ISO/IEC 8859-11:2001 publikovanou 15. prosince 2001)
- ISO/IEC 8859-13:1998 – Osmibitové jednobytové kódované grafické znakové sady, Část 13: Latinská abeceda čís. 7 (pracovní verze datovaná 15. dubna 1998, publikováno 10. října 1998)
- ISO/IEC 8859-15:1998 – Osmibitové jednobytové kódované grafické znakové sady, Část 15: Latinská abeceda čís. 9 (pracovní verze datovaná 1. srpna 1997; nahrazený novější verzí ISO/IEC 8859-15:1999, publikováno 15. března 1999)
- ISO/IEC 8859-16:2000 – Osmibitové jednobytové kódované grafické znakové sady, Část 16: Latinská abeceda čís. 10 (pracovní verze datovaná 15. listopadu 1999; nahrazený novější verzí ISO/IEC 8859-16:2001, publikováno 15. července 2001)
- Standardy Ecma International, které úmyslně přesně odpovídají standardům ISO/IEC 8859 znakových sad, jsou následující:
- Standard ECMA-94: Osmibitové jednobytové kódované znakové sady – Latinské abecedy čís. 1 až 4, 2. vydání (červen 1986)
- Standard ECMA-113: Osmibitové jednobytové kódované znakové sady – Latinka/cyrilice 3. vydání (prosinec 1999)
- Standard ECMA-114: Osmibitové jednobytové kódované znakové sady – Latinka/arabská abeceda 2. vydání (prosinec 2000)
- Standard ECMA-118: Osmibitové jednobytové kódované znakové sady – Latinka/řecká abeceda (prosinec 1986)
- Standard ECMA-121: Osmibitové jednobytové kódované znakové sady – Latinka/hebrejská abeceda, 2. vydání (prosinec 2000)
- Standard ECMA-128: Osmibitové jednobytové kódované znakové sady – Latinská abeceda čís. 5, 2. vydání (prosinec 1999)
- Standard ECMA-144: Osmibitové jednobytové kódované znakové sady – Latinská abeceda čís. 6, 3. vydání (prosinec 2000)
- ISO/IEC 8859-1 na Unicode zobrazení tabulky jako prosté textové soubory jsou na Unicode FTP serveru.
- Neformální popisy a tabulky kódu pro většinu kódování ISO/IEC 8859 jsou dostupné na ISO/IEC 8859 Alphabet Soup (záložní server)