5 Однобайтне кодування (KOI8, ISO8859-5, CP1251, IBM866, MAC-CYR)

Матеріал з Wiki TNEU
Перейти до: навігація, пошук

Однобайтне кодування — це система яка вміщує однобайтні (восьмибітні) коди відповідних їм символів. Тобто вона може містити максимально 255 символів. Найбільш поширені кодування з підтримкою кирилиці це: KOI8, ISO8859-5, CP1251, IBM866, MAC-CYR.

KOI8 кодування розроблено для підтримки алфавіту кирилиці. Дане кодування було поширено в українському та російському інтернеті довгий час, а причиною цього є те, що він був використаний в першій локалізації системи Unix. Група КОІ складається з: KOI8-R (російська), KOI8-U (українська), KOI8-RU (російсько-українська), KOI8-F (KOI8-unified), KOI8-T (такжидська), KOI8-O і KOI8-С (слов'янська, стара орфографія), ISO-IR-111 (ECMA-Cyrillic, KOI8-E). Особливістю KOI8 є те, що кириличні символи розміщенні у верхній частині кодової таблиці у відповідності до їх фонетичним аналогам у англійському алфавіті. Це означає, що якщо в тексті, написаному в КОІ-8, прибрати восьмий біт кожного символу, то виходить «читабельний» текст, хоча він і написаний латинськими символами. Наприклад, слова «Русский Текст» перетворилися б на «rUSSKIJ tEKST». Як побічний наслідок, символи кирилиці опинилися розташованими не в алфавітному порядку.

ISO-8859-5 - стандарт ISO з кирилічним набором символів. Він містить символи таких мов: Української, Білоруської, Сербської. Це кодування не містить літери українського алфавіту "ґ". ISO-8859-5 широко не використовувалося в інтернеті, його використовували у СУБД(DB/2, Oracle) але системні адміністратори замінювали його більш традиційним кодуванням.

Кодування CP1251 було розроблено компанією Microsoft для використання у ОП Windows, яка повинна була поширюватися у Росії. Деякі джерела свідчать про те, що це кодування було винайдено в результаті перетворення CP437 -> ISO-8859-1, щоб спростити процес перетворення документів DOS. CP1251 містить найбільше додаткових символів для Українського, Білоруського, Сербського та Російського алфавітів і є одним з найпопулярнішим з кодувань у цих країнах. Має три недоліки:

• мала (рядкова) буква «я» має код 0xFF (255 в 10-овій системі). Вона є «винуватицею» ряду несподіваних проблем в програмах без підтримки чистого 8-го біту;

• відсутні символи псевдографіки;

• при сортуванні в алфавітному порядку літери не йдуть підряд, оскільки між літерами ўЎіІєЄЇґҐёЁ і основним блоком літер йдуть спецсимволи.

IBM866 - кодування з підтримкою кирилиці, яке використовується в DOS.

MAC-CYR - це кодування використовується тільки на комп'ютерах "Macintosh", воно містить усі літери Українського, Білоруського, Сербського та російського алфавітів.

Особисті інструменти
Простори назв

Варіанти
Дії
Навігація
Інструменти