Відмінності між версіями «5 Однобайтне кодування (KOI8, ISO8859-5, CP1251, IBM866, MAC-CYR)»
(Створена сторінка: '''Однобайтне кодування''' - це кодова таблиця яка не перевищує розмір 1 байт. '''Група KOI8''' бу...) |
Vorobel (Обговорення • внесок) |
||
(5 проміжних версій 3 користувачів не показані) | |||
Рядок 1: | Рядок 1: | ||
− | '''Однобайтне кодування''' | + | '''Однобайтне кодування''' — це система яка вміщує однобайтні (восьмибітні) коди відповідних їм символів. Тобто вона може містити максимально 255 символів. |
− | ''' | + | Найбільш поширені кодування з підтримкою кирилиці це: KOI8, ISO8859-5, CP1251, IBM866, MAC-CYR. |
− | Група КОІ складається з: | + | |
− | KOI8-R | + | '''KOI8''' кодування розроблено для підтримки алфавіту кирилиці. Дане кодування було поширено в українському та російському інтернеті довгий час, а причиною цього є те, що він був використаний в першій локалізації системи Unix. Група КОІ складається з: KOI8-R (російська), KOI8-U (українська), KOI8-RU (російсько-українська), KOI8-F (KOI8-unified), KOI8-T (такжидська), KOI8-O і KOI8-С (слов'янська, стара орфографія), ISO-IR-111 (ECMA-Cyrillic, KOI8-E). Особливістю KOI8 є те, що кириличні символи розміщенні у верхній частині кодової таблиці у відповідності до їх фонетичним аналогам у англійському алфавіті. Це означає, що якщо в тексті, написаному в КОІ-8, прибрати восьмий біт кожного символу, то виходить «читабельний» текст, хоча він і написаний латинськими символами. Наприклад, слова «Русский Текст» перетворилися б на «rUSSKIJ tEKST». Як побічний наслідок, символи кирилиці опинилися розташованими не в алфавітному порядку. |
− | KOI8-U | + | |
− | KOI8-RU | + | '''ISO-8859-5''' - стандарт ISO з кирилічним набором символів. Він містить символи таких мов: Української, Білоруської, Сербської. Це кодування не містить літери українського алфавіту "ґ". ISO-8859-5 широко не використовувалося в інтернеті, його використовували у СУБД(DB/2, Oracle) але системні адміністратори замінювали його більш традиційним кодуванням. |
− | KOI8-F (KOI8-unified) | + | |
− | ISO-IR-111 (ECMA-Cyrillic, KOI8-E) | + | '''Кодування CP1251''' було розроблено компанією Microsoft для використання у ОП Windows, яка повинна була поширюватися у Росії. Деякі джерела свідчать про те, що це кодування було винайдено в результаті перетворення CP437 -> ISO-8859-1, щоб спростити процес перетворення документів DOS. CP1251 містить найбільше додаткових символів для Українського, Білоруського, Сербського та Російського алфавітів і є одним з найпопулярнішим з кодувань у цих країнах. Має три недоліки: |
− | + | • мала (рядкова) буква «я» має код 0xFF (255 в 10-овій системі). Вона є «винуватицею» ряду несподіваних проблем в програмах без підтримки чистого 8-го біту; | |
− | + | ||
− | + | • відсутні символи псевдографіки; | |
− | '''IBM866''' - | + | • при сортуванні в алфавітному порядку літери не йдуть підряд, оскільки між літерами ўЎіІєЄЇґҐёЁ і основним блоком літер йдуть спецсимволи. |
− | + | ||
− | MAC-CYR - це кодування використовується тільки на комп'ютерах "Macintosh", воно містить усі літери Українського, Білоруського, Сербського та російського алфавітів. | + | '''IBM866''' - кодування з підтримкою кирилиці, яке використовується в DOS. |
+ | |||
+ | '''MAC-CYR''' - це кодування використовується тільки на комп'ютерах "Macintosh", воно містить усі літери Українського, Білоруського, Сербського та російського алфавітів. |
Поточна версія на 19:34, 18 червня 2013
Однобайтне кодування — це система яка вміщує однобайтні (восьмибітні) коди відповідних їм символів. Тобто вона може містити максимально 255 символів. Найбільш поширені кодування з підтримкою кирилиці це: KOI8, ISO8859-5, CP1251, IBM866, MAC-CYR.
KOI8 кодування розроблено для підтримки алфавіту кирилиці. Дане кодування було поширено в українському та російському інтернеті довгий час, а причиною цього є те, що він був використаний в першій локалізації системи Unix. Група КОІ складається з: KOI8-R (російська), KOI8-U (українська), KOI8-RU (російсько-українська), KOI8-F (KOI8-unified), KOI8-T (такжидська), KOI8-O і KOI8-С (слов'янська, стара орфографія), ISO-IR-111 (ECMA-Cyrillic, KOI8-E). Особливістю KOI8 є те, що кириличні символи розміщенні у верхній частині кодової таблиці у відповідності до їх фонетичним аналогам у англійському алфавіті. Це означає, що якщо в тексті, написаному в КОІ-8, прибрати восьмий біт кожного символу, то виходить «читабельний» текст, хоча він і написаний латинськими символами. Наприклад, слова «Русский Текст» перетворилися б на «rUSSKIJ tEKST». Як побічний наслідок, символи кирилиці опинилися розташованими не в алфавітному порядку.
ISO-8859-5 - стандарт ISO з кирилічним набором символів. Він містить символи таких мов: Української, Білоруської, Сербської. Це кодування не містить літери українського алфавіту "ґ". ISO-8859-5 широко не використовувалося в інтернеті, його використовували у СУБД(DB/2, Oracle) але системні адміністратори замінювали його більш традиційним кодуванням.
Кодування CP1251 було розроблено компанією Microsoft для використання у ОП Windows, яка повинна була поширюватися у Росії. Деякі джерела свідчать про те, що це кодування було винайдено в результаті перетворення CP437 -> ISO-8859-1, щоб спростити процес перетворення документів DOS. CP1251 містить найбільше додаткових символів для Українського, Білоруського, Сербського та Російського алфавітів і є одним з найпопулярнішим з кодувань у цих країнах. Має три недоліки:
• мала (рядкова) буква «я» має код 0xFF (255 в 10-овій системі). Вона є «винуватицею» ряду несподіваних проблем в програмах без підтримки чистого 8-го біту;
• відсутні символи псевдографіки;
• при сортуванні в алфавітному порядку літери не йдуть підряд, оскільки між літерами ўЎіІєЄЇґҐёЁ і основним блоком літер йдуть спецсимволи.
IBM866 - кодування з підтримкою кирилиці, яке використовується в DOS.
MAC-CYR - це кодування використовується тільки на комп'ютерах "Macintosh", воно містить усі літери Українського, Білоруського, Сербського та російського алфавітів.