Відмінності між версіями «5 Однобайтне кодування (KOI8, ISO8859-5, CP1251, IBM866, MAC-CYR)»

Поточна версія на 19:34, 18 червня 2013

Однобайтне кодування — це система яка вміщує однобайтні (восьмибітні) коди відповідних їм символів. Тобто вона може містити максимально 255 символів. Найбільш поширені кодування з підтримкою кирилиці це: KOI8, ISO8859-5, CP1251, IBM866, MAC-CYR.

KOI8 кодування розроблено для підтримки алфавіту кирилиці. Дане кодування було поширено в українському та російському інтернеті довгий час, а причиною цього є те, що він був використаний в першій локалізації системи Unix. Група КОІ складається з: KOI8-R (російська), KOI8-U (українська), KOI8-RU (російсько-українська), KOI8-F (KOI8-unified), KOI8-T (такжидська), KOI8-O і KOI8-С (слов'янська, стара орфографія), ISO-IR-111 (ECMA-Cyrillic, KOI8-E). Особливістю KOI8 є те, що кириличні символи розміщенні у верхній частині кодової таблиці у відповідності до їх фонетичним аналогам у англійському алфавіті. Це означає, що якщо в тексті, написаному в КОІ-8, прибрати восьмий біт кожного символу, то виходить «читабельний» текст, хоча він і написаний латинськими символами. Наприклад, слова «Русский Текст» перетворилися б на «rUSSKIJ tEKST». Як побічний наслідок, символи кирилиці опинилися розташованими не в алфавітному порядку.

ISO-8859-5 - стандарт ISO з кирилічним набором символів. Він містить символи таких мов: Української, Білоруської, Сербської. Це кодування не містить літери українського алфавіту "ґ". ISO-8859-5 широко не використовувалося в інтернеті, його використовували у СУБД(DB/2, Oracle) але системні адміністратори замінювали його більш традиційним кодуванням.

Кодування CP1251 було розроблено компанією Microsoft для використання у ОП Windows, яка повинна була поширюватися у Росії. Деякі джерела свідчать про те, що це кодування було винайдено в результаті перетворення CP437 -> ISO-8859-1, щоб спростити процес перетворення документів DOS. CP1251 містить найбільше додаткових символів для Українського, Білоруського, Сербського та Російського алфавітів і є одним з найпопулярнішим з кодувань у цих країнах. Має три недоліки:

• мала (рядкова) буква «я» має код 0xFF (255 в 10-овій системі). Вона є «винуватицею» ряду несподіваних проблем в програмах без підтримки чистого 8-го біту;

• відсутні символи псевдографіки;

• при сортуванні в алфавітному порядку літери не йдуть підряд, оскільки між літерами ўЎіІєЄЇґҐёЁ і основним блоком літер йдуть спецсимволи.

IBM866 - кодування з підтримкою кирилиці, яке використовується в DOS.

MAC-CYR - це кодування використовується тільки на комп'ютерах "Macintosh", воно містить усі літери Українського, Білоруського, Сербського та російського алфавітів.

@@ Рядок 1: / Рядок 1: @@
-'''Однобайтне кодування''' - це кодова таблиця яка не перевищує розмір 1 байт.
+'''Однобайтне кодування''' — це система яка вміщує однобайтні (восьмибітні) коди відповідних їм символів. Тобто вона може містити максимально 255 символів.
+Найбільш поширені кодування з підтримкою кирилиці це: KOI8, ISO8859-5, CP1251,       IBM866, MAC-CYR.
+'''KOI8''' кодування розроблено для підтримки алфавіту кирилиці. Дане кодування було поширено в українському та російському інтернеті довгий час, а причиною цього є те, що він був використаний в першій локалізації системи Unix. Група КОІ складається з: KOI8-R (російська), KOI8-U (українська), KOI8-RU (російсько-українська), KOI8-F (KOI8-unified), KOI8-T (такжидська), KOI8-O і KOI8-С (слов'янська, стара орфографія), ISO-IR-111 (ECMA-Cyrillic, KOI8-E). Особливістю KOI8 є те, що кириличні символи розміщенні у верхній частині кодової таблиці у відповідності до їх фонетичним аналогам у англійському алфавіті. Це означає, що якщо в тексті, написаному в КОІ-8, прибрати восьмий біт кожного символу, то виходить «читабельний» текст, хоча він і написаний латинськими символами. Наприклад, слова «Русский Текст» перетворилися б на «rUSSKIJ tEKST». Як побічний наслідок, символи кирилиці опинилися розташованими не в алфавітному порядку.
+'''ISO-8859-5''' - стандарт ISO з кирилічним набором символів. Він містить символи таких мов: Української, Білоруської, Сербської. Це кодування не містить літери українського алфавіту "ґ". ISO-8859-5 широко не використовувалося в інтернеті, його використовували у СУБД(DB/2, Oracle) але системні адміністратори замінювали його більш традиційним кодуванням.
+'''Кодування CP1251''' було розроблено компанією Microsoft для використання у ОП Windows, яка повинна була поширюватися у Росії. Деякі джерела свідчать про те, що це кодування було винайдено в результаті перетворення CP437 -> ISO-8859-1, щоб спростити процес перетворення документів DOS. CP1251 містить найбільше додаткових символів для Українського, Білоруського, Сербського та Російського алфавітів і є одним з найпопулярнішим з кодувань у цих країнах. Має три недоліки:
-'''Група KOI8''' була поширена в Українському та російському інтернеті довгий час, а причиною цього є те, що він був використаний в першій локалізації системи Unix, і тому, що КОІ підтримує кириличний алфавіт.
+• мала (рядкова) буква «я» має код 0xFF (255 в 10-овій системі). Вона є «винуватицею» ряду несподіваних проблем в програмах без підтримки чистого 8-го біту;
-Група КОІ складається з:
-KOI8-R
+• відсутні символи псевдографіки;
-KOI8-U
-KOI8-RU
-KOI8-F (KOI8-unified)
-ISO-IR-111 (ECMA-Cyrillic, KOI8-E)
-'''ISO-8859-5''' - стандарт ISO з кирилічним набором символів. Він містить символи таких сов як: Української, Білоруської, Сербської. Це кодування не містить літери Українського алфавіту "ґ".
-Взагалі ISO-8859-5 широко не використовувалося в інтернеті, його використовували у СУБД(DB/2, Oracle)але системні адміністратори пропадчували їх і ставили більш традиційне кодування.
-'''Кодування CP1251''' було винайдено компанією Microsoft для використання у ОП Windows яка повинна була поширюватися у Росії. Деякі джерела свідчать про те, що це кодування було винайдено в результаті перетворення CP437 -> ISO-8859-1, щоб спростити процес перетворення документів DOS. CP1251 містить найбільше додаткових символів для Українського, Білоруського, Сербського та Російського алфавітів і є одним з найпопулярнішим з кодувань у цих країнах.
-'''IBM866''' - кириличне кодування яке використовується в DOS.
+• при сортуванні в алфавітному порядку літери не йдуть підряд, оскільки між літерами ўЎіІєЄЇґҐёЁ і основним блоком літер йдуть спецсимволи.
+'''IBM866''' - кодування з підтримкою кирилиці, яке використовується в DOS.
 '''MAC-CYR''' - це кодування використовується тільки на комп'ютерах "Macintosh", воно містить усі літери Українського, Білоруського, Сербського та російського алфавітів.

Відмінності між версіями «5 Однобайтне кодування (KOI8, ISO8859-5, CP1251, IBM866, MAC-CYR)»

Поточна версія на 19:34, 18 червня 2013

Особисті інструменти

Простори назв

Варіанти

Перегляди

Дії

Пошук

Навігація

Інструменти