Відмінності між версіями «5 Однобайтне кодування (KOI8, ISO8859-5, CP1251, IBM866, MAC-CYR)»

Матеріал з Wiki TNEU
Перейти до: навігація, пошук
м (Захист на 5 Однобайтне кодування (KOI8, ISO8859-5, CP1251, IBM866, MAC-CYR) встановлено (‎[edit=sysop] (безстроково) ‎[move=sysop] (безстроково)))
 
(Одна проміжна версія одного користувача не показана)
Рядок 1: Рядок 1:
'''Однобайтне кодування''' - це кодова таблиця яка не перевищує розмір 1 байт.
+
'''Однобайтне кодування''' це система яка вміщує однобайтні (восьмибітні) коди відповідних їм символів. Тобто вона може містити максимально 255 символів.
 +
Найбільш поширені кодування з підтримкою кирилиці це: KOI8, ISO8859-5, CP1251,      IBM866, MAC-CYR.
 +
 +
'''KOI8''' кодування розроблено для підтримки алфавіту кирилиці. Дане кодування було поширено в українському та російському інтернеті довгий час, а причиною цього є те, що він був використаний в першій локалізації системи Unix. Група КОІ складається з: KOI8-R (російська), KOI8-U (українська), KOI8-RU (російсько-українська), KOI8-F (KOI8-unified), KOI8-T (такжидська), KOI8-O і KOI8-С (слов'янська, стара орфографія), ISO-IR-111 (ECMA-Cyrillic, KOI8-E). Особливістю KOI8 є те, що кириличні символи розміщенні у верхній частині кодової таблиці у відповідності до їх фонетичним аналогам у англійському алфавіті. Це означає, що якщо в тексті, написаному в КОІ-8, прибрати восьмий біт кожного символу, то виходить «читабельний» текст, хоча він і написаний латинськими символами. Наприклад, слова «Русский Текст» перетворилися б на «rUSSKIJ tEKST». Як побічний наслідок, символи кирилиці опинилися розташованими не в алфавітному порядку.
 +
 +
'''ISO-8859-5''' - стандарт ISO з кирилічним набором символів. Він містить символи таких мов: Української, Білоруської, Сербської. Це кодування не містить літери українського алфавіту "ґ". ISO-8859-5 широко не використовувалося в інтернеті, його використовували у СУБД(DB/2, Oracle) але системні адміністратори замінювали його більш традиційним кодуванням.
 +
 +
'''Кодування CP1251''' було розроблено компанією Microsoft для використання у ОП Windows, яка повинна була поширюватися у Росії. Деякі джерела свідчать про те, що це кодування було винайдено в результаті перетворення CP437 -> ISO-8859-1, щоб спростити процес перетворення документів DOS. CP1251 містить найбільше додаткових символів для Українського, Білоруського, Сербського та Російського алфавітів і є одним з найпопулярнішим з кодувань у цих країнах. Має три недоліки:
  
'''Група KOI8''' була поширена в Українському та російському інтернеті довгий час, а причиною цього є те, що він був використаний в першій локалізації системи Unix, і тому, що КОІ підтримує кириличний алфавіт.
+
• мала (рядкова) буква «я» має код 0xFF (255 в 10-овій системі). Вона є «винуватицею» ряду несподіваних проблем в програмах без підтримки чистого 8-го біту;
Група КОІ складається з:
+
  
KOI8-R
+
• відсутні символи псевдографіки;
 
+
KOI8-U
+
 
+
KOI8-RU
+
 
+
KOI8-F (KOI8-unified)
+
 
+
ISO-IR-111 (ECMA-Cyrillic, KOI8-E)
+
 
+
'''ISO-8859-5''' - стандарт ISO з кирилічним набором символів. Він містить символи таких сов як: Української, Білоруської, Сербської. Це кодування не містить літери Українського алфавіту "ґ".
+
Взагалі ISO-8859-5 широко не використовувалося в інтернеті, його використовували у СУБД(DB/2, Oracle)але системні адміністратори пропадчували їх і ставили більш традиційне кодування.
+
 
+
'''Кодування CP1251''' було винайдено компанією Microsoft для використання у ОП Windows яка повинна була поширюватися у Росії. Деякі джерела свідчать про те, що це кодування було винайдено в результаті перетворення CP437 -> ISO-8859-1, щоб спростити процес перетворення документів DOS. CP1251 містить найбільше додаткових символів для Українського, Білоруського, Сербського та Російського алфавітів і є одним з найпопулярнішим з кодувань у цих країнах.
+
 
+
'''IBM866''' - кириличне кодування яке використовується в DOS.
+
  
 +
• при сортуванні в алфавітному порядку літери не йдуть підряд, оскільки між літерами ўЎіІєЄЇґҐёЁ і основним блоком літер йдуть спецсимволи.
 +
 +
'''IBM866''' - кодування з підтримкою кирилиці, яке використовується в DOS.
 +
 
'''MAC-CYR''' - це кодування використовується тільки на комп'ютерах "Macintosh", воно містить усі літери Українського, Білоруського, Сербського та російського алфавітів.
 
'''MAC-CYR''' - це кодування використовується тільки на комп'ютерах "Macintosh", воно містить усі літери Українського, Білоруського, Сербського та російського алфавітів.

Поточна версія на 19:34, 18 червня 2013

Однобайтне кодування — це система яка вміщує однобайтні (восьмибітні) коди відповідних їм символів. Тобто вона може містити максимально 255 символів. Найбільш поширені кодування з підтримкою кирилиці це: KOI8, ISO8859-5, CP1251, IBM866, MAC-CYR.

KOI8 кодування розроблено для підтримки алфавіту кирилиці. Дане кодування було поширено в українському та російському інтернеті довгий час, а причиною цього є те, що він був використаний в першій локалізації системи Unix. Група КОІ складається з: KOI8-R (російська), KOI8-U (українська), KOI8-RU (російсько-українська), KOI8-F (KOI8-unified), KOI8-T (такжидська), KOI8-O і KOI8-С (слов'янська, стара орфографія), ISO-IR-111 (ECMA-Cyrillic, KOI8-E). Особливістю KOI8 є те, що кириличні символи розміщенні у верхній частині кодової таблиці у відповідності до їх фонетичним аналогам у англійському алфавіті. Це означає, що якщо в тексті, написаному в КОІ-8, прибрати восьмий біт кожного символу, то виходить «читабельний» текст, хоча він і написаний латинськими символами. Наприклад, слова «Русский Текст» перетворилися б на «rUSSKIJ tEKST». Як побічний наслідок, символи кирилиці опинилися розташованими не в алфавітному порядку.

ISO-8859-5 - стандарт ISO з кирилічним набором символів. Він містить символи таких мов: Української, Білоруської, Сербської. Це кодування не містить літери українського алфавіту "ґ". ISO-8859-5 широко не використовувалося в інтернеті, його використовували у СУБД(DB/2, Oracle) але системні адміністратори замінювали його більш традиційним кодуванням.

Кодування CP1251 було розроблено компанією Microsoft для використання у ОП Windows, яка повинна була поширюватися у Росії. Деякі джерела свідчать про те, що це кодування було винайдено в результаті перетворення CP437 -> ISO-8859-1, щоб спростити процес перетворення документів DOS. CP1251 містить найбільше додаткових символів для Українського, Білоруського, Сербського та Російського алфавітів і є одним з найпопулярнішим з кодувань у цих країнах. Має три недоліки:

• мала (рядкова) буква «я» має код 0xFF (255 в 10-овій системі). Вона є «винуватицею» ряду несподіваних проблем в програмах без підтримки чистого 8-го біту;

• відсутні символи псевдографіки;

• при сортуванні в алфавітному порядку літери не йдуть підряд, оскільки між літерами ўЎіІєЄЇґҐёЁ і основним блоком літер йдуть спецсимволи.

IBM866 - кодування з підтримкою кирилиці, яке використовується в DOS.

MAC-CYR - це кодування використовується тільки на комп'ютерах "Macintosh", воно містить усі літери Українського, Білоруського, Сербського та російського алфавітів.

Особисті інструменти
Простори назв

Варіанти
Дії
Навігація
Інструменти