Відмінності між версіями «5 Однобайтне кодування (KOI8, ISO8859-5, CP1251, IBM866, MAC-CYR)»

Матеріал з Wiki TNEU
Перейти до: навігація, пошук
 
Рядок 2: Рядок 2:
 
Найбільш поширені кодування з підтримкою кирилиці це: KOI8, ISO8859-5, CP1251,      IBM866, MAC-CYR.
 
Найбільш поширені кодування з підтримкою кирилиці це: KOI8, ISO8859-5, CP1251,      IBM866, MAC-CYR.
 
 
'''KOI8''' кодування розроблено для підтримки алфавіту кирилиці. Дане кодування було поширено в українському та російському інтернеті довгий час, а причиною цього є те, що він був використаний в першій локалізації системи Unix. Група КОІ складається з: KOI8-R (російська), KOI8-U (українська), KOI8-RU (російсько-українська), KOI8-F (KOI8-unified), KOI8-T (такжидська), KOI8-O і KOI8-С (слов'янська, стара орфографія), ISO-IR-111 (ECMA-Cyrillic, KOI8-E). Особливістю KOI8 є те, що кириличні символи розміщенні у верхній частині кодової таблиці у відповідності до їх фонетичним аналогам у англійському алфавіті.
+
'''KOI8''' кодування розроблено для підтримки алфавіту кирилиці. Дане кодування було поширено в українському та російському інтернеті довгий час, а причиною цього є те, що він був використаний в першій локалізації системи Unix. Група КОІ складається з: KOI8-R (російська), KOI8-U (українська), KOI8-RU (російсько-українська), KOI8-F (KOI8-unified), KOI8-T (такжидська), KOI8-O і KOI8-С (слов'янська, стара орфографія), ISO-IR-111 (ECMA-Cyrillic, KOI8-E). Особливістю KOI8 є те, що кириличні символи розміщенні у верхній частині кодової таблиці у відповідності до їх фонетичним аналогам у англійському алфавіті. Це означає, що якщо в тексті, написаному в КОІ-8, прибрати восьмий біт кожного символу, то виходить «читабельний» текст, хоча він і написаний латинськими символами. Наприклад, слова «Русский Текст» перетворилися б на «rUSSKIJ tEKST». Як побічний наслідок, символи кирилиці опинилися розташованими не в алфавітному порядку.
 
 
'''ISO-8859-5''' - стандарт ISO з кирилічним набором символів. Він містить символи таких мов: Української, Білоруської, Сербської. Це кодування не містить літери Українського алфавіту "ґ". ISO-8859-5 широко не використовувалося в інтернеті, його використовували у СУБД(DB/2, Oracle) але системні адміністратори замінювали його більш традиційним кодуванням.
+
'''ISO-8859-5''' - стандарт ISO з кирилічним набором символів. Він містить символи таких мов: Української, Білоруської, Сербської. Це кодування не містить літери українського алфавіту "ґ". ISO-8859-5 широко не використовувалося в інтернеті, його використовували у СУБД(DB/2, Oracle) але системні адміністратори замінювали його більш традиційним кодуванням.
 
 
'''Кодування CP1251''' було розроблено компанією Microsoft для використання у ОП Windows, яка повинна була поширюватися у Росії. Деякі джерела свідчать про те, що це кодування було винайдено в результаті перетворення CP437 -> ISO-8859-1, щоб спростити процес перетворення документів DOS. CP1251 містить найбільше додаткових символів для Українського, Білоруського, Сербського та Російського алфавітів і є одним з найпопулярнішим з кодувань у цих країнах.
+
'''Кодування CP1251''' було розроблено компанією Microsoft для використання у ОП Windows, яка повинна була поширюватися у Росії. Деякі джерела свідчать про те, що це кодування було винайдено в результаті перетворення CP437 -> ISO-8859-1, щоб спростити процес перетворення документів DOS. CP1251 містить найбільше додаткових символів для Українського, Білоруського, Сербського та Російського алфавітів і є одним з найпопулярнішим з кодувань у цих країнах. Має три недоліки:
 +
 
 +
• мала (рядкова) буква «я» має код 0xFF (255 в 10-овій системі). Вона є «винуватицею» ряду несподіваних проблем в програмах без підтримки чистого 8-го біту;
 +
 
 +
• відсутні символи псевдографіки;
 +
 
 +
• при сортуванні в алфавітному порядку літери не йдуть підряд, оскільки між літерами ўЎіІєЄЇґҐёЁ і основним блоком літер йдуть спецсимволи.
 
 
 
'''IBM866''' - кодування з підтримкою кирилиці, яке використовується в DOS.
 
'''IBM866''' - кодування з підтримкою кирилиці, яке використовується в DOS.
 
 
 
'''MAC-CYR''' - це кодування використовується тільки на комп'ютерах "Macintosh", воно містить усі літери Українського, Білоруського, Сербського та російського алфавітів.
 
'''MAC-CYR''' - це кодування використовується тільки на комп'ютерах "Macintosh", воно містить усі літери Українського, Білоруського, Сербського та російського алфавітів.

Поточна версія на 19:34, 18 червня 2013

Однобайтне кодування — це система яка вміщує однобайтні (восьмибітні) коди відповідних їм символів. Тобто вона може містити максимально 255 символів. Найбільш поширені кодування з підтримкою кирилиці це: KOI8, ISO8859-5, CP1251, IBM866, MAC-CYR.

KOI8 кодування розроблено для підтримки алфавіту кирилиці. Дане кодування було поширено в українському та російському інтернеті довгий час, а причиною цього є те, що він був використаний в першій локалізації системи Unix. Група КОІ складається з: KOI8-R (російська), KOI8-U (українська), KOI8-RU (російсько-українська), KOI8-F (KOI8-unified), KOI8-T (такжидська), KOI8-O і KOI8-С (слов'янська, стара орфографія), ISO-IR-111 (ECMA-Cyrillic, KOI8-E). Особливістю KOI8 є те, що кириличні символи розміщенні у верхній частині кодової таблиці у відповідності до їх фонетичним аналогам у англійському алфавіті. Це означає, що якщо в тексті, написаному в КОІ-8, прибрати восьмий біт кожного символу, то виходить «читабельний» текст, хоча він і написаний латинськими символами. Наприклад, слова «Русский Текст» перетворилися б на «rUSSKIJ tEKST». Як побічний наслідок, символи кирилиці опинилися розташованими не в алфавітному порядку.

ISO-8859-5 - стандарт ISO з кирилічним набором символів. Він містить символи таких мов: Української, Білоруської, Сербської. Це кодування не містить літери українського алфавіту "ґ". ISO-8859-5 широко не використовувалося в інтернеті, його використовували у СУБД(DB/2, Oracle) але системні адміністратори замінювали його більш традиційним кодуванням.

Кодування CP1251 було розроблено компанією Microsoft для використання у ОП Windows, яка повинна була поширюватися у Росії. Деякі джерела свідчать про те, що це кодування було винайдено в результаті перетворення CP437 -> ISO-8859-1, щоб спростити процес перетворення документів DOS. CP1251 містить найбільше додаткових символів для Українського, Білоруського, Сербського та Російського алфавітів і є одним з найпопулярнішим з кодувань у цих країнах. Має три недоліки:

• мала (рядкова) буква «я» має код 0xFF (255 в 10-овій системі). Вона є «винуватицею» ряду несподіваних проблем в програмах без підтримки чистого 8-го біту;

• відсутні символи псевдографіки;

• при сортуванні в алфавітному порядку літери не йдуть підряд, оскільки між літерами ўЎіІєЄЇґҐёЁ і основним блоком літер йдуть спецсимволи.

IBM866 - кодування з підтримкою кирилиці, яке використовується в DOS.

MAC-CYR - це кодування використовується тільки на комп'ютерах "Macintosh", воно містить усі літери Українського, Білоруського, Сербського та російського алфавітів.

Особисті інструменти
Простори назв

Варіанти
Дії
Навігація
Інструменти