3 Кодування тексту

Матеріал з Wiki TNEU
Перейти до: навігація, пошук

Кодування інформації

Кодуванням веб-сторінки називається спосіб кодування текстової інформації для передачі у мережі Інтернет. Визначальним параметром при кодуванні даних вважається кількість бітів, за допомогою яких представлено один символ текстової інформації.

Наприклад, одним бітом можна закодувати два значення, двома бітами – чотири значення, а три біта кодують вісім значень. Для кодування текстової інформації зазвичай використовують 8 біт, що дозволяє представити 256 (2^8) різних символів. Окрім 8-бітового кодування, існують також 16 та 32-бітові кодування, що відповідно можуть представити 65536 (2^16) або 4294967296 (2^32) символів тексту.

Для коректного відображення інформації, сервер і браузер обмінюються службовою інформацією, яка містить відомості про стандарт кодування тексту. За допомогою протоколу HTTP браузер відправляє на сервер повідомлення з даними кодування. Сервер знаходить сторінку і перетворює її в потрібний формат. Якщо з якоїсь причини веб-сторінку на сервері не перетворено, користувач може самостійно вибирати відповідне кодування. Часто, після завантаження сторінки, замість тексту відображається незрозуміла «абракадабра». Навряд чи відвідувачі сайту захочуть витрачати час на з'ясування кодування сторінки. Зрозуміло, що сайт з такими недоробками не зможе претендувати на високі позиції в рейтингу пошукових систем та популярність серед відвідувачів.

Для правильного відтворення інформації на сайті, ще на стадії розробки необхідно вказати стандарт кодування розробленого сайту.


Кодування кирилиці

Кодуванням кирилиці називається загальноприйнятий стандарт, що містить набір символів, який дозволяє відображати в документах HTML знаки кириличного алфавіту. На даний час існує п'ять основних кодувань кирилиці - ISO, KOI8-R, DOS, Windows 1251 і MAC, за допомогою яких можна відобразити на веб-сторінці знаки кириличного алфавіту. Існує також ряд менш поширені кодування, що в той чи інший спосіб відтворюють символи кирилиці, зокрема Unicode(UTF-8) і трансліт.

Історично першим виникло кодування KOI8 (код обміну інформації восьмибітовий). Воно було розроблено в середині 70-х років радянськими фахівцями, а у 80-х стало базовим кодуванням для русифікованих UNIX-сумісних операційних систем. На сьогоднішній день KOI8 є основним стандартом для серверів, що працюють на базі платформи UNIX (наприклад, для http-сервера Apache), а також використовується як «формат за промовчанням» при пересиланні електронною поштою кириличних повідомлень.

Компанія Microsoft, при створенні програмного забезпечення для роботи в Інтернеті, запропонувала стандарт Microsoft code page1251 (Windows 1251), що набув широкого поширення завдяки популярності операційної системи Microsoft Windows і http-сервера Internet Information Server, що міститься в комплекті Windows.

Кодування ISO-8859-5 було розроблено Комітетом з міжнародних стандартів ISO (International Standards Organization) і застосовується в основному в UNIX-сумісних операційних системах. Оскільки даний набір символів було створено західними фахівцями, які не добре знаються на слов’янських мовах та наявні різноманіття кодувань кирилиці, ISO не набула широкого поширення, проте, достатньо часто зустрічається в Інтернеті і активно підтримується рядом серверів.

Універсальний міжнародний стандарт Unicode (UTF-8) було створено з благородною метою об'єднати всі існуючі національні кодування до єдиного стандарту. Оскільки для відображення одного символу в Unicode відводиться не один байт, як це прийнято в інших стандартах, а два, дане кодування містить 65 536 знаків замість 256. Тут представлено не лише букви всіх алфавітів світу, природних або створених штучно, але і багато спеціальних символів — математичних, музичних, фізичних. Поволі популярність Unicode зростає, хоча й поступається Windows 1251.

Особисті інструменти
Простори назв

Варіанти
Дії
Навігація
Інструменти