Відмінності між версіями «3 Кодування тексту»

Матеріал з Wiki TNEU
Перейти до: навігація, пошук
Рядок 1: Рядок 1:
У загальному випадку кодування (encoding), або кодова таблиця, - це однозначна відповідність між підмножиною цілих чисел (як правило, йдуть підряд) і деяким набором символів. Ключовим тут є поняття символу. Символ може бути літерою (а може і не бути), може відповідати звуку мови (а може і не відповідати) і може бути представлений графічним знаком (але може обходитися і без якого б то не було видимого образу). Символ - це атом сенсу, найдрібніша неподільна частка інформації. Так, латинське «А» і кириличне «А» - це різні символи, тому що вони використовуються в різних контекстах і несуть в собі різну інформацію.
 
  
Визначальним для будь-якого кодування є кількість охоплених нею кодів і, відповідно, символів. Оскільки тексти в комп'ютері зберігаються в вигляді послідовності байтів, більшість кодувань природним чином розпадаються на однобайтові, або восьмібітні, здатні закодувати не більше 256 символів, і двобайтові, або шістнадцятибітний, чия ємність може досягати 65636 знакомісць.
+
== Кодування інформації ==
  
Починаючи з 60-х років, комп'ютери все більше стали використовувати для обробки текстової інформації і в даний час велика частина ПК в світі зайнята обробкою саме текстової інформації.
+
Кодуванням веб-сторінки називається спосіб кодування текстової інформації для передачі у мережі Інтернет. Визначальним параметром при кодуванні даних вважається кількість бітів, за допомогою яких представлено один символ текстової інформації.
  
Традиційно для кодування одного символу використовується кількість інформації рівна 1 байту (1 байт = 8 бітів). Для кодування одного символу потрібно один байт інформації. Враховуючи, що кожен біт приймає значення 1 або 0, за допомогою 1 байта можна закодувати 256 різних символів. (2^8 = 256)
+
Наприклад, одним бітом можна закодувати два значення, двома бітами – чотири значення, а три біта кодують вісім значень. Для кодування текстової інформації зазвичай використовують 8 біт, що дозволяє представити 256 (2^8) різних символів. Окрім 8-бітового кодування, існують також 16 та 32-бітові кодування, що відповідно можуть представити 65536 (2^16) або 4294967296 (2^32) символів тексту.
  
Кодування полягає в тому, що кожному символу ставиться у відповідність унікальний двійковий код від 00000000 до 11111111 (або десятковий код від 0 до 255). Важливо, що присвоєння символу конкретного коду - це питання угоди, яка фіксується кодовою таблицею (наприклад, [[4 ASCII]]).
+
Для коректного відображення інформації, сервер і браузер обмінюються службовою інформацією, яка містить відомості про стандарт кодування тексту. За допомогою протоколу HTTP браузер відправляє на сервер повідомлення з даними кодування. Сервер знаходить сторінку і перетворює її в потрібний формат. Якщо з якоїсь причини веб-сторінку на сервері не перетворено, користувач може самостійно вибирати відповідне кодування.
 +
Часто, після завантаження сторінки, замість тексту відображається незрозуміла «абракадабра». Навряд чи відвідувачі сайту захочуть витрачати час на з'ясування кодування сторінки. Зрозуміло, що сайт з такими недоробками не зможе претендувати на високі позиції в рейтингу пошукових систем та популярність серед відвідувачів.  
  
Цифри кодуються за стандартом ASCII в двох випадках - при введенні-виведенні і коли вони зустрічаються в тексті. Якщо цифри беруть участь в обчисленнях, то здійснюється їх перетворення в інший двійковий код.
+
Для правильного відтворення інформації на сайті, ще на стадії розробки необхідно вказати стандарт кодування розробленого сайту.
  
----
+
 
Візьмемо число 57. При використанні в тексті кожна цифра буде представлена ​​своїм кодом відповідно до таблиці ASCII. У двійковій системі це - 00110101 00110111.
+
== Кодування кирилиці ==
При використанні в обчисленнях код цього числа буде отриманий за правилами перекладу в двійкову систему і одержимо - 00111001.
+
Кодуванням кирилиці називається загальноприйнятий стандарт, що містить набір символів, який дозволяє відображати в документах HTML знаки кириличного алфавіту.
 +
На даний час існує п'ять основних кодувань кирилиці - ISO, KOI8-R, DOS, Windows 1251 і MAC, за допомогою яких можна відобразити на веб-сторінці знаки кириличного алфавіту. Існує також ряд менш поширені кодування, що в той чи інший спосіб відтворюють символи кирилиці, зокрема Unicode(UTF-8) і трансліт.
 +
 
 +
Історично першим виникло кодування '''KOI8''' (код обміну інформації восьмибітовий). Воно було розроблено в середині 70-х років радянськими фахівцями, а у 80-х стало базовим кодуванням для русифікованих UNIX-сумісних операційних систем. На сьогоднішній день KOI8 є основним стандартом для серверів, що працюють на базі платформи UNIX (наприклад, для http-сервера Apache), а також використовується як «формат за промовчанням» при пересиланні електронною поштою кириличних повідомлень.
 +
 
 +
Компанія Microsoft, при створенні програмного забезпечення для роботи в Інтернеті, запропонувала стандарт Microsoft code page1251 ('''Windows 1251'''), що набув широкого поширення завдяки популярності операційної системи Microsoft Windows і http-сервера Internet Information Server, що міститься в комплекті Windows.
 +
 
 +
Кодування '''ISO-8859-5''' було розроблено Комітетом з міжнародних стандартів ISO (International Standards Organization) і застосовується в основному в UNIX-сумісних операційних системах. Оскільки даний набір символів було створено західними фахівцями, які не добре знаються на слов’янських мовах та наявні різноманіття кодувань кирилиці, ISO не набула широкого поширення, проте, достатньо часто зустрічається в Інтернеті і активно підтримується рядом серверів.
 +
 
 +
Універсальний міжнародний стандарт Unicode ('''UTF-8''') було створено з благородною метою об'єднати всі існуючі національні кодування до єдиного стандарту. Оскільки для відображення одного символу в Unicode відводиться не один байт, як це прийнято в інших стандартах, а два, дане кодування містить 65 536 знаків замість 256. Тут представлено не лише букви всіх алфавітів світу, природних або створених штучно, але і багато спеціальних символів — математичних, музичних, фізичних.  Поволі популярність Unicode зростає, хоча й поступається Windows 1251.

Версія за 18:22, 18 червня 2013

Кодування інформації

Кодуванням веб-сторінки називається спосіб кодування текстової інформації для передачі у мережі Інтернет. Визначальним параметром при кодуванні даних вважається кількість бітів, за допомогою яких представлено один символ текстової інформації.

Наприклад, одним бітом можна закодувати два значення, двома бітами – чотири значення, а три біта кодують вісім значень. Для кодування текстової інформації зазвичай використовують 8 біт, що дозволяє представити 256 (2^8) різних символів. Окрім 8-бітового кодування, існують також 16 та 32-бітові кодування, що відповідно можуть представити 65536 (2^16) або 4294967296 (2^32) символів тексту.

Для коректного відображення інформації, сервер і браузер обмінюються службовою інформацією, яка містить відомості про стандарт кодування тексту. За допомогою протоколу HTTP браузер відправляє на сервер повідомлення з даними кодування. Сервер знаходить сторінку і перетворює її в потрібний формат. Якщо з якоїсь причини веб-сторінку на сервері не перетворено, користувач може самостійно вибирати відповідне кодування. Часто, після завантаження сторінки, замість тексту відображається незрозуміла «абракадабра». Навряд чи відвідувачі сайту захочуть витрачати час на з'ясування кодування сторінки. Зрозуміло, що сайт з такими недоробками не зможе претендувати на високі позиції в рейтингу пошукових систем та популярність серед відвідувачів.

Для правильного відтворення інформації на сайті, ще на стадії розробки необхідно вказати стандарт кодування розробленого сайту.


Кодування кирилиці

Кодуванням кирилиці називається загальноприйнятий стандарт, що містить набір символів, який дозволяє відображати в документах HTML знаки кириличного алфавіту. На даний час існує п'ять основних кодувань кирилиці - ISO, KOI8-R, DOS, Windows 1251 і MAC, за допомогою яких можна відобразити на веб-сторінці знаки кириличного алфавіту. Існує також ряд менш поширені кодування, що в той чи інший спосіб відтворюють символи кирилиці, зокрема Unicode(UTF-8) і трансліт.

Історично першим виникло кодування KOI8 (код обміну інформації восьмибітовий). Воно було розроблено в середині 70-х років радянськими фахівцями, а у 80-х стало базовим кодуванням для русифікованих UNIX-сумісних операційних систем. На сьогоднішній день KOI8 є основним стандартом для серверів, що працюють на базі платформи UNIX (наприклад, для http-сервера Apache), а також використовується як «формат за промовчанням» при пересиланні електронною поштою кириличних повідомлень.

Компанія Microsoft, при створенні програмного забезпечення для роботи в Інтернеті, запропонувала стандарт Microsoft code page1251 (Windows 1251), що набув широкого поширення завдяки популярності операційної системи Microsoft Windows і http-сервера Internet Information Server, що міститься в комплекті Windows.

Кодування ISO-8859-5 було розроблено Комітетом з міжнародних стандартів ISO (International Standards Organization) і застосовується в основному в UNIX-сумісних операційних системах. Оскільки даний набір символів було створено західними фахівцями, які не добре знаються на слов’янських мовах та наявні різноманіття кодувань кирилиці, ISO не набула широкого поширення, проте, достатньо часто зустрічається в Інтернеті і активно підтримується рядом серверів.

Універсальний міжнародний стандарт Unicode (UTF-8) було створено з благородною метою об'єднати всі існуючі національні кодування до єдиного стандарту. Оскільки для відображення одного символу в Unicode відводиться не один байт, як це прийнято в інших стандартах, а два, дане кодування містить 65 536 знаків замість 256. Тут представлено не лише букви всіх алфавітів світу, природних або створених штучно, але і багато спеціальних символів — математичних, музичних, фізичних. Поволі популярність Unicode зростає, хоча й поступається Windows 1251.

Особисті інструменти
Простори назв

Варіанти
Дії
Навігація
Інструменти