Відмінності між версіями «3 Кодування тексту»

Поточна версія на 18:27, 18 червня 2013

У загальному випадку кодування (encoding), або кодова таблиця, - це однозначна відповідність між підмножиною цілих чисел (як правило, йдуть підряд) і деяким набором символів. Ключовим тут є поняття символу. Символ може бути літерою (а може і не бути), може відповідати звуку мови (а може і не відповідати) і може бути представлений графічним знаком (але може обходитися і без якого б то не було видимого образу). Символ - це атом сенсу, найдрібніша неподільна частка інформації. Так, латинське «А» і кириличне «А» - це різні символи, тому що вони використовуються в різних контекстах і несуть в собі різну інформацію.

Визначальним для будь-якого кодування є кількість охоплених нею кодів і, відповідно, символів. Оскільки тексти в комп'ютері зберігаються в вигляді послідовності байтів, більшість кодувань природним чином розпадаються на однобайтові, або восьмібітні, здатні закодувати не більше 256 символів, і двобайтові, або шістнадцятибітний, чия ємність може досягати 65636 знакомісць.

Починаючи з 60-х років, комп'ютери все більше стали використовувати для обробки текстової інформації і в даний час велика частина ПК в світі зайнята обробкою саме текстової інформації.

Традиційно для кодування одного символу використовується кількість інформації рівна 1 байту (1 байт = 8 бітів). Для кодування одного символу потрібно один байт інформації. Враховуючи, що кожен біт приймає значення 1 або 0, за допомогою 1 байта можна закодувати 256 різних символів. (2^8 = 256)

Кодування полягає в тому, що кожному символу ставиться у відповідність унікальний двійковий код від 00000000 до 11111111 (або десятковий код від 0 до 255). Важливо, що присвоєння символу конкретного коду - це питання угоди, яка фіксується кодовою таблицею (наприклад, 4 ASCII).

Цифри кодуються за стандартом ASCII в двох випадках - при введенні-виведенні і коли вони зустрічаються в тексті. Якщо цифри беруть участь в обчисленнях, то здійснюється їх перетворення в інший двійковий код.

Візьмемо число 57. При використанні в тексті кожна цифра буде представлена своїм кодом відповідно до таблиці ASCII. У двійковій системі це - 00110101 00110111. При використанні в обчисленнях код цього числа буде отриманий за правилами перекладу в двійкову систему і одержимо - 00111001.

Відмінності між версіями «3 Кодування тексту»

Поточна версія на 18:27, 18 червня 2013

Особисті інструменти

Простори назв

Варіанти

Перегляди

Дії

Пошук

Навігація

Інструменти

@@ Рядок 1: / Рядок 1: @@
+У загальному випадку кодування (encoding), або кодова таблиця, - це однозначна відповідність між підмножиною цілих чисел (як правило, йдуть підряд) і деяким набором символів. Ключовим тут є поняття символу. Символ може бути літерою (а може і не бути), може відповідати звуку мови (а може і не відповідати) і може бути представлений графічним знаком (але може обходитися і без якого б то не було видимого образу). Символ - це атом сенсу, найдрібніша неподільна частка інформації. Так, латинське «А» і кириличне «А» - це різні символи, тому що вони використовуються в різних контекстах і несуть в собі різну інформацію.
+Визначальним для будь-якого кодування є кількість охоплених нею кодів і, відповідно, символів. Оскільки тексти в комп'ютері зберігаються в вигляді послідовності байтів, більшість кодувань природним чином розпадаються на однобайтові, або восьмібітні, здатні закодувати не більше 256 символів, і двобайтові, або шістнадцятибітний, чия ємність може досягати 65636 знакомісць.
 Починаючи з 60-х років, комп'ютери все більше стали використовувати для обробки текстової інформації і в даний час велика частина ПК в світі зайнята обробкою саме текстової інформації.