Відмінності між версіями «3 Кодування тексту»
Vorobel (Обговорення • внесок) м (Редагування користувача Vorobel (обговорення) відкинуті до версії користувача Tomash) |
|||
(4 проміжні версії 4 користувачів не показані) | |||
Рядок 1: | Рядок 1: | ||
+ | У загальному випадку кодування (encoding), або кодова таблиця, - це однозначна відповідність між підмножиною цілих чисел (як правило, йдуть підряд) і деяким набором символів. Ключовим тут є поняття символу. Символ може бути літерою (а може і не бути), може відповідати звуку мови (а може і не відповідати) і може бути представлений графічним знаком (але може обходитися і без якого б то не було видимого образу). Символ - це атом сенсу, найдрібніша неподільна частка інформації. Так, латинське «А» і кириличне «А» - це різні символи, тому що вони використовуються в різних контекстах і несуть в собі різну інформацію. | ||
+ | |||
+ | Визначальним для будь-якого кодування є кількість охоплених нею кодів і, відповідно, символів. Оскільки тексти в комп'ютері зберігаються в вигляді послідовності байтів, більшість кодувань природним чином розпадаються на однобайтові, або восьмібітні, здатні закодувати не більше 256 символів, і двобайтові, або шістнадцятибітний, чия ємність може досягати 65636 знакомісць. | ||
+ | |||
Починаючи з 60-х років, комп'ютери все більше стали використовувати для обробки текстової інформації і в даний час велика частина ПК в світі зайнята обробкою саме текстової інформації. | Починаючи з 60-х років, комп'ютери все більше стали використовувати для обробки текстової інформації і в даний час велика частина ПК в світі зайнята обробкою саме текстової інформації. | ||
Поточна версія на 18:27, 18 червня 2013
У загальному випадку кодування (encoding), або кодова таблиця, - це однозначна відповідність між підмножиною цілих чисел (як правило, йдуть підряд) і деяким набором символів. Ключовим тут є поняття символу. Символ може бути літерою (а може і не бути), може відповідати звуку мови (а може і не відповідати) і може бути представлений графічним знаком (але може обходитися і без якого б то не було видимого образу). Символ - це атом сенсу, найдрібніша неподільна частка інформації. Так, латинське «А» і кириличне «А» - це різні символи, тому що вони використовуються в різних контекстах і несуть в собі різну інформацію.
Визначальним для будь-якого кодування є кількість охоплених нею кодів і, відповідно, символів. Оскільки тексти в комп'ютері зберігаються в вигляді послідовності байтів, більшість кодувань природним чином розпадаються на однобайтові, або восьмібітні, здатні закодувати не більше 256 символів, і двобайтові, або шістнадцятибітний, чия ємність може досягати 65636 знакомісць.
Починаючи з 60-х років, комп'ютери все більше стали використовувати для обробки текстової інформації і в даний час велика частина ПК в світі зайнята обробкою саме текстової інформації.
Традиційно для кодування одного символу використовується кількість інформації рівна 1 байту (1 байт = 8 бітів). Для кодування одного символу потрібно один байт інформації. Враховуючи, що кожен біт приймає значення 1 або 0, за допомогою 1 байта можна закодувати 256 різних символів. (2^8 = 256)
Кодування полягає в тому, що кожному символу ставиться у відповідність унікальний двійковий код від 00000000 до 11111111 (або десятковий код від 0 до 255). Важливо, що присвоєння символу конкретного коду - це питання угоди, яка фіксується кодовою таблицею (наприклад, 4 ASCII).
Цифри кодуються за стандартом ASCII в двох випадках - при введенні-виведенні і коли вони зустрічаються в тексті. Якщо цифри беруть участь в обчисленнях, то здійснюється їх перетворення в інший двійковий код.
Візьмемо число 57. При використанні в тексті кожна цифра буде представлена своїм кодом відповідно до таблиці ASCII. У двійковій системі це - 00110101 00110111. При використанні в обчисленнях код цього числа буде отриманий за правилами перекладу в двійкову систему і одержимо - 00111001.