Відмінності між версіями «3 Кодування тексту»

Матеріал з Wiki TNEU
Перейти до: навігація, пошук
м (Змінено рівень захисту сторінки «3 Кодування тексту» (‎[edit=sysop] (безстроково) ‎[move=sysop] (безстроково)) [каскадний])
Рядок 1: Рядок 1:
 +
У загальному випадку кодування (encoding), або кодова таблиця, - це однозначна відповідність між підмножиною цілих чисел (як правило, йдуть підряд) і деяким набором символів. Ключовим тут є поняття символу. Символ може бути літерою (а може і не бути), може відповідати звуку мови (а може і не відповідати) і може бути представлений графічним знаком (але може обходитися і без якого б то не було видимого образу). Символ - це атом сенсу, найдрібніша неподільна частка інформації. Так, латинське «А» і кириличне «А» - це різні символи, тому що вони використовуються в різних контекстах і несуть в собі різну інформацію.
 +
 +
Визначальним для будь-якого кодування є кількість охоплених нею кодів і, відповідно, символів. Оскільки тексти в комп'ютері зберігаються в вигляді послідовності байтів, більшість кодувань природним чином розпадаються на однобайтові, або восьмібітні, здатні закодувати не більше 256 символів, і двобайтові, або шістнадцятибітний, чия ємність може досягати 65636 знакомісць.
 +
 
Починаючи з 60-х років, комп'ютери все більше стали використовувати для обробки текстової інформації і в даний час велика частина ПК в світі зайнята обробкою саме текстової інформації.
 
Починаючи з 60-х років, комп'ютери все більше стали використовувати для обробки текстової інформації і в даний час велика частина ПК в світі зайнята обробкою саме текстової інформації.
  

Версія за 17:17, 24 грудня 2012

У загальному випадку кодування (encoding), або кодова таблиця, - це однозначна відповідність між підмножиною цілих чисел (як правило, йдуть підряд) і деяким набором символів. Ключовим тут є поняття символу. Символ може бути літерою (а може і не бути), може відповідати звуку мови (а може і не відповідати) і може бути представлений графічним знаком (але може обходитися і без якого б то не було видимого образу). Символ - це атом сенсу, найдрібніша неподільна частка інформації. Так, латинське «А» і кириличне «А» - це різні символи, тому що вони використовуються в різних контекстах і несуть в собі різну інформацію.

Визначальним для будь-якого кодування є кількість охоплених нею кодів і, відповідно, символів. Оскільки тексти в комп'ютері зберігаються в вигляді послідовності байтів, більшість кодувань природним чином розпадаються на однобайтові, або восьмібітні, здатні закодувати не більше 256 символів, і двобайтові, або шістнадцятибітний, чия ємність може досягати 65636 знакомісць.

Починаючи з 60-х років, комп'ютери все більше стали використовувати для обробки текстової інформації і в даний час велика частина ПК в світі зайнята обробкою саме текстової інформації.

Традиційно для кодування одного символу використовується кількість інформації рівна 1 байту (1 байт = 8 бітів). Для кодування одного символу потрібно один байт інформації. Враховуючи, що кожен біт приймає значення 1 або 0, за допомогою 1 байта можна закодувати 256 різних символів. (2^8 = 256)

Кодування полягає в тому, що кожному символу ставиться у відповідність унікальний двійковий код від 00000000 до 11111111 (або десятковий код від 0 до 255). Важливо, що присвоєння символу конкретного коду - це питання угоди, яка фіксується кодовою таблицею (наприклад, 4 ASCII).

Цифри кодуються за стандартом ASCII в двох випадках - при введенні-виведенні і коли вони зустрічаються в тексті. Якщо цифри беруть участь в обчисленнях, то здійснюється їх перетворення в інший двійковий код.


Візьмемо число 57. При використанні в тексті кожна цифра буде представлена ​​своїм кодом відповідно до таблиці ASCII. У двійковій системі це - 00110101 00110111. При використанні в обчисленнях код цього числа буде отриманий за правилами перекладу в двійкову систему і одержимо - 00111001.

Особисті інструменти
Простори назв

Варіанти
Дії
Навігація
Інструменти