Способы представления текста
Информация в форме текста обычно представляется с помощью кода, причем каждому отличному от других символу [например, букве алфавита или знаку пунктуации] присваивается уникальная комбинация двоичных разрядов. В этом случае текст будет представлен как длинный ряд битов, в котором следующие друг за другом комбинации битов отражают последовательность символов в исходном тексте.
В ранний период развития компьютерной технологии было разработано много подобных кодов, причем каждый из них использовался в различных элементах оборудования. Это привело к появлению ряда проблем, связанных с передачей информации. Во избежание этих проблем Американский национальный институт стандартов [American National Standards Institute, ANSI] принял американский стандартный код для обмена информацией [American Standard Code for Information Interchange, ASCII], который приобрел очень большую популярность. В этом коде комбинации двоичных разрядов длиной семь бит используются для представления строчных и прописных букв английского алфавита, знаков пунктуации, цифр от 0 до 9, а также кодов управления передачей информации [перевод строки, возврат каретки и табуляция]. В наше время код ASCII часто употребляется в расширенном восьмиразрядном формате, который получается посредством добавления слева нулей к исходным семиразрядным двоичным кодам. Благодаря этому можно получить не только коды, размер которых соответствует типичной однобайтовой ячейке памяти, но и 128 новых дополнительных комбинаций двоичных разрядов. Это позволяет представлять символы, не поддерживаемые исходной версией кода ASCII. К сожалению, из-за того, что фирмы-разработчики широко использовали собственные варианты толкования этих дополнительных кодов, данные, представленные в этих кодах, оказалось не так-то просто переносить с одной программы в другую.
Ниже приведен неполный список ASCII-кодов символов. В этом списке к исходным семиразрядным двоичным кодам слева приписаны нули - для получения восьмибитовых кодов, общепринятых в настоящее время.
Символ | ASCII-код | Символ | ASCII-код | Символ | ASCII-код |
[пробел] | 00100000 | ? | 00111111 | ^ | 01011110 |
! | 00100001 | @ | 01000000 | _ | 01011111 |
" | 00100010 | A | 01000001 | a | 01100001 |
# | 00100011 | B | 01000010 | b | 01100010 |
$ | 00100100 | C | 01000011 | c | 01100011 |
% | 00100101 | D | 01000100 | d | 01100100 |
& | 00100110 | E | 01000101 | e | 01100101 |
' | 00100111 | F | 01000110 | f | 01100110 |
( | 00101000 | G | 01000111 | g | 01100111 |
) | 00101001 | H | 01001000 | h | 01101000 |
* | 00101010 | I | 01001001 | i | 01101001 |
+ | 00101011 | J | 01001010 | j | 01101010 |
, | 00101100 | K | 01001011 | k | 01101011 |
. | 01101011 | L | 01001100 | l | 01101100 |
. | 00101110 | M | 01001101 | m | 01101101 |
/ | 00101111 | N | 01001110 | n | 01101110 |
0 | 00110000 | O | 01001111 | o | 01101111 |
1 | 00110001 | P | 01010000 | p | 01110000 |
2 | 00110010 | Q | 01010001 | q | 01110001 |
3 | 00110011 | R | 01010010 | r | 01110010 |
4 | 00110100 | S | 01010011 | s | 01110011 |
5 | 00110101 | T | 01010100 | t | 01110100 |
6 | 00110110 | U | 01010101 | u | 01110101 |
7 | 00110111 | V | 01010110 | v | 01110110 |
8 | 00111000 | W | 01010111 | w | 01110111 |
9 | 00111001 | X | 01011000 | x | 01111000 |
: | 00111010 | Y | 01011001 | y | 01111001 |
; | 00111011 | Z | 01011010 | z | 01111010 |
< | 00111100 | [ | 01011011 | { | 01111011 |
= | 00111101 | \ | 01011100 | } | 01111101 |
> | 00111110 | ] | 01011101 |
Несмотря на то что ASCII - это один из наиболее широко используемых кодов, сегодня растет популярность кодов с более широкими возможностями, которые способны представлять документы на разных языках. Одним из них является Unicode, который был разработан в результате объединенных усилий нескольких ведущих фирм-производителей программного и аппаратного обеспечения. В этом коде для представления каждого символа используется уникальная комбинация из 16 двоичных разрядов. В результате кодировка Unicode включает 65 536 различных двоичных кодов, что вполне достаточно даже для представления всех широко употребляемых китайских и японских символов. Международная организация по стандартизации [International Organization for Standardization, часто именуемая ISO, от греческого isos - одинаковый] разработала код, способный соперничать даже с кодировкой Unicode. Здесь для выражения символов используются комбинации из 32 бит, в результате чего этот код позволяет представить более 17 миллионов символов.