Назад (Информатика).

Способы представления текста

Информация в форме текста обычно представляется с помощью кода, причем каждому отличному от других символу [например, букве алфавита или знаку пунктуации] присваивается уникальная комбинация двоичных разрядов. В этом случае текст будет представлен как длинный ряд битов, в котором следующие друг за другом комбинации битов отражают последовательность символов в исходном тексте.

В ранний период развития компьютерной технологии было разработано много подобных кодов, причем каждый из них использовался в различных элементах оборудования. Это привело к появлению ряда проблем, связанных с передачей информации. Во избежание этих проблем Американский национальный институт стандартов [American National Standards Institute, ANSI] принял американский стандартный код для обмена информацией [American Standard Code for Information Interchange, ASCII], который приобрел очень большую популярность. В этом коде комбинации двоичных разрядов длиной семь бит используются для представления строчных и прописных букв английского алфавита, знаков пунктуации, цифр от 0 до 9, а также кодов управления передачей информации [перевод строки, возврат каретки и табуляция]. В наше время код ASCII часто употребляется в расширенном восьмиразрядном формате, который получается посредством добавления слева нулей к исходным семиразрядным двоичным кодам. Благодаря этому можно получить не только коды, размер которых соответствует типичной однобайтовой ячейке памяти, но и 128 новых дополнительных комбинаций двоичных разрядов. Это позволяет представлять символы, не поддерживаемые исходной версией кода ASCII. К сожалению, из-за того, что фирмы-разработчики широко использовали собственные варианты толкования этих дополнительных кодов, данные, представленные в этих кодах, оказалось не так-то просто переносить с одной программы в другую.

Ниже приведен неполный список ASCII-кодов символов. В этом списке к исходным семиразрядным двоичным кодам слева приписаны нули - для получения восьмибитовых кодов, общепринятых в настоящее время.

СимволASCII-кодСимволASCII-кодСимволASCII-код
[пробел]00100000?00111111^01011110
!00100001@01000000_01011111
"00100010A01000001a01100001
#00100011B01000010b01100010
$00100100C01000011c01100011
%00100101D01000100d01100100
& 00100110E01000101e01100101
'00100111F01000110f01100110
(00101000G01000111g01100111
)00101001H01001000h01101000
*00101010I01001001i01101001
+00101011J01001010j01101010
,00101100K01001011k01101011
.01101011L01001100l01101100
.00101110M01001101m01101101
/00101111N01001110n01101110
000110000O01001111o01101111
100110001P01010000p01110000
200110010Q01010001q01110001
300110011R01010010r01110010
400110100S01010011s01110011
500110101T01010100t01110100
600110110U01010101u01110101
700110111V01010110v01110110
800111000W01010111w01110111
900111001X01011000x01111000
:00111010Y01011001y01111001
;00111011Z01011010z01111010
<00111100[01011011{01111011
=00111101\01011100}01111101
>00111110]01011101

Несмотря на то что ASCII - это один из наиболее широко используемых кодов, сегодня растет популярность кодов с более широкими возможностями, которые способны представлять документы на разных языках. Одним из них является Unicode, который был разработан в результате объединенных усилий нескольких ведущих фирм-производителей программного и аппаратного обеспечения. В этом коде для представления каждого символа используется уникальная комбинация из 16 двоичных разрядов. В результате кодировка Unicode включает 65 536 различных двоичных кодов, что вполне достаточно даже для представления всех широко употребляемых китайских и японских символов. Международная организация по стандартизации [International Organization for Standardization, часто именуемая ISO, от греческого isos - одинаковый] разработала код, способный соперничать даже с кодировкой Unicode. Здесь для выражения символов используются комбинации из 32 бит, в результате чего этот код позволяет представить более 17 миллионов символов.