人们和计算机交流是通过字符进行的,但是计算机只有0和1的概念,这样就需要对字符用0和1进行编码,国际标准化组织和Unicode联合制定统一码,并没有规定字符在计算机中存储和传输的编码。为了更好地用计算机处理这些字符,还需要规定具体的字符编码格式。在我国,常用的编码方案有UTF-8、UTF-16、UTF-32及我国的国家标准GB18030—2005等。
计算机中存储一个“0”或“1”占用1个二进制位(bit)。8个二进制位组成1字节(byte)。ASCII编码用1字节表示英文字母、数字和常见字符。在GB18030—2005中,大部分常用汉字采用2字节编码。
我国在1980年公布了国家标准GB2312—1980,其中包含了6763个汉字。后来为了处理更多文字,1995年曾公布过一个过渡性质的行业规范GBK,全称为《汉字内码扩展规范》。GB18030—2005是我国目前使用的强制性国家标准,采用单字节、双字节和4字节的变长编码,其优点是与GB2312—1980编码兼容。另一种在互联网中广泛使用的字符编码方案是UTF-8,它采用1~4字节的变长编码方案,与ASCII兼容,英文仍然是单字节,且有编码自纠错等优点,但很多常用汉字采用3字节编码。因此与GB18030—2005相比,用UTF-8编码后的汉字文本所占的存储空间会大不少。