美国(国家)信息交换标准(代)码。
计算机中只有数字,一切都是用数字表示,屏幕上显示的一个一个的字符也不例外。
一个字节可表示的数字为0-255,足以显示键盘上的所有的字符 例如. a 为97 b为 98。这种数字与字符对应的编码规则,称为asc11 码,asc11 码的最高bit位都是0,也就是说,asc11码的值都在0-127之间。
二、gb2312和gbk(中国的本地字符集)
中国大陆将每个中文字符都用2个字节表示,中文字符第个字节最高bit位都是1。这种编码格式称为 (gb2312) 国标码 那么gb2312码对应的数字都是负数。
在此gb2312基础上,又增了一些,比如繁体字 ,称为gbk
附:
gb18030编码是在gbk编码基础上的扩充,因为汉字更多,仅仅使用两位编码已经不能容纳要求的汉字,所以采用了2\4位混和的办法,可以支持更多的汉字编码。
三、ansi
为了扩充ascii编码,以用于显示本国的语言,不同的国家和地区制定了不同的标准,由此产生了 gb2312, big5, jis等各自的编码标准。这些使用 2 个字节来代表一个字符的各种汉字延伸编码方式,称为 ansi 编码,又称为mbcs(muilti-bytes charecter set,多字节字符集)。在简体中文系统下,ansi 编码代表 gb2312 编码,在日文操作系统下,ansi 编码代表 jis 编码,所以在中文 windows下要转码成gb2312,gbk只需要把文本保存为ansi 编码即可。 不同 ansi 编码之间互不兼容。
四、本地字符集
在中国大陆使用的计算机系统上, gbk和gb2312就被称为该系统的本地字符集。
中国 的中字,在中国大陆的编码是16进制的d6d0,在台湾是 a4a4 台湾的编码称为big5 大五码。在一个国家的本地化系统中出现的一个字符,通过电子邮件传到另外一个国家的本地化系统中,看到的就不是那个原始字符了,而是另外一个国家的字符或乱码。
五、unicode编码
iso 组织将全世界的符号进行了统一,称之为unicode编码。
“中”这个符号,在全世界都是16进制的 4e2d。如果所有的计算机都使用unicode编码,则中这个字,在全世界上的计算机上都能显示为中,unicode 编码的字符占用两个字节大小,对于ac11 码所表示的字符,只是简单地在as11码原来占用的一个字节的前面,增中一个所有bits为0的字节, 它表示的字符的个数不会超过65535 ,实际上,它还保留了2000多个数值没有用于编码。
unicode 一统天下的局面还没有形成,在相当长时间内,本地化字符编码将与unicode编码共存
java中的字符使用的都是unicode编码。
java在通过unicode保证跨平台的特性前提下,也支持本地平台字符集。
六、utf-8
在java语言和其他程序的开发过程中.特别是xml 还涉及到utf-8 utf-16。广义上的unicode也包含 utf8 和utf-16
utf-8
--asc11码字符保持原样,伋然只占用一个字节。
--对于其他国家的字符,utf-8 使用2个或三个字节来表示。
--使用utf-8 编码的文件,通常都要用 ef bb bf 作为文件开头的三个字节数据。
七、utf-8和unicode编码之间的转换规则
-- 0001-007f (一个字节)
0xxxxxx
-- 0000或其泛围在 0080 到 07ff之间的字符,
110xxxxx 10xxxxxx (11个有效bit位) (0080-07ff之间)一个unicode有16位,实际上只有11个有效位,其余都是标志。
-- 0800 到 ffff 之间的字符,1110xxxx 10xxxxxx 10xxxxxx (16比特有效位),软件很容易根据utf-8 编码中那些固定不变的bit值,来确定一个字符占用的是一个字节,还是两个字节,还是三个字节。
八、utf-8的优点
-- 不出现ox00 (在c语言中,\0 代表符串的结束结束标志,说明已经到了字符串的末尾)unicode 中 对于acs11 字符,它都要占用两个字节,增加一个内容为空(0x00)的字节,浪费,而且这个字节,在c语言和其他程序有中特殊的应用。
-- 便于应用程序检查数据在传输中是否发生了错误 它可以检查出数据传输过程中是否出现了错误 。
-- 直接处理使用asc11的文档
九、联通,联想和联
在记事本中输入联通 联想,联,查看.分别会看到一些错误情况
联通 (或联系) 出现乱码
用ue打开,查看一下16进制,分别是c1aa cda8 c1aa cfe8 //这些都是用的gb2312编码 如果是中,则是d6d0,也就是 c1aa 是联 cda8 是通cfe8是想。可以用以下方式得到它产的二进制表示:
int x=0xcda8; system.out.println(integer.tobinarystring(x) );
//11000001 10101010 联 11001101 10101000 通
记事本中的文件,默认是按中文字符集gb2312来存诸的,所以联字就被解析成了 1100 0001 1010 1010 ,通字就被存成了 1100 1101 1010 1000, 打开记事本文档的时候,这些二进制形式,恰好都都对应上了 utf-8 的规则,所以系统就认为这是一个utf-8 编码的文件 就按utf-8来解释,出现了乱码,解决的方法:保存的时候,直接按utf-8 保存就不会出现了。
十、用程序查看字符的编码
查看中文字符的gb2312 码
查看中文字符的utf-8 码
查看中文字符的unicode 码
public static void main(string[] args) throws unsupportedencodingexception { string str=中国; //查看字符的unicode码,将一个字符转成整数,得到的就是unicode值/* for(int i=0;i