在线unicode编码(unicode编码汉字)

http://www.itjxue.com  2023-01-28 13:23  来源:未知  点击次数: 

"\u4ECA\u5929\u7684\u5929\n"是什么意思

这是Unicode码,解码之后是:“今天的天”(\n是换行的意思);

Unicode只有一个字符集,中、日、韩的三种文字占用了Unicode中0x3000到0x9FFF的部分

Unicode目前普遍采用的是UCS-2,它用两个字节来编码一个字符, 比如汉字"经"的编码是0x7ECF,注意字符编码一般用十六进制来

表示,为了与十进制区分,十六进制以0x开头,0x7ECF转换成十进制 就是32463,UCS-2用两个字节来编码字符,两个字节就是16位二进制,

2的16次方等于65536,所以UCS-2最多能编码65536个字符。

编码从0到127的字符与ASCII编码的字符一样,比如字母"a"的Unicode

编码是0x0061,十进制是97,而"a"的ASCII编码是0x61,十进制也是97,

对于汉字的编码,事实上Unicode对汉字支持不怎么好,这也是没办法的,

简体和繁体总共有六七万个汉字,而UCS-2最多能表示65536个,才六万 多个,所以Unicode只能排除一些几乎不用的汉字,好在常用的简体汉字

也不过七千多个,为了能表示所有汉字,Unicode也有UCS-4规范,就是用 4个字节来编码字符

unicode 编码在线转换工具:

常用Unicode编码

unicode编码范围:

汉字:[0x4e00,0x9fa5](或十进制[19968,40869])

数字:[0x30,0x39](或十进制[48, 57])

小写字母:[0x61,0x7a](或十进制[97, 122])

大写字母:[0x41,0x5a](或十进制[65, 90])

汉字编码范围:\u4E00-\u9FA5

双字节字符编码范围:\u0391-\uFFE5

双字节字符编码范围

汉字unicode编码表

一般使用2w基本汉字就够了

| 字符集 | 字数 | Unicode 编码 |

| 基本汉字 | 20902字 | 4E00-9FA5 |

| 基本汉字补充 | 38字 | 9FA6-9FCB |

| 扩展A | 6582字 | 3400-4DB5 |

| 扩展B | 42711字 | 20000-2A6D6 |

| 扩展C | 4149字 | 2A700-2B734 |

| 扩展D | 222字 | 2B740-2B81D |

| 康熙部首 | 214字 | 2F00-2FD5 |

| 部首扩展 | 115字 | 2E80-2EF3 |

| 兼容汉字 | 477字 | F900-FAD9 |

| 兼容扩展 | 542字 | 2F800-2FA1D |

| PUA(GBK)部件 | 81字 | E815-E86F |

| 部件扩展 | 452字 | E400-E5E8 |

| PUA增补 | 207字 | E600-E6CF |

| 汉字笔画 | 36字 | 31C0-31E3 |

| 汉字结构 | 12字 | 2FF0-2FFB |

| 汉语注音 | 22字 | 3105-3120 |

| 注音扩展 | 22字 | 31A0-31BA |

| 〇 | 1字 | 3007 |

怎样查一个字符的unicode编码

你好,访问

输入想要的查看的字符,然后点击搜索图标,最后点击搜索到的某个结果。这里我们搜索的是2

然后就可以看到该字符的详细介绍了(这里只截取了一部分信息,下面还有很多,详细可查看:)

ANSI编码是一种对ASCII码的拓展:ANSI编码用0x00~0x7f (即十进制下的0到127)范围的1 个字节来表示 1 个英文字符,超出一个字节的 0x80~0xFFFF 范围来表示其他语言的其他字符。也就是说,ANSI码仅在前128(0-127)个与ASCII码相同,之后的字符全是某个国家语言的所有字符。值得注意的是,两个字节最多可以存储的字符数目是2的16次方,即65536个字符,这对于一个语言的字符来说,绝对够了。还有ANSI编码其实包括很多编码:中国制定了GB2312编码,用来把中文编进去另外,把编到Shift_JIS里,韩把韩文编到Euc-kr里,各国有各国的标准。受制于当时的条件,不同语言之间的ANSI码之间不能互相转换,这就会导致在多语言混合的文本中会有乱码仅供参考

(责任编辑:IT教学网)

更多

推荐Javascript/Ajax文章