什么是 Unicode?

Unicode 是一种通用字符编码标准,为世界上每种书写系统的每个字符分配一个唯一的数字(码点)。它旨在表示人类交流中使用的所有字符,包括字母、符号和表情符号。

快速了解

全称Unicode 标准
创建时间1991 年(Unicode 1.0)
规范文档官方规范

工作原理

Unicode 从 1987 年开始开发,旨在解决不兼容字符编码系统的问题。在 Unicode 之前,不同系统使用不同的编码(ASCII、ISO-8859、GB2312 等),导致文本在不同平台上显示不正确。Unicode 为每个字符分配一个唯一的码点,写作 U+XXXX(例如,'A' 是 U+0041)。该标准包括超过 15 万个字符,涵盖 161 种文字。Unicode 可以用不同格式编码:UTF-8(可变宽度,Web 标准)、UTF-16(Windows/Java 使用)和 UTF-32(固定宽度)。

主要特点

  • 涵盖所有书写系统的通用标准
  • 来自 161 种文字的超过 15 万个字符
  • 码点以 U+XXXX 格式书写
  • 多种编码形式:UTF-8、UTF-16、UTF-32
  • 向后兼容 ASCII(前 128 个码点)
  • 包括表情符号、符号和历史文字

常见用途

  1. 多语言文本处理
  2. Web 内容国际化
  3. 数据库字符存储
  4. 跨平台文本兼容性
  5. 应用程序中的表情符号支持

示例

loading...
Loading code...

常见问题

Unicode 和 UTF-8 有什么区别?

Unicode 是一个字符集标准,为每个字符分配唯一的码点(如 U+4E2D 表示「中」)。UTF-8 是 Unicode 的一种编码方式,定义了如何将这些码点转换为字节序列存储在计算机中。简单说,Unicode 定义「是什么字符」,UTF-8 定义「如何存储」。

为什么需要 Unicode?

在 Unicode 出现之前,不同国家和地区使用不同的字符编码(如 ASCII、GB2312、Shift-JIS),导致跨平台文本显示乱码。Unicode 提供了一个统一的标准,涵盖世界上所有书写系统的字符,解决了字符编码不兼容的问题。

Unicode 码点是什么?如何表示?

码点是 Unicode 为每个字符分配的唯一数字标识符。它通常以 U+XXXX 格式表示,其中 XXXX 是十六进制数字。例如,字母 A 的码点是 U+0041,汉字「中」的码点是 U+4E2D,笑脸表情符号的码点是 U+1F600。

Unicode 支持多少个字符?

Unicode 标准目前包含超过 15 万个字符,涵盖 161 种文字系统。这包括现代语言的字母、历史文字、数学符号、技术符号以及表情符号。Unicode 的设计允许最多容纳超过 100 万个码点,为未来扩展预留了空间。

如何在编程中处理 Unicode 字符?

大多数现代编程语言原生支持 Unicode。在 JavaScript 中可以使用 String.fromCodePoint() 和 codePointAt() 方法;在 Python 3 中字符串默认是 Unicode;在 Java 中使用 Character.toCodePoint()。处理时要注意某些字符(如表情符号)可能占用多个代码单元。

相关工具

相关术语

相关文章