什么是 UTF-8?

UTF-8(8 位 Unicode 转换格式)是一种可变宽度字符编码,可以表示 Unicode 标准中的每个字符。它每个字符使用 1 到 4 个字节,并且向后兼容 ASCII。

快速了解

全称8 位 Unicode 转换格式
创建时间1992 年由 Ken Thompson 和 Rob Pike 设计
规范文档官方规范

UTF-8 工作原理

UTF-8 由 Ken Thompson 和 Rob Pike 于 1992 年设计,已成为 Web 的主要字符编码。其关键创新是可变宽度编码:ASCII 字符(0-127)只使用 1 个字节,使 UTF-8 对英文文本高效,同时仍支持所有 Unicode 字符。字符使用特定的位模式编码,指示后面跟随多少字节。UTF-8 是自同步的,意味着您可以在不从头读取的情况下找到字符边界。它是 HTML5、JSON 和大多数现代系统的默认编码。

主要特点

  • 可变宽度:每个字符 1-4 字节
  • 向后兼容 ASCII(前 128 个字符)
  • 自同步编码
  • 没有字节序问题(与 UTF-16 不同)
  • HTML5、JSON 和 Web 的默认编码
  • 对 ASCII 为主的文本高效

常见用途

  1. 网页编码(HTML、CSS、JavaScript)
  2. JSON 和 XML 数据文件
  3. 数据库文本存储
  4. 电子邮件和消息系统
  5. 源代码文件

示例

QubitTool 相关工具

相关概念