什么是 UTF-8?
UTF-8(8 位 Unicode 转换格式)是一种可变宽度字符编码,可以表示 Unicode 标准中的每个字符。它每个字符使用 1 到 4 个字节,并且向后兼容 ASCII。
快速了解
| 全称 | 8 位 Unicode 转换格式 |
|---|---|
| 创建时间 | 1992 年由 Ken Thompson 和 Rob Pike 设计 |
| 规范文档 | 官方规范 |
UTF-8 工作原理
UTF-8 由 Ken Thompson 和 Rob Pike 于 1992 年设计,已成为 Web 的主要字符编码。其关键创新是可变宽度编码:ASCII 字符(0-127)只使用 1 个字节,使 UTF-8 对英文文本高效,同时仍支持所有 Unicode 字符。字符使用特定的位模式编码,指示后面跟随多少字节。UTF-8 是自同步的,意味着您可以在不从头读取的情况下找到字符边界。它是 HTML5、JSON 和大多数现代系统的默认编码。
主要特点
- 可变宽度:每个字符 1-4 字节
- 向后兼容 ASCII(前 128 个字符)
- 自同步编码
- 没有字节序问题(与 UTF-16 不同)
- HTML5、JSON 和 Web 的默认编码
- 对 ASCII 为主的文本高效
常见用途
- 网页编码(HTML、CSS、JavaScript)
- JSON 和 XML 数据文件
- 数据库文本存储
- 电子邮件和消息系统
- 源代码文件