HTML - 字符编码



字符编码是一种将字节转换为字符的方法。若要正确验证或显示 HTML 文档,程序必须选择正确的字符编码。

HTML 字符集属性

meta 标签的 HTML 字符集属性用于提及网页的字符编码。


 <meta charset="UTF-8">

ASCII 字符集

计算机上最常用的字符集或字符编码是 ASCII(美国信息交换标准代码),这可能是用于以电子方式对文本进行编码的最广泛使用的字符集。ASCII 编码由 128 个字符 (0-127) 组成。

  • 英文字母(A-Z 和 a-z)
  • 数字(0-9)
  • 特殊字符 (@、#、$、% 等)

您可以查看完整的可打印 ASCII 字符

ANSI 字符集

ANSI 字符集通常用于 Windows 系统,也称为 windows-1252。这包括:

  • 从 0 到 127,ANSI 遵循 ASCII 字符。
  • 从 128 到 159,添加了一些额外的特殊字符。
  • 从 160 到 255,它与 UTF-8 相同。

ISO-8859-1 字符集

ISO-8859-1 是 HTML 4 的默认字符集。此字符集支持 256 种不同的字符代码。

  • 与前 128 个字符的 ASCII 相同
  • 不使用 128 到 159 之间的字符
  • 与 ANSI 和 UTF-8 相同,从 160 到 255

UTF-8 字符集

HTML5 规范建议开发人员在网页中使用 UTF-8 编码,因为 UTF-8 涵盖了世界上所有的字符和符号。UTF-8 的字符是。

  • 与 ASCII 相同,用于 0 到 127 个字符
  • 字符 128 到 159 为空
  • 使用与 ANSI 和 8859-1 相同的字符,从 160 到 255
  • 其他语言的字符使用 256 到 1000 指定

国际标准组织创建了一系列字符集来处理不同的国家字符。对于英语和大多数其他西欧语言的文档,使用广泛支持的编码 ISO-8859-1。

ISO 字符集

以下是世界各地使用的字符集列表及其描述:

字符集 描述
ISO-8859-1

拉丁字母第 1 部分

覆盖北美、西欧、拉丁美洲、加勒比海、加拿大、非洲

ISO-8859-2

拉丁字母第 2 部分

覆盖东欧

ISO-8859-3

拉丁字母第 3 部分

涵盖东南欧、世界语、其他

ISO-8859-4

拉丁字母第 4 部分

涵盖斯堪的纳维亚/波罗的海(以及 ISO-8859-1 中未列出的其他地区)

ISO-8859-5

拉丁文/西里尔字母表第 5 部分

ISO-8859-6

拉丁文/阿拉伯文字母第 6 部分

ISO-8859-7

拉丁文/希腊文字母表第 7 部分

ISO-8859-8

拉丁文/希伯来文字母表第 8 部分

ISO-8859-9

拉丁文 5 字母表第 9 部分

与 ISO-8859-1 相同,但土耳其语字符取代了冰岛语字符

ISO-8859-10

拉丁语 6 拉丁语 6 拉普兰语、北欧语和爱斯基摩语

ISO-8859-15

与 ISO-8859-1 相同,但添加了更多字符

ISO-2022-JP

拉丁文/日文字母表第 1 部分

ISO-2022-JP-2

拉丁文/日文字母表第 2 部分

ISO-2022-KR

L拉丁文/韩文字母表第 1 部分

然后成立了Unicode联盟,以设计一种方法来显示不同语言的所有字符,而不是为不同的语言提供这些不同的不兼容字符代码。

因此,如果要创建使用多个字符集中的字符的文档,则可以使用单个 Unicode 字符编码来实现。

因此,Unicode 指定了可以以特殊方式处理字符串的编码,以便为它所包含的巨大字符集腾出足够的空间。它们被称为 UTF8、UTF-16 和 UTF-32。

字符集 描述
UTF-8

一种以 8 位为单位的 Unicode 转换格式,即以字节为单位。UTF8 中的字符长度可以从 1 到 4 个字节,这使得 UTF8 的宽度可变。

UTF-16

一种以 16 位为单位的 Unicode 转换格式,即以短句形式出现。它可以是 1 或 2 个短路,使 UTF16 的宽度可变。

UTF-32

一种以 32 位为单位的 Unicode 转换格式,即以长为单位。它是一种固定宽度的格式,长度始终为 1 个“长”。

UTF 字符集Unicode 字符集的前 256 个字符对应于 ISO-8859-1 的 256 个字符。默认情况下,HTML 4 处理器应支持 UTF-8,XML 处理器应支持 UTF-8 和 UTF-16;因此,所有符合 XHTML 的处理器也应支持 UTF-16。