📜  HTML-字符编码

📅  最后修改于: 2020-12-16 06:07:57             🧑  作者: Mango


字符编码是一种将字节转换为字符。为了正确地验证或显示HTML文档,程序必须选择适当的字符编码。

在计算机上使用的最常见的字符集或字符编码是ASCII-美国信息交换标准代码,这可能是用于电子编码文本的最广泛使用的字符集。

ASCII编码仅支持大写和小写拉丁字母,数字0-9和一些额外的字符,这些字符总共总共128个字符。您可以看一下完整的可打印ASCII字符

但是,许多语言使用带重音符号的拉丁字符或完全不同的字母。 ASCII不能处理这些字符;因此,如果要使用任何非ASCII字符,则需要了解字符编码。

国际标准组织创建了一系列字符集来处理不同的国家字符。对于英语和大多数其他西欧语言的文档,使用了广泛支持的ISO-8859-1编码。

这是在世界范围内使用的字符集及其说明的列表。

Sr.No Character Set & Description
1

ISO-8859-1

Latin alphabet part 1

Covering North America,Western Europe, Latin America, theCaribbean, Canada, Africa

2

ISO-8859-2

Latin alphabet part 2

Covering Eastern Europe

3

ISO-8859-3

Latin alphabet part 3

Covering SE Europe, Esperanto, miscellaneous others

4

ISO-8859-4

Latin alphabet part 4

Covering Scandinavia/Baltics (and others not in ISO-8859-1)

5

ISO-8859-5

Latin/Cyrillic alphabet part 5

6

ISO-8859-6

Latin/Arabic alphabet part 6

7

ISO-8859-7

Latin/Greek alphabet part 7

8

ISO-8859-8

Latin/Hebrew alphabet part 8

9

ISO-8859-9

Latin 5 alphabet part 9

Same as ISO-8859-1 except Turkish characters replace Icelandic ones

10

ISO-8859-10

Latin 6 Latin 6 Lappish, Nordic, and Eskimo

11

ISO-8859-15

The same as ISO-8859-1 but with more characters added

12

ISO-2022-JP

Latin/Japanese alphabet part 1

13

ISO-2022-JP-2

Latin/Japanese alphabet part 2

14

ISO-2022-KR

Latin/Korean alphabet part 1

然后建立了Unicode联盟,以设计一种显示不同语言的所有字符的方法,而不是针对不同的语言使用这些不同的不兼容字符代码。

因此,如果要创建使用来自多个字符集的字符的文档,则可以使用单个Unicode字符编码来执行此操作。

因此统一规定,可以以特殊方式处理字符串,使有足够的空间巨大的字符集它包含了编码。这些被称为UTF8,UTF-16和UTF-32。

Sr.No Character Set & Description
1

UTF-8

A Unicode Translation Format that comes in 8-bit units that is, it comes in bytes. A character in UTF8 can be from 1 to 4 bytes long, making UTF8 variable width.

2

UTF-16

A Unicode Translation Format that comes in 16-bit units that is, it comes in shorts. It can be 1 or 2 shorts long, making UTF16 variable width.

3

UTF-32

A Unicode Translation Format that comes in 32-bit units that is, it comes in longs. It is a fixed-width format and is always 1 “long” in length.

Unicode字符集的前256个字符对应于ISO-8859-1的256个字符。

默认情况下,HTML 4处理器应支持UTF-8,而XML处理器应支持UTF-8和UTF-16。因此,所有符合XHTML的处理器也应支持UTF-16。