国际化域名术语表

来自站长百科
跳转至: 导航、​ 搜索

以往,Internet 上的域名仅限于使用有限的 ASCII 字符集(即 a-z、0-9 和“-”)。但是,随着世界各地以及各语种人群对 Internet 使用的增加,对于多语言域名的需求日益强烈。各种缩写广泛地应用在国际化域名空间的交流中。下面将提供这些缩写的解释,以便使这个话题更容易理解。


ACE(ASCII 兼容编码)[ ]

ACE 是用于对 Unicode 进行编码以便仅使用有限的 ASCII 字符集(即 a-z、0-9 和“-”)传输每个字符的系统。由于使用 DNS 协议的应用程序有可能不能可靠地处理其他值,因此需要使用 ACE 系统。

ASCII(美国信息交换标准码)[ ]

ASCII 是计算机和处理文本的其他设备的通用数字代码。计算机只能读懂数字,因此 ASCII 码是字符(例如“a”或“@”)的数字表示。当提及域名或字符串时, ASCII 是指在国际化之前,域名中只能使用字母 a-z、数字 0-9 和连字符“-”的情况。

字符[ ]

为了讨论 IDN,最好将“字符”看作是书写系统的基本图形单元,书写系统是指文字加上一套决定其如何表示特定语言的规则。虽然域标签显示了其文字基础,但是,它并不传达任何与其关联语言有关的内在信息。这种语言依赖性并不能通过限制文字定义而排除,因为在一些情况(参见以上示例)下,使用相同文字的语言对单个元素的理解并不相同。因此,术语字符不能够脱离其上下文来单独定义。

在基于语音学的书写系统中,一个字符通常是一个字母或代表一个音节;在表意文字系统(或者说象形文字或语标系统)中,字符可能代表一个概念或词。

以下示例将说明字符的定义至少是两方面的,一方面是语言基本单位,而另一方面是相关的代码点。

U-label 酒:酒;中文意思是“酒精饮品”;Unicode 代码点为 U+9152(也指:CJK UNIFIED IDEOGRAPH-9152);A-label 为 xn—jj4

U-label 北京:中文“北京”,Unicode 代码点为 U+5300 U+4EAC;A-label 为 xn—1lq90i

U-label 東京:日语“东京”,Unicode 代码点为 U+6771 U+4EAC;A-label 为 xn—1lqs71d

U-label ایكوم;ICOM 的波斯语缩写,Unicode 代码点为 U+0627 U+06CC U+0643 U+0648 U+0645;A-label 为 xn—mgb0dgl27d。

DNS(域名系统)[ ]

DNS 通过允许使用常见的字母字符串(“域名”)代替晦涩的 IP 地址,使得 Internet 的使用更加方便。比如,您可以输入 www.internic.net 来代替 207.151.159.3。

IDNA(国际化域名应用)[ ]

IDNA 是因特网工程工作组 (http://www.ietf.org) 在 RFC 3490 下定义的一个协议,使得非 ASCII 字符域名的应用处理成为可能。IDNA 将非 ASCII 字符的域名字符串转换为使用 DNS 的应用中可准确理解的 ASCII 域名标签。并非世界语言中所使用的所有字符都可用于域名中,因此,IDNA 不能将所有此类字符转换为 ASCII 标签。

IDN(国际化域名)[ ]

IDN 是由本地语言字符所表示的域名。正如许多欧洲语言或非拉丁文字(例如阿拉伯语或中文)所要求的,此类域名可包含带发音符号的字符。

IDN 使得显示的和最终用户所看到的域名标签与 DNS 中所传输的域名不同。为避免混淆,将使用以下术语:

A-label 是 DNS 协议中所传输的内容,它是 IDNA 字符串的 ASCII-兼容 (ACE) 格式,例如“xn--11b5bs1di”。U-label 是为用户显示的内容,是国际化域名 (IDN) 的 Unicode 表示形式,例如“परीका ”(北印度语“测试”,梵文)。最后,LDH-label 严格指遵守“主机名”(LDH) 规范的全 ASCII 标签,而不是 IDN;例如域名“icann.org”中的“icann”。

(上面的标签定义摘自:http://www.ietf.org/internet-drafts/draft-klensin-idnabis-issues-01.txt)

IDN SLD 或 IDN 2LD[ ]

通常,在域名的引用中,本地字符用在二级域名中,而顶级域名仅使用 ASCII 字符。 例如:[παράδειγμα .test](希腊语“example.test”)。

IDN TLD[ ]

通常,在国际化顶级域中要使用简短的引用,这样就允许用本地字符代表整个域名。例如:[실례.테스트](韩语“example.test”)。

标签[ ]

标签是域名的单独部分。标签通常以点号分隔;例如域名“example.com”由两个标签“example”和“com”组成。

语言 | 文字 | 字母[ ]

语言由特定的语言群体使用。文字用来以各种语言记录信息,这是通过使用相应的字母或其它书写系统来完成的。

LDH(字母、数字、连字符)[ ]

RFC 952 中定义的主机名规范(后经 RFC 1123 修改)在国际化前用在顶级域名注册中。这意味着域名实际上只能包含字母 a-z、数字 0-9 和连字符“-”。术语“LDH 代码点”指的就是这个子集。随着 IDN 的引入,此规则不再与所有域名相关,不过在使用 IDNA 的情况下,DNS 中显示的仍然是 LDH。

Punycode[ ]

Punycode 是因特网标准 [RFC3492] 中所描述的 LDH-兼容编码算法,现今已为人们所采用。这种方法用于将 IDN 编码为 LDH ASCII 字符序列,以便在使用域名系统 (DNS) 的应用中理解和管理域名。其目的是为了让域名注册人和用户永远看不到这种编码形式的域名。这种算法的唯一目的是让 DNS 能够解析包含本地字符的 URL。例如查看“IDN”下的 A-label。

Punycode A-label 中的前缀始终是“xn--”。因此,为了避免在它们各自的顶级域下引入 IDN 注册时产生混淆,建议顶级域注册中保留该前缀。

The Unicode Consortium (Unicode 协会)[ ]

该协会是一个非赢利性组织,其目标是发展、扩大及推广 Unicode 标准的应用。如需要了解更多信息,请访问 http://www.unicode.org。

Unicode[ ]

Unicode 是一种广泛使用的单一编码方案,可为各种语言和文字的每一个字符提供唯一的编号。Unicode 标准包含多个表格,这些表格为每个本地字符列出了“代码点”(唯一编号)。随着越来越多的字符被数字化,这些表格也会不断扩大。

在 Unicode 中,为字符指定了代码,这些代码可唯一地定义全球众多文字中的每个字符。这些“代码点”是某个字符或某种字符特征(如重音符号或连字符)的唯一代码。Unicode 支持的代码点超过一百万个,这些代码点的组成结构是字母“U”后面跟随“+”号和一个十六进制的唯一编号;例如,单词“Hello”可以写为 U+0048 U+0065 U+006C U+006C U+006F。

URL[ ]

“统一资源定位符”的缩写,该字符串描述了 Internet 上文档和其它资源的地址。URL 根据 RFC 2396 中的 IETF 而定义,每个 URL 由两部分组成,以冒号 (“:”) 分隔。地址的第一部分指出所使用的协议,如 http、ftp 等;第二部分指明资源的 IP 地址或域名。

UTF-8[ ]

UTF-8 位 Unicode 转换格式是用于对 Unicode 进行编码以便可以使用 8 位数值来传输每个字符的系统。随着 8 位数据传输在 Internet 上的流行,这种格式也被广泛应用。

参考资料:

  1. http://www.icann.org/topics/idn/idn-glossary_zh-CN.htm