统一码联盟是一个致力于开发,维护,发展全球通用软体标準和数据格式,特别是维护Unicode编码标準的非牟利机构。统一码联盟制定了一种可以对全球几乎所有语言文字进行编码的标準。
基本介绍
- 中文名:统一码联盟
- 英文名:The Unicode Consortium
- 法文名:le Consortium Unicode
- 宗旨:取代现存的字元编码
宗旨
其宗旨为最终以统一码取代现存的字元编码。因为现存编码不能够在多语言计算机环境中使用,而且字元数有局限。同时它也制定了数种统一码转换格式(UTF,Unicode Transformation Format)。
起源
Unicode是为了解决传统的字元编码方案的局限而产生的,例如ISO 8859-1所定义的字元虽然在不同的国家中广泛地使用,可是在不同国家间却经常出现不兼容的情况。
很多传统的编码方式都有一个共同的问题,即容许计算机处理双语环境(通常使用拉丁字母以及其本地语言),但却无法同时支持多语言环境(指可同时处理多种语言混合的情况)。Unicode编码包含了不同写法的字,如“ɑ/a”、“强/强”、“户/户/戸”。然而在汉字方面引起了一字多形的认定争议(详见中日韩统一表意文字主题)。
在文字处理方面,统一码为每一个字元而非字形定义唯一的代码(即一个整数)。换句话说,统一码以一种抽象的方式(即数字)来处理字元,并将视觉上的演绎工作(例如字型大小、外观形状、字型形态、文体等)留给其他软体来处理,例如网页浏览器或是文字处理器。
几乎所有计算机系统都支持基本拉丁字母,并各自支持不同的其他编码方式。Unicode为了和它们相互兼容,其首256字元保留给ISO 8859-1所定义的字元,使既有的西欧语系文字的转换不需特别考量;
并且把大量相同的字元重複编到不同的字元码中去,使得旧有纷杂的编码方式得以和Unicode编码间互相直接转换,而不会丢失任何信息。举例来说,全形格式区段包含了主要的拉丁字母的全形格式,
在中文、日文、以及韩文字形当中,这些字元以全形的方式来呈现,而不以常见的半角形式显示,这对竖排文字和等宽排列文字有重要作用。
在表示一个Unicode的字元时,通常会用“U+”然后紧接着一组十六进制的数字来表示这一个字元。在基本多文种平面(英文:Basic Multilingual Plane,简写BMP。又称为“零号平面”、plane 0)里的所有字元,要用四位十六进制数(例如U+4AE0,共支持六万多个字元);
在零号平面以外的字元则需要使用五位或六位十六进制数了。旧版的Unicode标準使用相近的标记方法,但却有些微小差异:在Unicode 3.0里使用“U-”然后紧接着八位数,而“U+”则必须随后紧接着四位数。
发展
位于美国加州的Unicode组织允许任何愿意支付会费的公司和个人加入,其成员包含了主要的计算机软硬体厂商,例如奥多比系统、苹果公司、惠普、IBM、微软、施乐等。
20世纪80年代末,组成Unicode组织的商业机构,和国际合作的国际标準化组织因为计算机普及和信息国际化的前提下,分别各自成立了Unicode组织和ISO-10646工作小组。
他们不久便发现对方的存在,大家为着相同的目的而工作,于是两个组织便共同合作开发适用于各国语言的通用码,而且“相当有默契地”各自发表Unicode和ISO-10646字集。虽然实际上两者的字集编码相同,但实质上两者确实为两个不同的标準。
统一码联盟在1991年首次发布了The Unicode Standard。Unicode的开发结合了国际标準化组织所制定的ISO/IEC 10646,即通用字元集。Unicode与ISO/IEC 10646在编码的运作原理相同,
但The Unicode Standard包含了更详尽的实现信息、涵盖了更细节的主题,诸如比特编码(bitwise encoding)、校对以及呈现等。The Unicode Standard也枚举了诸多的字元特性,包含了那些必须支持两种阅读方向的文字(由左至右或由右至左的文字阅读方向,例如阿拉伯文是由右至左)。Unicode与ISO/IEC 10646这两个标準在术语上的使用有些微的不同。
在2005年,Unicode的第十万个字元被引入成为标準之一,该字元被用于马来亚拉姆语。
成员合作
统一码联盟由世界各地主要的电脑製造商、软体开发商、资料库开发商、政府部门、研究机构、国际机构、各用户组织及个人组成。统一码联盟的领导者及管理人员来自各个组织及行业,代表着最广泛的编码套用。
统一码联盟包含三个技术委员会和一个编辑委员会:Unicode Technical Committee,Unicode CLDR Technical Committee,Unicode Localization Interoperability Technical CommitteeEditorial Committee.
统一码联盟积极与各标準制订机构合作,包括国际标準化组织(ISO)、国际电工委员会(IEC)、全球资讯网联盟(W3C)、网际网路工程工作小组(IETF)和欧洲计算机製造协会(ECMA)等。
出版刊物
- The Unicode Standard, Version 5.0, Fifth Edition, The Unicode Consortium, Addison-Wesley Professional, Oct. 27, 2006.ISBN 978-0-321-48091-0
- The Unicode Standard, Version 4.0, The Unicode Consortium, Addison-Wesley Professional, Aug. 27, 2003.ISBN 978-0-321-18578-5
- 《Unicode标準》(The Unicode Standard)
- 《字元数字型档》(Character Database)
- 《Unicode技术準备和报告》(Unicode Technical Standards and Reports)
- 《Unicode技术说明书》(Unicode Technical Notes)等等。
成就
统一码的成功让计算机使用进入了一个新纪元,并套用于很多新技术,如XML、Java程式语言和现今的作业系统。