文泉驿

蓋文字者,經藝之本,王政之始

——说文解字序 许慎(东汉) 让汉字永远自由

也许现在你已经习惯每天面对电脑浏览互联网上的中文信息,和亲朋好友收发中文邮件或者习惯用手机接受别人发来的中文短信。如果有人告诉你这些汉字并非时免费使用的,都属于某个商业公司所有,你会有什么样的感受呢?

汉字成为私人产品

在计算机进入中国之初并不能显示汉字,而当时汉字显示的技术有着巨大的利润空间,产生了利用硬件字库(如我们常说的汉卡)和软字库两种显示汉字的技术。当 微软推出了 Windows 95 操作系统后,安装了 Windows 95 操作系统的个人电脑不再需要额外的汉卡支持汉字的显示,代替汉卡的就是现在经常谈到的汉字字库的显示方式。

无论是那种方式,他们都需要使用汉字的点阵字库,但正是汉字显示技术的兴起,促成了国家标准点阵汉字标准的出现。

汉字的电子化具有一定公共性、也关系到能否自由顺畅的进行中文电子信息交流。字库的开发虽然具有巨大的市场利益,但还需要组织巨大的人力物力 开进行开发,而且这些字库的开发并不是一两个人花一两年时间就可以做到的,所以国家采取了授权中国标准技术开发公司等专门从事汉字字库字模及其周边开发的 企业进行研发。最后形成的标准归国家并强制执行,而具体的字库字形内容归企业所有。

在国家强制标准的推动之下,这一事实垄断造成无论是谁,只要使用中文电子汉字都必须向这些把握汉字字体的公司付费,同时这也造成不同字体之间显示的差异。

小知识

字库是储存在电脑、手机等设备里的文字仓库,汉字的显示就是从这些仓库中找到对应的汉字。但汉字数目巨大,如果全部制作出来,其数字内容的大 小将异常庞大。不过常用的汉子只有寥寥数千字,所以国家和相关企业选取了汉字里面的常用字制作了国家标准和相应的字库。不过就算这样,一套精美的汉字字库 从设计到最后成型,也需要 2~3 年的时间,所以汉字字库的价格昂贵。

自由字库欲破字库垄断

手机、终端设备、显示仪器、仪表等一切电子汉字显示打印等产品和设备都需要汉字字体,因为国家指定了 GB18030 作为全国的汉字编码标准并且强制实施,按理说应该有一套免费字库给公众使用,但事实上却没有一套可供使用的免费的字库。

原因在于购买一整套汉字字体的费用是巨大的,而不同公司的字库大小和汉字个数的不同造成了中文电子汉字显示方面的麻烦。鉴于此,香港、台湾地 区提供了相应的满足汉字标准要求的字体,放在网上供个人免费使用。特别是 2005 年 12 月 23 日,东京大学的坂村健教授等人,将目前收录字数最多的汉字字 体集对软件开发公司无偿公开,坂村健认为“一种类似社会基础设施的产品向用户征收费用是不对的,这样做还会阻碍计算机行业的发展,庞大的基础设施应该是免 费提供的”。

相比之下,大陆至今没有一个好用的开源字库,所以,微软公司使用的中文字体也都是从国内的商业公司手中买来的。

要让公众拥有一套免费的开源字体,解决这个问题的方法有两个途径:政府通过强制或收购具有版权的整套字体获得无限授权,向公众开放字体的使用。或者通过某个个体或者组织自己重新一点一点地制作出整套不同字形的汉字。

由于没有公司愿意公开其私有字形字库免费给消费者使用,特别是在 GNU/Linux 领域,怀着让每一个中文电脑用户受益的计划,文泉驿这个朝着自由开放的汉字进军的开发项目应运而生。

自由字库正在进行时

文泉驿是一群致力于在计算机世界中推广汉字,丰富电子汉字资源的志愿者组成的非赢利性组织。他们希望通过志愿者无私的劳动,使得所有人无论在世界上任何一个角落,无论在什么不同的系统下都可以免费地获得电子汉字资源,能够流畅地通过汉字进行交流。

文泉驿将开发一套完整的、美观的、基于自由软件原则的汉字字库,将包含各个大小的点阵汉字以及标准宋体、细宋体、报宋体、黑体的矢量汉字(可以无限放缩)。如果条件可能,还将制作隶书、行书等矢量艺术字体。

这些字体将覆盖 Unicode 标准 4.0 所收录的 7 万多中日韩汉字。这个字库将允许 Linux 用户、Windows 用户、Mac 用户、Unix 和 PalmOS 等主流操作系统的用户免费获得和使用,从而实现中文的无障碍交流。

文泉驿表示已经在 Sourceforge.net 立项,所开发出来的汉字字体,包括点阵字体和矢量字体,将选择使用自由软件形式的授权(GPL 或 者其他合适的授权形式),为了防止版权被其他商业机构利用,这些字体的版权将归文泉驿信任委员会(由会员产生)所有,文泉驿信任委员会承认参与者对相应的 字体创造性开发拥有署名权。

目前,文泉驿项目已经有了很大的进展。只要每个愿意为之付出努力的公众抽出一天哪怕几分钟的时间描出一个字,将极大地缩短开源中文字体的最终面世时间。

我们也期望让汉字无障碍地自由使用的那一天早点到来。

开源汉字的领军人物——房骞骞

房骞骞简介:1995 年从河南考入电子科技大学微波工程系。2000 年 9 月在美国的达特茅斯学院(Dartmouth College)攻读博士学位,方向是微波医学成像。毕业后在波士顿麻省总医院 Martinos 生物医学成像中心作博士后,研究课题是肿瘤的红外激光成像 技术。

房骞骞是文泉驿项目的负责人,自小就对中国传统文化有很浓厚的兴趣,由于他的家乡是甲骨文的发源地,因此他对文字的兴趣尤为强烈。房骞骞的研究课题和文字毫不相关,他为何会投身到开源汉字的创作中呢?记者为此采访了他。

文泉驿的诞生

房骞骞告诉记者:“当初想到做这个项目可能有两个方面的原因”。在 2002 年的时候,房骞骞在编写一个“数学软件常见问题集 (FAQ)”的电 子文档,他选择了一个 Wiki 引擎——UseModWiki,这样所有人都可以参与改进这个文档。再对 UseModWiki 进行改进的过程中,他被 UseModWiki 代码的简练和强大的功能所吸引。

同时由于工作关系,他需要完全转换到 Linux 下工作,于是曾经困扰过他很久的中文问题再次成为他工作的一个主要障碍。于是,他萌生了使用 Javascript 扩展 Wiki 页面编辑器来从事特殊性文档——中文字体协同开发的想法。

“Wiki 本身具备支持大规模、并行化、分布式开发的优势,加之字体开发本身,可并行化、颗粒化(granularity)的特性非常好”, 于是他自己经过一两天调研、代码改造,并写了一些简单的说明文字,于 2004 年 10 月 27 日正式成立了这个项目,当时的名字叫做“点阵中文 Wiki”。当 时,整个过程都是他一个人完成的。

在中文社区,开源的中文字库主要为台湾的一些公司和志愿者完成的繁体字库,简体中文矢量字库至今据他所知只有一个(台湾文鼎公司提供)。开 源中文字库的短缺从很大程度上使得中文 Linux 的发展依靠购买商业字库,国内红旗 Linux 就是其中一例。目前简体中文字库的这些诸多问题,造成了在 Linux 下使用中文时候,很多中文字体显示效果极差,甚至无法显示。

“而如果拥有开源中文字库不仅可以满足可以在很大程度上满足上述需要。而且可以解决困扰大多数 Linux 中文用户费时费力的所谓“美化”问题,降低中文 Linux 入门门坎,促进 Linux 在国内用户中的发展”。

开源中文字体诞生需要热心参与

上万的汉字字体都需要人工地对点阵排布进行优化,即保证汉字结构的美观,又保证其易读性。而这些优化目前还没有有效的算法来自动实现,需要消耗开发者个人巨大的精力和时间,所以文泉驿项目需要很多热心的参与者。

房骞骞介绍说:“从目前网站的浏览记录来看,每天来自不同 IP 的浏览者大概有 3000 多个,每天平均点击数为 8000 多个。不过,真正参与汉 字开发的人还是相当有限,完成 60 个点阵或 50 个以上矢量汉字制作的参与者不超过 70 个;而能够自始至终支持这个计划、参与这个计划的志愿者不足 10 个”。

由于这一项目的公益性、非商业性等问题没有资金来源,所以没有媒体愿意进行宣传。参与者不多、积极性也非常有限,网站的规模也因此受到很大程度的限制。

由于 Wiki 的开发方式,参与者之间是相对独立和松散的。参与者根据自己的时间特点选择适当的参与方式,而对于发送的点阵或者矢量字体,最后的质量审核、软件测试、文档和发布管理工作主要由少数的核心会员来负责。

其中 ID 为 wanghong 和 ailantian 的参与者,以无限的毅力和耐心分别对点阵和矢量汉字的开发做出过关键性的贡献; caiqian 和 fundawang 在计划初期对计划发展提出过有价值的建议;tchaikov 一直到现在仍然积极参与点阵“痛苦”、“枯燥”的审核和测 试工作;niqiu、fiag 等朋友参与了很多开发工作,而且积极地在各种场合推广这个计划。

niqiu 甚至自己印传单到高校去宣传。目前的开发团队都是通过参与计划相互联系和认识的。房骞骞说:“虽然他们当中很多我甚至只知道网络 ID,但我对他们的贡献充满了敬佩和感激。”

不过幸运的是,温泉驿陆续收到了一些热心朋友的汇款资助,“虽然现在一共只有 100 美元左右,但至少明年的网站租用费可以解决,更重要的是,这些捐赠对于开发者来说是一种巨大的鼓舞”,房骞骞希望通过《电脑报》向他们表示特别的感谢。

文泉驿字体的现实和未来

2006 年 3 月 19 日,文泉驿发布了开发代号为北斗的文泉半两宋体字体,版本号为 v0.7。这个版本是通过半年多的努力,加上上万点阵的优 化,对每个字体无数细致的推敲和斟酌才产生的。这也可以说是目前这个开源中文计划的里程碑。文泉驿新点阵 V0.7(北斗)无论从完整性、实用性还是从艺术 性来说,都较以前达到一个质的飞跃。

而矢量部分的开发工作基于房骞骞一个具有尝试性质的开发方法,他于去年 4 月正式发布了笔画分析的界面程序,至今,已经完成了 19,816 个 拥有开源图片的 GBK 汉字的笔画分析,900 多个 CJK 扩展 A 区汉字和近 4,000 个 CJK 扩展 B 区汉字的分析工作。房骞骞介绍说:“这里面有 1/5 的汉 字可能需要重新制作,但如果进度顺利的话,我相信今年我们的开源矢量字体能与世人见面。”

可以相信,随着中文开源字体问题的解决,假以时日 GNU/Linux 下的中文信息显示瓶颈就可以得到解决了,那么基于 GNU/Linux 下的商业办公、文档处理和教育等相关软件的中文化问题都将迎刃而解了。

请大家支持文泉驿,不要沉迷于微软雅黑美化之类的研究了。