汉字不够用了——中文信息产业发展的尴尬处境
米阿仑 《人民日报海外版》 (2000年09月25日第九版)   时间:2000年9月25日 浏览数: 打印

  《北京日报》(8月25日)发表了一篇题为《“杨X秀”的尴尬》的报道。报道说,今年高校录取名单上有许多姓名无法用计算机登录,因而不得不用X和问号等其它符号代替;在其它方面,例如文字工作、档案管理、银行或者中医药工作,也常常遇到同样的尴尬情况。为此,报道引用郑码公司的建议说:当前的字库是6763个汉字,容量太小,而Win95和Win98的郑码汉字输入法有国际标准汉字20902个,这些汉字已经将《现代汉语词典》中的一万多个字全部包括,甚至还有许多繁体字,即便遇到一些生冷偏僻字,也足够应付。

  输入法选择不能解决问题

  笔者认为,输入法选择永远不能解决汉字数量是否足够的问题,更不能解决中文数据全面管理的问题。

  计算机数据管理可用的汉字数量不是取决于输入法,而是汉字字库。国家已经明文规定,今年年底前,要求国内所有处理文字信息的产品采用新颁布的GB18030信息交换用汉字编码字符集,这个标准可以涵盖27484个汉字,规模大大超过郑码汉字数量。然而,中文有6万多个汉字,新的字库还不到汉字总数的一半。从七十年代末期实现中文输入到现在,每隔几年就要扩大更新一次汉字字库。按照这个速度发展,要包括现有的6万个汉字,还需要大约5年到10年,而且,到了那个时候,汉字字库还是不够用,原因:新的汉字又会造出来。例如,去年,国家颁布了新的化学名称,使用的汉字都是新造的。如此,只要还有出现新汉字的可能,汉字字库就总是不够用,中文计算机数据管理就总会遇到《北京日报》说的那种尴尬情况。还有,每变动一次字库,都要考虑已经“数字化”和将要“数字化”的数据兼容问题,为此,字库的字符编码数值就总是不能完全做到有序统一。在这种情况下,中文信息产业的发展就总是有一个字库和字符编码数值的羁绊因素。

  汉字字库容量大小和输入法的选择是非常必要的,但它们不是解决中文信息产业基本建设问题的根本途径。

  中文信息产业建设的途径

  中文信息产业基本建设的途径原来是很清楚的:将现代信息学理论跟全面的中文数据管理相结合。现代信息学的基础是信息熵理论,即对被传送信息进行度量的一种平均值,单位是比特。四十年代,现代信息论创始人、美国贝尔实验室科学家闪农(C.Shannon)发明了信息熵理论,由此提出了数据优化编码、输入输出效率、通讯传递渠道效率、多余度和数据压缩等一系列信息科学基础理论和技术。

  信息熵是信息产业的地基。比如,不管计算机硬件软件如何更新换代,英文的字符平均信息熵(静态信息熵)是4.03比特,因而,处理和储存英文数据的每个字符的编码不能少于5比特;中文的汉字平均信息熵是9.65比特,因而,处理和储存中文数据的每个字符的编码不能少于10比特。

  现代信息论说明,一种字符系统的平均信息熵大(或信息量大),对该文字的数据处理和传递来说,是不利因素。具体到中文,汉字的平均信息熵是世界现代文字当中最大的,是不利因素最厉害的一种文字符号系统。为了保证中文信息产业的竞争力,就必须从信息熵入手解决适合中文数据全面管理的基本建设问题,其中包括双文制问题,即:如何实现现代汉语拼音文字方式和现代汉字书写方式并行的体制,其中包括如何建立适合中文信息处理和传递的计算语言体系的基础研究。

  五十年代,中国引进了现代信息学理论,开始了中文信息产业的最基本建设:汉字信息熵计算。后来,这个工作被社会动乱打断了10年多;到了七十年代末期和八十年代初期,工作恢复,不久,汉字平均信息熵计算工作完成,为中文信息产业奠定了最起码的基础。在这个过程中,中文计算机输入也在步步前进,终于在1978年实现了汉字输入,在八十年代中期实现了拼音方式和汉字笔画并行的若干种中文输入法。按照原来的国家计划,是在这个基础上开展汉字动态信息熵计算和渠道效率等基本研究,为实行中文数据管理的双文制奠定科学理论基础。如果这个计划实现了,那么,现在的中文信息产业就不会受到汉字字库容量大小和输入法的羁绊,而是能像英文信息产业一样,在计算语言和数据管理的技术方面驰骋发展了。

  两股潮流影响了计划的实现

  不幸的是,有两股潮流影响了这个计划的实现。一个潮流是八十年代末开始的“汉字优越”论。提倡这个观点的人说:汉字有特异功能,能使人的智商更高;汉字是魔方,金发碧眼的欧美民族看了汉字,就会对中国尊崇神往;汉字是见形知义的文字,最容易学,跟阿拉伯数字一样,是国际通用文字,因而21世纪是汉字文化的世纪,等等。他们甚至违背信息学的基本原理,看到“汉字信息量大”,就望文生义地把这个计算结果当作“汉字优越”的理论依据。

  根据这些东西,倡导“汉字优越”论的人向中文双文制基础科学研究的政策和有关科学家发起了攻击,说现代汉语拼音方案和规则是“左倾”的产物,是消灭汉字和中国文化,等等。许多报刊媒体跟着炒作,人云亦云,看谁能把汉字的特异功能吹得更神奇。对此,全国100多位知名专家和有关工作人员曾经联名写信,强烈要求报刊媒体停止“汉字优越”论的炒作。可是,炒作不但没有停止,反而变本加厉,直到两三年前因特网开始发热,“汉字优越”论的炒作风才冷却下来。将近10年的炒作,造成双文制等基础科学技术研究的计划和工作全面搁浅,中文信息产业蒙受了巨大损失。

  另一个潮流是微软公司兼并中文输入法所刺激的“万码(马)奔腾”。从八十年代后半期开始,越来越多的人卷入中文输入法开发,不管他们的方法在表面上看有多么不同,基本方法都一样:根据某些键盘使用习惯,做某种键盘字符数值和汉字字库数值的对应编码。每个人的操作习惯是不同的,同时,通过输入法版权追求商业利益形成产业风潮、全国到处搞输入法比赛和评比活动,中文市场出现了500多种输入法编码,其变化程度远远超过计算机在中国的普及程度。

  尽管“万码(马)奔腾”,中文信息产业发展却没有获得本质发展,突出代表就是市场现有中文软件不能完全正确地实行全面的中文数据管理。微软公司出巨资兼并中文输入法,刺激了通过输入法版权追求商业利益的风潮一浪赛过一浪,结果,中文软件市场被该公司控制,中文信息产业非常被动,中文信息全面管理的基础建设和基础理论的发展基本停滞。

  微软公司是基础技术的应用者而不是建立者,该公司并不理解中文信息产业基础建设的全部内容,以为简单地“汉化”(地方化)该公司产品就能万事大吉。尽管如此,微软公司知道,欠发达的基础建设往往意味着缺乏核心技术,非常有利于它在中国的市场利益。为此,该公司一直对中国鼓吹汉语优越和地方化的优越性。

  “万码奔腾”的教训够惨重

  这两股潮流纠合在一起,历时10来年,其破坏程度如此之大,以至于说说信息学的基本原理都会被批判。在这种气氛下,急功近利和既得利益的炒作成了主流,搞有关的中文信息产业基本建设几乎不可能。“万码(马)奔腾”的教训够惨重了。为了中文信息产业的发展,希望报刊媒体和业界不要再重复“万码(马)奔腾”时期的东西了,不然,汉字不够用和中文数据全面管理就总是要面临种种尴尬的局面。