对<汉语拼字方案>的解释一
作者:
分类:科技与社会研究
浏览:3586次
回复:0次
发表时间:2010-02-10 10:48:43
汉字语音ASCⅡ编码系统及其产业化项目
可行性研究报告
一、我国汉字编码、汉字处理和汉字信息化方面存在的问题及解决途径
(一) 主要问题和影响
目前,面临的二十一世纪世界将进入新经济时代,世界经济、信息一体化发展趋势不可逆转,信息化实施及发展成为衡量一个国家现代化程度的重要标尺。当前互联网的发展迅猛异常,网络银行、电子商务、电子政务等各网站间数据库交互访问、共享数据处理、多类型数字化设备互联互通,军事上的信息化战争,全球性数据无障碍交互、处理及存储成为一个大趋势。中文信息处理技术的突破,对全球汉字文化圈20多亿人口具有异乎寻常的意义。汉字是中国信息的最基本载体,它在计算机及各类数字化设备软件中的无障碍交互显得极为重要。如何适应今后社会信息量的爆炸式递增、信息越来越大的复杂程度、信息载体在计算机及数字设备中的统一模式、简单安全、中文语意精确理解及可靠控制等问题已经引起社会科学和自然科学界的高度重视。
然而,目前我国计算机汉字处理方式却还是沿用80年代的方式方法。从计算机汉字输入方面讲,还是沿用码表对应方式。只要找到一种码表对应方式即可产生一种汉字输入方法,以致产生了成千上万种汉字输入方法。同时,也产生了只需见字识码,不需见码识字两层皮的弊端。汉语拼音及输入方法也因产生大量重码而难以确定。使汉字输入所见、所想、所打的内容完全不一致,很难进入盲打状态,导致了计算机汉字的输入困难。
从计算机汉字机内码方面讲,直接要求计算机操作系统运行中字节必须高位置“1”、双字节或四字节不可分离错位、汉字机内码前后加标识、汉字机内码作为字段或文件处理、并且多种汉字机内码并存,在各种计算机操作系统和各种数据库及越来越多的数字应用设备和软件系统间无法确认交互而造成乱码,解决汉字计算机处理问题,跟上时代的发展,已是我们必须面对的问题。同时,为了包容中文字集则要求信息基本编码空间加大,然而,即使两字节16位全部使用也只有6万多编码空间,与近10万汉字独立标识要求相距甚远,若使用3字节或4字节作为基本信息标识单位,不仅增加了计算机处理的复杂性和降低了安全可靠性,而且,使用如此大的编码空间来同时区别表示只有26个西文字母集之中的某一个字母无疑是极大的浪费。由于汉字本身存在同字多音多意状态,而国标字集只给出同字形唯一编码,使得中文表示的准确度和精确性也不能令人满意。汉语拼音方案应进一步优化、完善,使其唯一拼到汉字、词作为文字使用。汉字计算机输入应可见字识码;见码识字互逆并实现可盲打。目前汉字机内码两字节、四字节整体独立表示方法必须将操作系统汉化改造。因为与扩展ASCII码冲突,不能无障碍进入西文系统网络并行处理。计算机最小寻址、处理、存储单位是字节(如ASCII码)。西文字母(ASCII码单字节)是字符型可运算,表示汉字的两字节、四字节相对困难,并且不能拆分、错位,否则会产生一串乱码(具有安全隐患);由于汉字集太大,汉字不适合计算机多字节整体独立表示。形象讲,就像高速公路跑的小汽车,将两只或四只绑在一起跑肯定不灵活效果不好。多音字不加以区分、不进行断字断词存储方式极大地影响了计算机对中文的语意理解和数字量化分析处理。今后计算机处理中文不应当只作为打字机使用。西文字母可以拼成汉语拼音、英文、法文、西班牙文等,同理也可将汉字本身数字量化分拆组合拼成。汉字计算机ASCII码拼字存储方式可将中文信息纳入全球信息一体化体系,并且可以让计算机象处理西文一样分析、检索、排序、运算、控制等大量的中文处理工作。在中文显示、排版打印环节对应国标18030内码,与目前使用的汉字状态没有任何差异。也可以使用目前流行的任何输入法输入汉字,机内码在后台转换。
目前汉字两字节和四字节整体独立机内码表示方式,在计算机信息处理过程中只能作为被处理对象。这样将极大限制中文在计算机信息处理过程中参与控制流的可能性。从而极大限制了中文信息的可控运算及可命令执行能力。汉字机内码完全ASCII单字节表示模式已经迫在眉睫。
(二) 全球文字编码、处理和信息化的经验
目前国际上计算机字符类信息编码分为两大类,第一为单字节类像
ASCII;扩展ASCII; EBCDIC码等,其中又有7位码和8位码之分。第二为多字节类即两字节及以上编码模式,汉字机内码就属第二类。第二类的特点是多字节连在一起作为一个独立最小可处理单元在相对应计算机操作系统下完成处理的。它的多字节不可拆分和不可错位性,还有各类多字节计算机操作系统间和应用系统间的编码、解码一致性问题及其重要,否则必然出现乱码。在这里信息安全可靠处理问题需高度注意,它直接关系到一个国家的信息安全,尤其是关系国家命脉的像军事、金融、科技、教育、工业信息等领域。同时它与第一单字节类编码发生冲突,这样就需要加以区分不至混淆。在以单字节为最小可寻址存储操作单位的计算机字节流处理模式讲,第一类单字节信息处理模式显而易见是简单、安全、高效的。一般来讲拼音文字使用第一类编码。像西文或汉语拼音不管在全世界任何地点、任何计算机系统、任何软件系统和任何网络系统存储、传输、处理等环节都不会出现编码失真问题。
在我国汉字国标码中,一个汉字占两个字节,每个字节最高位为0,为了在计算机中将ASCII码和国标码区分开,一般将国标码的最高位置为1,变换后的国标码就叫做汉字机内码。因为历史和地域原因,汉字有不少编码标准。最常见的是GB18030和BIG5等。在Unicode(统一码)被完全接受前,它们将共存相当长的一段时间。
Unicode码是由Unicode学术学会制定的字符编码系统,旨在支持多种语言书面文本的交换、处理和显示。Unicode码4.0版本于2003年推出,该版本包括了中文简体字、日文平假名、片假名、泰文、韩文、阿拉伯文等世界主要语系的文字表示。由于汉字集的数量问题,目前又有四字节汉字编码。它同时存在上述多字节编码问题。为此我们提出下述多字节显示、打印,单字节存储、运算、传输的汉字语音ASCⅡ 编码系统。
(三) 问题解决途径
就中文计算机信息处理编码解决方案而言,目前使用的两字节和四字节整体独立表示是解决方法之一。它需要计算机操作系统和计算机操作者将两类编码模式进行区分,同时还需要对各种不同的汉字机内码进行区分,对到底是两字节汉字还是四字节汉字进行区分。只有这样才能还原汉字的本来面目。也要求计算机操作系统和各种不同的集成应用软件对两字节和四字节汉字机内码的完整独立性、编码解码一致性加以保证,任何字节间的拆分和错位、编码解码不一致都将导致所表示的汉字产生乱码。由于单字节和多字节的编码冲突,在中文平台上有不能同时处理部分西文字母的可能,否则就需要加特殊标识加以区分或采用两字节和四字节为最小处理单元的计算机操作系统。
汉字语音ASCⅡ 编码体系也是解决方案之一。它是将汉字词编码与GB18030字库汉字标准编码相对应,使用与汉字发音相关对应的4位大写标准键盘西文字符唯一对应每个汉字,根据汉字标准字典的音、调、序顺序排列,同时,具备简化字和编词规则,它将汉字的发音属性进行数字量化合成,象汉语拼音一样具有字码相关性,并在汉语拼音的基础上进行了优化处理,使其拼到字。这样,汉字语音ASCⅡ 编码就形成了具有可识别性,并包括汉字发音属性中声母、韵母、声调及序的ASCII码数字量化完备的中介中文系统。该编码符合唯一性,可认读性,完全字母、字符化标准。并可做到见字识码,见码识字互逆,可作为汉字编码直接盲打输入中文、实现机器中文存储运算(可ASCII码字符型运算)和网络传输。因为不需要对机器操作系统进行中文汉化,所以可以在各类ASCII码数字设备上实现中文编程、控制及应用系统。只是在计算机显示打印中文时,只需在计算机中运行一外挂智能屏幕汉字显示和打印转换程序予以直接一一对应BG18030汉字机内码即可。
二、项目的必要性、可行性和迫切性
(一) 项目的必要性
汉字语音ASCⅡ 编码系统是在对计算机中文信息处理多年研究的基础上产生的。首先将多字节、多种类汉字机内码存储模式转换成ASCII单字节与汉字唯一对应模式,同时汉字显示和打印模式不变。它的按汉字发音属性分功能ASCII单字节发音相关表示方法可以无障碍进入西文处理平台,这就将中文信息成功纳入全球信息一体化体系。另外经过将汉字本身进行拆分细化分功能组合后,使得汉字词的表达更加准确、精确、规范,为中文计算机精确、安全及智能化处理提供了必要的平台。
(二) 项目技术基础及可行性
我国古代四大发明之一的活字印刷术是将最小可操作单元的页面雕版拆分为最小可操作单元为汉字本身。由于可操作单元的变小极大改善了工作的灵活性和简单化,从而极大地促进了当时的社会发展和进步。然而信息社会发展到今天,汉字本身作为中文信息处理的最小可操作单元已经不能适应现代信息化社会发展的需要。汉字本身的可数字量化拆分组合已势在必行。首先,从中文的准确、精确、规范表述方面急待提高。汉语拼字理论是将汉字本身进行了数字量化拆分组合,拼成不同的汉字、词。
汉字计算机输入已经明确提出了汉字拆分的必要性和可行性。因为现在没有人使用大键盘整字输入。但是在计算机内部却还是使用两字节、四字节机内码整字表示法,我们说在计算机显示和打印汉字环节是必要的,但在存储环节完全可以使用汉字语音ASCⅡ 编码取代。反之亦然,在计算机显示和打印汉字环节可以使用现机内码取代。这样汉字语音ASCⅡ 编码将汉字拆分后的各个子功能用大写西文单字节ASCII码各自独立表示,它的字符型模式可以在计算机程序中进行字符型运算。同时由于汉字存储的完全ASCII码化使中文信息像西文信息一样在同一平台运行。使目前因为中文机内表示的特殊性产生的汉字乱码、死机等现象完全消除。汉字语音ASCⅡ 编码是对“汉语拼音方案”的优化和完善,是从拼音走向拼字、从模拟走向数字、从粗旷走向精密的必然发展过程。它可直接识别ASCII码中介中文系统并成功将中文纳入全球信息一体化体系。
(三) 项目的迫切性
进入二十一世纪,全世界经济社会发展速度必将更快。全球信息
一体化、全球重要信息、通用信息必将向全球规范的ASCII码靠拢。为此我们一定要将计算机中文信息尽快ASCII码化,以适应世界发展的需要,更重要的是促进我国社会快速发展的需要。汉字语音ASCⅡ 编码系统发展到现在,已经不单纯是一个技术解决方案,象活字印刷术极大促进当时社会发展进步一样,它的中文汉字拼字理论和实践涉及到中华文化创新发展进步和中华文化走向世界的问题。必定会成为实现中华民族伟大复兴的重要组成部分。自主创新迎接拼字文明时代到来。
三、汉字语音ASCⅡ 编码体系的建立
汉字语音ASCⅡ 编码规则:
行、列、纵、序四位西文大写字母表示每个汉字:
其中行为声母。使用23个西文大写字母表示,无声母将第一字符作为行来表示,字母IVU作为特殊用途。对应关系如下:
A:a B:b C:c,ch D:d E:e F:f G:g H:h J:j K:k L:l M:m N:n O:o P:p Q:q R:r S:s,sh T:t W:w X:x Y:y Z:z,zh
其中列为韵母。使用26个西文大写字母表示,对应关系如下:
A:a B:an C:ang D:ao E:e F:ei G:en H:eng I:i J:ia,ua K:ian L:iang,uang M:iao N:ie,uai O:o,er P:in Q:ing R:iong,ong S:iu T:ou U:u,u V:uan W:ue,ui X:un Y:uo Z:ai
其中纵为四声。使用26个西文大写字母表示,对应关系如下:
ABC DEF顺序表示阴平(一声)声调,GHI JKL顺序表示阳平(二声)调,
MNO PQRS顺序表示上声(三声)声调,TUV WXYZ顺序表示去声(四声)声调,
其中轻声归入S。行、列、纵三位确定为特定该声调字。声母为ch,sh,zh及韵母u使用D,J,P,W开始的后部声调字母。
系统设有一、二、三位简码,计算机内部运算则对应四位全码。
其中序为该声调国家标准笔划顺序码。词用“-”符连接。特殊词可用特殊符号连接。
XX-XX; XX-XX-XX; XX-XX-XX-XX为整体表示的标准词,不受两位简码限制。其余词均可由简码、全码组合而成。
后缀字加“’”符连接。全部字集按“汉字标准字典”(ISBN 7-5610-3502-0)音序检字表排列,方便学生学习和使用。
应用实例:
A.汉字语音ASCⅡ 编码具有中文断字断词功能:
例如:他是我们的好榜样。 T'S W-M'D H BC-YC.
这样的人才是我们需要的。 ZE-YC’D R CZG-S W-M XU-YD’D.
ZE-YC’D R-CZG’S W-M XU-YD’D.
B. 汉字语音ASCⅡ 编码具有中文多音字分别独立表示功能:
例如:武汉市长江大桥。WU-HB-SI CC-JL DA-QM.
WU-HB SI-ZC JLA-DA-QM.
还欠人民币200万元。 HVGB QKT RG-MP-BI 200 WB-YV.
HZG QKT RG-MP-BI 200 WB-YV.
C.汉字语音ASCⅡ 编码具有中文词和后缀字区别表示功能:
例如:非常规定制造型。 FFA’CC-GW DQ-ZIWK ZD-XQ.
我 现在 去 北京 的 途中。W XK’ZZ Q BF-JQ’D TU-ZR.
我 现在 开会。 W XK-ZZ KZ-HW.
D.汉字语音ASCⅡ 编码具有汉字音素分解(文同音)表示功能:
例如:床 前 明 月 光, CLJA QKGI MQGB YWTA GLAA,
疑 是 地 上 霜。 YIIP SIXD DITB SCWB SLDD.
四、汉字语音ASCⅡ 编码的重要特点
A 将中文汉字按发音属性声母、韵母、声调及序对应西文字母组合。从而实现了将每个汉字的拆分并完全数字量化的组合。其中的每个环节都严格遵循国家公布执行的[汉语拼音方案]、[汉字标准字典]中汉字的音、声序和对应GB18030国家标准汉字编码。形成了可见字识码、见码识字互逆的中介中文系统。
例如:骂(MATD)、蚂(MATF) 其中第一个字母M为声母,第二个字母A为韵母,第三个字母T为第四声,这样用前三个字母就将该字的普通话标准发音锁定了。而第四个字母则是同音、同调按国家标准笔画顺序排列的序。该编码对应的汉字则是GB18030国家标准汉字编码。
B 成功实现了“文同音”。符合现代社会语音信息统一、标准交流发展的需要。由于汉字本身不具有发音属性导致全国识字不同音的现象,而汉语拼字编码则直观、完备的将对应汉字的发音(包括四声)锁定。
C 使用汉语拼字编码输入存储时,可象汉语拼音一样将字、词断好,不会出现目前汉字、词内码连续挤在一起计算机无法判断的情况。
D 将多音字分别表示,提高了中文表达的准确性和精确度。由于目前国标编码将多音字只选该字型的一个编码,使多音字无法区分,极易造成判断混乱。
例如:还欠人民币200万元。 HVGB QKT RG-MP-BI 200 WB-YV.
其中的“还”字读音是“Huan”还是“Hai”则表示了两种截然相反的意思,为此建议国标增加多音字编码使其与汉字语音ASCⅡ 编码系统编码唯一互逆对应,使中文系统更加完善、准确和精确。使1000多个多音字有个完美的归宿。
E 使汉字由各个发音属性的字母组成,实现了汉字的数字量化,可参与字符型运算。并可由各个发音属性的字母组合拼成该字的发音,为中文机器语音分解合成运算提供一种新的手段。实现了在西文系统平台和网络数据库同时处理中文的目标,使中文信息无障碍进入全球信息一体化发展轨道。
例如:床 前 明 月 光, CLJA QKGI MQGB YWTA GLAA,
疑 是 地 上 霜。 YIIP SIXD DITB SCWB SLDD.
其中的光和霜字拼字编码的第二位和第三位必须一致才能表明是押韵的。这也清楚表明拼字方案中中文汉字分拆后的各个字母(ASCII)在自己相应位置有着各自独立的功能和作用,并且可以对自己相应位置各自独立的功能和作用在不同程序的控制下加以字符型运算,判断、修改、置换、统计各自独立的功能和作用。就像英文字典可对单词中每个组成字母程序自动排序一样。
F 使中文信息实现涂卡、写卡机读,为中文信息自动输入处理提供可能。由于十万数量级的中文汉字若独立表示则不可能实现涂卡、写卡机读,只能人工手写后再由录入员将汉字键盘录入。而汉语拼字编码则象西文一样方便实现涂卡、写卡机读。它可广泛应用在大量报名、考试、调查、普查、各种填单等场合包括汉字的信息涂卡、写卡机读,极大提高信息处理效率和准确率。具有很大的市场空间。
G 极大提高了计算机处理中文时的安全可靠程度。系统不会因目前中文双字节或四字节不可拆分、不可错位、字节高位置“1”等系统汉化特殊手段造成中文乱码甚至导致系统死锁或系统崩溃的严重后果。
H 可方便在计算机及各类数字化设备(ASCII码集)和网络间进行汉字信息传输和控制。完全消除汉字乱码的困扰。
I 比使用表示汉字的两字节、四字节机内码更容易和可靠加密。军事、银行、交通、贸易等部门应有很好的应用空间。
J简单易学,学生学习汉语拼音时只需一堂课即可掌握汉语拼字与拼音的映射关系,可迅速进入盲打状态。使中文信息所见、所想、所打内容完全一致,实现了中文信息可高速盲打。
K 使中文汉字发音分解为汉字语音ASCⅡ 编码的前三位,这样可对每一位ASCII码进行特定程序运算加以确定。反之可用汉字语音ASCⅡ 编码的前三位合成该汉字的发音。在语音识别、同声翻译、人工智能、语音合成等方面具有发展前景。
五、汉字语音ASCⅡ 编码软件系统的设计、开发及实验系统测试、运行情况
目前汉字语音ASCⅡ 编码计算机汉字词输入软件编制已经完成(FOR WIN),转换软件以近完成。正在试用阶段。
六、汉字语音ASCⅡ 编码系统产业化途径研究
在2002年10月出版的信息科学与人文视野丛书中讲到:“中华传统文化应在新的时代发扬光大,并且在全球信息高速公路建设中起推动作用。我们有许多工作要做,其中有两件事是必须赶快做的:
第一,我们必须大力开发信息资源,积极地用自己开发的文化信息资源去逐步占领国内阵地并向国际扩展,将具有中华传统文化特色的社会主义新文化的信息资源送上国际网络,以吸引更多的人产生对东方文化的兴趣。
第二,要尽快突破中文信息处理技术,努力解决中文的文字计算机处理。中文信息处理技术的突破,对全球汉字文化圈20多亿人口具有异乎寻常的意义。世界上1/3的人进入全球信息网络,将会极大地促进人类文明的新发展。全球各个角落都被信息高速公路紧密地联系在一起,不同的文化相互融合,又相互竞争,就会使国际社会生活丰富多采,生机勃勃,人类也将由此萌发出巨大的创造力。
在第一次信息技术革命印刷术发明中作出过巨大的贡献的中华民族,必将在第二次信息技术革命信息高速公路建设中作出更大更多的贡献,并从而使中华传统文化大放异彩。展示中华民族智慧的空间正在以光的速度展开,高扬中华传统文化,造福于人类的又一次新机会已经到来。”
目前,项目的前期工作包括编码设计、专家论证、技术鉴定、软件编程、国家标准申请均已完成,其它应用产品也在设计完善中。下一步对项目在全国范围宣传推广等工作已经提上日程,为此寻求本项目宣传推广具有相当实力的合作发展平台。该平台应具有相当的资金实力和在全国的知名度和影响力,一旦项目宣传推广进程启动,汉字语音ASCⅡ 编码系统全新汉字表示模式,必将衍生出一系列的相关产品。如图书、字典、各类信息涂写卡片和自动读卡机、各类各种用途的软件等。将广泛应用于军事、银行、交通、外贸关系着国计民生的重要部门。可以说具有自主知识产权的汉字语音ASCⅡ 编码将面临着很大的市场需求。
当然,同时也存在相当艰巨的社会理解问题。创新就是改善旧有模式,必然会有阻力。几十年前在中文中引入标点符号时就受到顽固派的拼命抵制,说那个惊叹号有什么好?放大看像炮弹,缩小看像细菌!目前多数人还是将汉字语音ASCⅡ 编码系统视为传统的汉字编码输入方法的一种,没有真正意识到这种全新观念自主创新的汉语拼字中文中介系统将是中文信息处理技术的彻底创新。是社会文化发展进步与世界融合促进中华民族伟大复兴的的巨大推动力。虽然新华社等国内媒体也做了相关报道,但宣传推广力度显然不够,无法让全社会真正理解汉语拼字的理论内涵以致产生巨大反响和全民学习应用的高潮。
为此,全社会和政府相关职能部门的理解、支持至关重要。与赞同汉语拼字理念并且实力强大的公司合作将汉字语音ASCⅡ 编码系统这一自主创新项目发扬光大更好的服务社会至关重要。
中华民族的伟大复兴包括中华文化彻底摆脱井圈及江河文化的束缚,可无障碍走向全球信息网络、走向世界。民族兴旺,匹夫有责。让我们努力工作积极创新,迎接拼字文明时代的到来。《汉字语音ASCⅡ 编码系统》所描述的中介中文系统其自主知识产权创新项目必将在二十一世纪国家社会发展与进步伟大浪潮中发挥出璀璨的光芒。
七、项目进度计划(省略)
九、预期效益评估
该项目是IT业典型的高投入高回报高风险项目。在社会还没有真正意识到该项目的极具创新价值、极具经济信息全球一体化市场前景、极具社会文化教育发展进步动力的时候,一般在短时间内让人们完全接受还有一定困难。这就需要政府的大力支持,比较大的媒体宣传和推广。只要全社会理解它是使中国走向数字全球一体化的必由之路,那么该项目必将在全国各行各业快速普及并进入学校素质教育以适应数字社会发展的必然要求。
根据以上分析,此项目是非常有发展前景的,希望各方面能够给予资金上的支持。
有关应用的社会效益,汉字语音ASCⅡ 编码系统通过上面的叙述已经体现的淋漓尽致,这里不在累述,这一巨大的社会效益其实是汉字语音ASCⅡ 编码系统与投资者对社会的重要贡献。
十、结论与建议
汉字语音ASCⅡ 编码系统提高了计算机汉字应用的通用性(可在西文计算机操作系统和数据库中运算处理)、安全可靠性(纯ASC码字符),使目前在银行、交通、军事、航空、教育等计算机网络上出现的汉字机内码不兼容、不稳定、汉字乱码现象可以完全排除,为广大企事业单位在国际事务中处理实际问题,为人们工作生活日益国际化的需求提供了一个基础条件,也为加强中文与世界的融合提供了一个信息支点。
然而,这一具有重要意义的新技术虽然2000年就获国家专利,软件和《汉语拼字映射字典》撰稿工作已经完成,但推广必然艰难。主要是社会理解问题,多数人还是将它视为传统的汉字编码输入方法的一种,没有真正意识到这种全新观念的中文中介系统将是中文信息处理技术的彻底革新。”
专家和发明人共同建议:1、这一技术绝非简单的汉字输入法,因为技术路径的完全改变,必须站到战略高度来认识这一技术的重要性;2、应尽快将汉字语音ASCⅡ 编码系统纳入国家信息化发展战略,在国家政府职能部门的重视和支持下,在国家基础教育、军事、银行、交通、税务等部门尽快推广应用,发挥其应有的社会和经济效益。
汉字语音ASCⅡ 编码系统发展到现在,已经不单纯是一个技术解决方案,象活字印刷术极大促进当时社会发展进步一样,它的中文汉字拼字理论和实践涉及到中华文化创新发展进步和中华文化走向世界的问题。必定会成为实现中华民族伟大复兴的重要组成部分。自主创新迎接拼字文明时代到来。