日 志
第四届"中国发明家论坛"发言稿(请会员提意见)
《汉语拼字方案》
一、项目概述
中华民族的伟大复兴显然是一个全球概念,他的参照物不应当是自己。这个伟大复兴需要有先进的经济体系和先进的文化体系作支撑。只有先进的文化体系支撑的智慧中国才能融入智慧的地球。只有代表中国信息最基本载体的中文可以实现精确准确量化才能使文化体系可量化可无障碍进入全球信息一体化体系。
我国古代四大发明之一的活字印刷术是将最小可操作单元的页面雕版拆分为最小可操作单元为汉字本身。由于可操作单元的变小极大改善了工作的灵活性和简单化,从而极大地促进了当时的社会发展和进步。然而信息社会发展到今天,汉字本身作为中文信息处理的最小可操作单元已经不能适应现代信息化社会发展的需要。汉字本身的可数字量化拆分组合已势在必行。首先,从中文的准确、精确、有序、规范表述方面急待提高。汉语拼字理论是将汉字本身进行了数字量化拆分组合,拼成不同的汉字、词。它是对“汉语拼音方案”的优化和完善,是从拼音走向拼字、从模拟走向数字、从粗旷走向精密的必然发展过程。它可直接识别的汉字子功能独立ASCII码字符纳入可运算的字符坐标系就是为中华文化走向世界、中华民族伟大复兴做出了一件基础性工作。
例: 汉 HBTB 漢 HBTC
其中: H(h 声母) B(an 韵母) T(第四声) B(同声调序)
计算机数值运算 简体字+1=该字的繁体字(便于计算机运算转换)
WU-HB-SI CC-JL DA-QM. <<==>>(武汉市长江大桥。)
WU-HB SI-ZC JLA-DA-QM.<<==>>(武汉市长江大桥。)
他是我们的好榜样。 <<==>> T'S W-M'D H BC-YC.
每个汉字使用四位大写字母唯一可相关识别表示,与目前汉字输入法不同的是既可见字识码,也可见码识字互逆。随计算机汉字输入进入计算机存储器参与数值及逻辑运算。当计算机屏幕显示和打印时自动转换为目前使用的国标机内码显示打印汉字字型(与目前使用的计算机用于汉字打字机一样)。同时安排了常用字一位(声族)、二位(声韵族)、三位(声韵调族)简码(机器自动对应其四位全码参与运算)和简码词,方便使用。这样就将不确定的中文断字断词、多音字、后缀字等进行了一一对应的唯一精确表达。
《汉语拼字方案》编码规则:
行、列、纵、序四位西文大写字母表示每个汉字:
其中行为声母。使用23个西文大写字母表示,无声母将第一字符作为行来表示,字母IVU作为特殊用途。对应关系如下:
A:a B:b C:c,ch D:d E:e F:f G:g H:h J:j K:k L:l M:m N:n O:o P:p Q:q R:r S:s,sh T:t W:w X:x Y:y Z:z,zh
其中列为韵母。使用26个西文大写字母表示,对应关系如下:
A:a B:an C:ang D:ao E:e F:ei G:en H:eng I:i J:ia,ua K:ian L:iang,uang M:iao N:ie,uai O:o,er P:in Q:ing R:iong,ong S:iu T:ou U:u,u V:uan W:ue,ui X:un Y:uo Z:ai
其中纵为四声。使用26个西文大写字母表示,对应关系如下:
ABC DEF顺序表示阴平(一声)声调,GHI JKL顺序表示阳平(二声)声调,MNO PQRS顺序表示上声(三声)声调,TUV WXYZ顺序表示去声(四声)声调,其中轻声归入S。行、列、纵三位确定为特定该声调字。声母为ch,sh,zh及韵母u使用D,J,P,W开始的后部声调字母。其中序为该声调顺序码。词用“-”符连接。特殊词可用特殊符号连接。后缀字加“’”符连接。
西文字母可拼成英文、法文也一样可以拼成汉字,因为汉字集同西文单词集是等量的,与其使用两字节四字节绑在一起独立唯一表示(不可运算的无序码)不如使用具有各位独立功能可运算可直接识别的ASCII序列字符中文在计算机内表示更具优势,只在计算机显示、打印环节使用现机内码,因为这样可方便的将中文和汉字的组成功能进行数学运算、精确的语义理解和控制。
二、《汉语拼字方案》的社会需求
现代信息社会发展要求信息的精确、准确和规范。在我国中文是信息的最基本载体,中文的精确表达至关重要,《汉语拼字方案》所描述的中介中文系统对中文的精确表达起到重要的支撑作用。
A.《汉语拼字方案》具有中文断字断词功能:
例如:他是我们的好榜样。 T'S W-M'D H BC-YC.
这样的人才是我们需要的。 ZE-YC’D R CZG-S W-M XU-YD’D.
ZE-YC’D R-CZG’S W-M XU-YD’D.
B. 《汉语拼字方案》具有中文多音字分别独立表示功能:
例如:武汉市长江大桥。WU-HB-SI CC-JL DA-QM.
WU-HB SI-ZC JLA-DA-QM.
还欠人民币200万元。 HVGB QKT RG-MP-BI 200 WB-YV.
HZG QKT RG-MP-BI 200 WB-YV.
C.《汉语拼字方案》具有中文词和后缀字区别表示功能:
例如:非常规定制造型。 FFA’CC-GW DQ-ZIWK ZD-XQ.
大家 DA-JJ 大家DA’JJAS
我现在北京。 W XK’ZZ BF-JQ.
我现在吃饭。 W XK-ZZ CI-FB.
D.《汉语拼字方案》具有汉字音素分解并各自独立表示及运算功能:
例如:床前明月光, CLJA QKGI MQGB YWTA GLAA,
疑是地上霜。 YIIP SIXD DITB SCWB SLDD.
其中的光和霜字拼字编码的第二位和第三位必须一致才能表明是押韵的。这也清楚表明拼字方案中中文汉字分拆后的各个字母(ASCII)在自己相应位置有着各自独立的功能和作用,并且可以对自己相应位置各自独立的功能和作用在不同程序的控制下加以字符型运算,判断、修改、置换、统计各自独立的功能和作用。就像英文字典可对单词中每个组成字母程序自动运算排序一样。
E.《汉语拼字方案》具有汉字“文同音”功能:
成功实现了“文同音”。符合现代社会语音信息统一、标准交流发展的需要。由于汉字本身不具有发音属性导致全国识字不同音的现象,而汉语拼字编码则直观、完备的将对应汉字的发音(包括四声)可直观表达并锁定。“文同音”功能极大改善中文的学习、使用、扩展能力。同时也极大扩展了计算机处理中文的能力。
三、《汉语拼字方案》的技术需求
汉字与西文字词等量,但西文字词是用字母拼出来的,既然字母可以拼出英文、法文及汉语拼音同理也可以拼出汉字。各种各样的计算机汉字输入法也证明了汉字需要拆分拼成。《汉语拼字方案》是将汉字词编码与GB18030字库汉字标准编码相对应,使用与汉字发音相关对应的4位大写标准键盘西文字符惟一对应每个汉字,根据汉字标准字典的音、调、序顺序排列,同时,具备简化字和编词规则,它将汉字的发音属性进行数字量化合成,像汉语拼音一样具有字码相关性,并在汉语拼音的基础上进行了优化处理,使其拼到字。这样,就形成了具有可识别性,并包括汉字发音属性中声母、韵母、声调及序的ASCII码数字量化完备的中介中文系统。该编码符合惟一性,可认读性,完全字母、字符化标准。并可做到见字识码,见码识字的互逆,可做为汉字编码直接盲打输入中文、实现机器中文存储运算和网络传输。因为不需要对机器操作系统进行中文汉化,所以可以在各类ASCII码数字设备上实现中文编程、控制及应用系统。必要时,只需在计算机中运行一个外挂智能屏幕汉字显示和打印转换程序即可,并可达到目前计算机显示、打印汉字的打字机的全部功能。这种中文字母字符惟一相关的表示方法,可使中文计算机输入码和存储传输码完全统一,真正意义上实现计算机的汉字数字化。使中文信息无障碍地进出英文计算机操作系统,并参与字符型运算,极大地提高了计算机处理中文的安全性、可靠性,而不受操作系统和数据库管理系统的制约,并且降低了系统开销,提高了工作效率。为中文计算机及各类数字化设备、手机短信识别中文命令动作控制及即将建立的全球网络银行、全球电子商务、电子政务和现代信息化战争创造了ASCII码化的中文可运算、控制平台。
A.在计算机汉字输入环节:
1.目前全部汉字计算机输入法首先需要将汉字进行拆分,并且将拆分后的部件一一对应到西文键盘的各个字母键分别键入将汉字输入到计算机。这个过程也极为生动的表明由于汉字所包含的内容太多,必然需要进行拆分。
2.然而到目前为止全部汉字计算机输入法只能做到见字识码,而不能做到见码识字。也就是说只能汉字拆分而不能还原组合。更进一步说明目前的汉字输入法只是停留在技术层面的汉字代码而不是可替代中文使用的属于知识层面的汉字代码。
3.目前存在的汉字计算机输入模式不能保证将精确的原始中文语意完整精确的保留在计算机中。这样将导致因原始数据不准确产生的计算机数据处理结果的不可能准确。
B.在计算机汉字存储环节:
1.虽然将汉字拆分后输入到计算机中,但是在计算机汉字存储环节还是将汉字作为独立单元两字节或四字节不可拆分、不可错位无序码方式存储。也就是按照国标两字节、四字节独立表示。它不可避免地将计算机中文输入完整的中文断字、断词信息;汉字多音字分别表示信息;中文词和后缀字信息中断掉了。
2.计算机可寻址、存储的最小信息单元是字节。也就是说计算机处理的是字节流。而中文汉字的最小可处理单元是捆绑在一起的两字节和四字节整体。形象说就像高速公路跑汽车,人家是一辆一辆单独跑而我们是两辆或四辆绑在一起跑。就像有一扇门锁要打开,人家26把钥匙肯定将门锁打开而我们是把全部汉字集单元拿来才能把门打开。烦琐程度可想而知。
3.以上说明在计算机中汉字信息是被处理对象。汉字机内码是整体无序码,不能拆分单元处理。这将极大限制了计算机对中文信息的分析、运算、处理等操作。同时计算机操作系统必须汉化改造才能表达中文。
4.在中文存储、传输、运算、控制环节使用《汉语拼字方案》码,而显示、排版、打印环节使用镜象汉字机内码是非常好的方式。
5.在多字节存储环节会出现乱码问题,中文信息安全无法保证。
四、《汉语拼字方案》的重要特点
A.将中文汉字按发音属性声母、韵母、声调及序对应西文字母组合。B.成功实现了“文同音”。符合现代社会语音信息统一、标准交流发展的需要。由于汉字本身不具有发音属性导致全国识字不同音的现象,而汉语拼字编码则直观、完备的将对应汉字的发音(包括四声)锁定。 C.使用汉语拼字编码输入存储时,可象汉语拼音一样将字、词断好,不会出现目前汉字、词连续挤在一起计算机无法判断的情况。D.将多音字分别表示,提高了中文表达的准确性和精确度。E.使汉字由各个发音属性的字母组成,实现了汉字的数字量化,可参与字符型运算。F.使中文信息实现涂卡、写卡机读,为中文信息自动输入处理提供可能。 G.极大提高了计算机处理中文时的安全可靠程度。系统不会因目前中文双字节或四字节不可拆分、不可错位、字节高位置“1”等系统汉化特殊手段造成中文乱码甚至导致系统死锁或系统崩溃的严重后果。H.可方便在计算机及各类数字化设备(ASCII码集)和网络间进行汉字信息传输和控制。I.比使用表示汉字的两字节、四字节机内码更容易和可靠加密。军事、银行、交通、贸易等部门应有很好的应用空间。J.简单易学,学生学习汉语拼音时只需一堂课即可掌握汉语拼字与拼音的映射关系,可迅速进入盲打状态。K.它的可计算机运算精确化中文表示模式可广泛应用于中文文章语意理解、量化分析、语意可直接控制系统等方面,例如中文语意精确检索、翻译、中文文章计算机自动判分、手机短信控制等等。
《汉语拼字方案》发展到现在,已经不单纯是一个技术解决方案,象活字印刷术极大促进当时社会发展进步一样,它的中文汉字拼字理论和实践涉及到中华文化创新发展进步和中华文化走向世界的问题。必定会成为实现中华民族伟大复兴的重要组成部分。自主创新迎接拼字文明时代到来。
专利发明人:史颖,男,高级工程师,毕业于北京大学计算机科学技术系计算机专业,任职于内蒙古经济信息中心,长期从事计算机信息处理工作。曾直接参与国家人口普查、工业普查等国家级项目的软件编程、系统维护工作。主持开发的“蒙文计算机信息处理系统”获内蒙古科学技术奖。曾公派访问学者赴捷克技术大学学习。2001年起在北京中关村创业大厦研制开发《汉语拼字方案》,并获国家发明专利。
发明名称:字词音素可运算功能编码的计算机汉字词存储输入方法
专利号:zl200710000310.3 国际申请号:PCT/CN2007/000134
联系人:史颖 联系电话:13611375382
E-mail: shiying53@sohu.com
|