[战略研究网首页]   [博客首页]    
史颖的博客

http://www.casted.org.cn/blog/?uid=2034

个人档案

史颖
内蒙古经济信息中心

公告栏 登陆博客 栏目分类 全部日志 最新评论 博主评论 博主好友 博主收藏 博客成员 最近来访 论坛资料 统计数据
创建时间: 2010-01-18
最后更新时间: 2010-12-26
日志总数: 5
总点击量: 46018

 

 

日  志

对《汉语拼字方案》的解释三

作者:   分类:综合发展研究     浏览:3484次   回复:0次  
发表时间:2010-02-27 15:56:23

从计算机编码到计算机汉字输入:
    [计算机中的每个字符均按某种规则,用一组二进制编码表示,而目前使用最普遍的就是美国标准
信息交换码(简称ASCII码,american standard code for information interchange),EBCDIC码(extended binary coded decimal interchange code)和对汉字进行编码的GB-2312,18030国标码。
ASCII码:美国(国家)信息交换标准(代)码,一种使用7个或8个二进制位进行编码的方案,最多可以给
256个字符(包括字母、数字、标点符号、控制字符及其他符号)分配(或指定)数值。ASCII码于1968年提出,用于在不同计算机硬件和软件系统中实现数据传输标准化,在大多数的小型机和全部的个人计算机都使用此码。ASCII码划分为两个集合:128个字符的标准ASCII码和附加的128个字符的扩充和ASCII码。 BCDIC码,是扩充的二十进制交换码(Extended Binary-Coded Decimal Interchange Code)的简称,也是一种在计算机上采用的字符编码体系。EBCDIC码采用8位二进制编码,共有256个编码状态。目前世界上只有美国IBM公司的系列机和日本富士通公司的M系列机采用EBCDIC码。
与西方文字不同,西方文字是拼音文字,仅用为数不多的字母和其他符号即可拼组成大量的单词、句
子,这与计算机可以接受的信息形态和特点基本一致,所以处理起来比较容易。例如,对英文字符的处理,7位ASCII码字符集中的字符即可满足使用需求,且英文字符在计算机上的输入及输出也非常简单,因此,英文字符的输入、存储、内部处理和输出都可以只用同一个编码(如ASCII码)。而汉字是一种象形文字,字数极多(现代汉字中仅常用字就有六、七千个,总字数高达5万个以上),且字形复杂,每一个汉字都有"音、形、义"三要素,同音字、异体字也很多,这些都给汉字的的计算机处理带来了很大的困难。要在计算机中处理汉字,必须解决以下几个问题:首先是汉字的输入,即如何把结构复杂的方块汉字输入到计算机中去,这是汉字处理的关键;其次,汉字在计算机内如何表示和存储?如何与西文兼容?最后,如何将汉字的处理结果从计算机内输出?
  为此,必须将汉字代码化,即对汉字进行编码。对应于上述汉字处理过程中的输入、内部处理及
输出这三个主要环节,每一个汉字的编码都包括输入码、交换码、内部码和字形码。在计算机的汉字信息处理系统中,处理汉字时要进行如下的代码转换:输入码→交换码→内部码→字形码。以上简述了对汉字进行计算机处理的基本思想和过程,下面具体介绍汉字的四种编码。
  (一)输入码
  为了利用计算机上现有的标准西文键盘来输入汉字,必须为汉字设计输入编码。输入码也称为外
码。目前,已申请专利的汉字输入编码方案有六、七百种之多,而且还不断有新的输入方法问世,以致于有"万码奔腾"之喻。按照不同的设计思想,可把这些数量众多的输入码归纳为四大类:数字编码、拼音码、字形码和音形码。其中,目前应用最广泛的是拼音码和字形码。
  数字编码:数字编码是用等长的数字串为汉字逐一编号,以这个编号作为汉字的输入码。例如,
区位码、电报码等都属于数字编码。此种编码的编码规则简单,易于和汉字的内部码转换,但难于记忆,仅适于某些特定部门。
  拼音码:拼音码是以汉字的读音为基础的输入办法。拼音码使用方法简单,一学就会,易于推广
,缺点是重码率较高(因汉字同音字多),在输入时常要进行屏幕选字,对输入速度有影响。拼音码是按照汉语拼音编码输入,因此在输入汉字时,要求读音标准,不能使用方言。拼音码特别适合于对输入速度要求不是太高的非专业录入人员。
  字形码:字形码是以汉字的字形结构为基础的输入编码。在微型机上广为使用的五笔字型码(王
码)是字形码的典型代表。五笔字型码的主要特点为输入速度快,目前最新记录为每分钟输入293个汉字(该记录为兰州军区一女兵所保持),如此高的输入速度已达到人眼扫描的极限。但这种输入方法因要记忆字根、练习拆字,前期学习花费的时间较多。此外,有极少数的汉字拆分困难,给出的编码与汉字的书写习惯不一致。
  音形码:音形码是兼顾汉字的读音和字形的输入编码。目前使用较多的音形码是自然码。
  (二)交换码
  交换码用于汉字外码和内部码的交换。我国于1981年颁行的《信息交换用汉字编码字符集·基本
集》(代号为GB2312-80)是交换码的国家标准,所以交换码也称为国标码。国标码是双字节代码,即有两个字节为一个汉字编码。每个字节的最高位为"0"。国际GB2312-80收入常用汉字6763个(其中一级汉字3755个,二级汉字3008个),其他字母及图形符号682个,总计7445个字符。将这7445个字符按94行×94列排列在一起,组成GB2312-80字符集编码表,表中的每一个汉字都对应于唯一的行号(称为区号)和列号(称为位号),根据区位号确定汉字的国标码值,分别用两个字节存放。
  由于篇幅所限,未列出GB2312-80字符编码表,但可参看有关书籍。
  (三)内部码
  内部码是汉字在计算机内的基本表示形式,是计算机对汉字进行识别、存储、处理和传输所用的
编码。内部码也是双字节编码,将国标码两个字节的最位都置为"1",即转换成汉字的内部码。计算机信息处理系统就是根据字符编码的最高位是"1"还是"0"来区分汉字字符和ASCII码字符。
  (四)字形码
  字形码是表示汉字字形信息(汉字的结构、形状、笔划等)的编码,用来实现计算机对汉字的输
出(显示、打印)。由于汉字是方块字,因此字形码最常用的表示方式是点阵形式,有16×16点阵、24×24点阵、48×48点阵等等。例如,16×16点阵的含义为:有256(16×16=256)个点来表示一个汉字的字形信息。每个点有"亮"或"灭"两种状态,用一个二进制们的"1"或"0"来对应表示。因此,存储一个16×16点阵的汉字需要256个二进制位,共32个字节。 而你输入的字符,就是直接使用了上述的编码。]

    到目前为止(不包括《汉语拼字方案》)计算机汉字输入法具有以下共性:
A、汉字输入码与机内码(内部码)不一致。输入码是ASCII单字符序列(利用国际标准键盘键入); 
机内码是独立双字节或独立四字节整体表示(不可单字节拆分错位)。(可见汉字拆分的必要性)
B、汉字机内码没有直接识别和运算功能。
C、可见字识码但不能见码识字,不可互逆表示。
  例如:使用形码见字后取其左上、左下、右下三点将该汉字唯一选中,但只给出这三点却不能确定
返回该字;使用音码见字“识”可键入(shi)后向下翻第七页选第七个字,但只给出(shi)是不能  确定是“识”字。
D、多音字、断字断词、后缀字无法区分。
  例如:使用音码键入“武汉市长江海涛病了,急需送医院输液。”在音频软件输出时并不是原意。(可进入讯飞公司网页或IBM音频软件体会)
  这就是说,汉字输入正确的信息在键盘环节就被中断了,当然在信息高速处理的今天是非常可怕的.
 
《汉语拼字方案》(见解释二)是将编码直接键入计算机内存参与程序处理(DEBUG内存为直接原样输
入进去的可识别汉语拼字码)。只在显示打印环节一一对应为目前使用的机内码(与目前使用的计算机汉字打字机没有任何不同)。这样就可实现中文计算机处理的精确、准确、有序、数字化(ASCII码),使中文无障碍的走向世界。[希望国家领导人能看懂并支持]