我和汉字拼音化专家江毅关于汉字优劣的几个对帖
江毅:“我认为汉字拼音化是不可能的.因为汉字重音字太多,拼音化后读困难,不好辨识,要不断看上下文猜.而如果采取同音多形的方法解决这个问题,就必然造成文字过长的问题.现在汉语拼音文章长度已经超过英文(统计意义上),再加长不可取.
其实汉语言的方块字并不是累赘,而是一块宝石.有分析指出,汉字的简练形式对人们思维快捷很有益处;汉字文本的浓炼性也是出名的好.
计算机时代使得汉字输入不再是大问题(仍有待进一步提高,当然).汉字的单音节特点使得汉字语音识别可以更可靠(这一点现在还未实现,假以时日吧).
其实还有更深层的东西人们还没认识到.比如汉语的成语现象.西方拼音文字是无法产生这种成分的.汉语中的缩略语也和拼音文字的字母缩略词大相迳庭.这一切都因为这个汉字特点: 一个汉字相当于拼音文字的小词,大于字母ABC.故此汉字组成的成语和缩略语实际是小词的组合而不是西文中相应缩略词的字母组合.这样的成语和缩略语的表达能力是惊人的美妙.
这样的汉语的独特成分使得人们能引经据典地实行高抽象思维.美哉!
汉语原先有个缺点,就是最小单位是字(小词).这个最小单位大了点.不适用于现代科学公式推导.
现在引入了汉语拼音和阿拉伯数字后,这个问题也不存在了.
总之,只要中华文明还延续,汉语+汉语拼音会长存不息的.
江毅
汉王简中文软件作者
Han WJ . com
庄冬:“本来只想回你几句话。结果写长了。
你是专家。我只是跟你说一点自己的观察。这是我从为什么中国人需要大声说话想到的。
你说“现在汉语拼音文章长度已经超过英文(统计意义上),再加长不可取”。
也有人指出拼音语言是像声,因而是一维文字。中文是像形,因而是二维文字。把二维文字当一维写当然是要长了。
可以说“一个汉字相当于拼音文字的小词,大于字母ABC.故此汉字组成的成语和缩略语实际是小词的组合而不是西文中相应缩略词的字母组合”。所以造成了汉语数字化的门坎儿比较拼音文字高的事实。这其实只是个技术问题。
至于“汉语原先有个缺点,就是最小单位是字(小词)。这个最小单位大了点。不适用于现代科学公式推导。”也是针对目前科学来说的。人类科学也就几百或几千年的历史,只是刚刚开头。几千,都别说几万年以后是什么样子谁知道呢?因此不能以今天(其实是昨天)拼音语言的优势来判断中文或试图将中文拼音化。
“汉字的单音节特点使得汉字语音识别可以更可靠”的一方面。但是也正因为如此,每一个音节的价值和准确的识别就至关重要了。因此,为了保证汉语交流的可靠性,使用汉语的人就必须将每一个音节都准确无误地传出去,从而导致几乎是必须大声说话的现象。
文字是通过视觉(盲人是触觉)达到交流的目的的工具。拼音语言文字在直接联系发音上有优越性。由于声音是一维的信息,拼音文字的一维的本性就决定了。但是视觉(即便减去声音也)是一个多维(现在时髦叫multi media)的功能,至少写字用的纸就是二维空间。像形文字就是利用了视觉(处理信息的多维能力)超过拼音文字只是利用了听觉(处理信息的一维能力)的特点的结果,因此比拼音文字优越。
语言包括说的和写的两部分。要比较两个语言先比较说的这部分容易一些。因为不管什么人说什么语言,声音是一样的,虽然同样的声音在不同的语言中的含义是不同的。比如说中文和英文吧,虽然中文和英文都有对方没有的音,这两个语言用的的音的数量基本相同。当然,中文有四声,可英文也有重音。基本上可以说中英文(从整个语言上来说)用的音的数量基本相同。
但是,由于中英文对它们使用的音节的方法(也就是排列组合)的不同,它们在说的这部分的使用上的效果或效率则是不同的。一个似乎很明显的现象是我以为用中文说话交流同样信息的时候往往使用的音节的数量比较少,往往中文几个音节就可以说清楚的事情英文要用的音节就多一些。比如,“翻译”两个音节,而“translation”至少四个音节。
日语用的音节比较少。打个比方,那日语简直就是一个语言上的二近制。你得用一群0和1才能把个三位数说清楚。看过Lost in Translation电影的人们一定会同意的。
当然啦,用的音节多或少也无所谓坏与好。只是用的音节少了,每一个音节的份量或在交流信息时的价值就大了。因此,我们中国人说话的时候就有必要对每一个音节大安全到达听者的耳朵里比别人做出比较大一些的努力。所以泥,我们中国人说话的时候声音就大一些。就这么简单,也无所谓好与坏或美与丑。
我们中国人在初学英的时候会试图发出每一个音。然后就是我们中国人在唱英文歌的时候会试图发出每一个音和往往会发现时间不够用。其实呢,这只是用多个音节的优越性。因为英文用的音节多,具体每一个音节的价值就相对小了,因此在说话时有些音节没说清或没听清还是能达到交流的目的的。他们说英语(或其他类似用多音节语言)的人说话的时候就有没有必要对每一个音节大安全到达听者的耳朵里比别人做出比较大一些的努力。所以泥,他们说话的时候声音就可以低一些。就这么简单,也无所谓好与坏或美与丑。
中国人说话的时候声音大让一些同胞不好意思这似乎是使用的音节的数量比较少的尴尬例子。那么,中文说话交流同样信息的时候往往使用的音节的数量比较少这个事实有什么好处吗?
当然有啦,我给大家举一(类)例子。我在老美的NASA干过几年,控制和发射过卫星。在紧急情况时间宝贵的时候用英文可是慢啊。这一点人家老美也早就意识到啦,还设计了一些用来省时间的专用短语泥。我估计打仗时或救人时还是少用几个音节的好。
我说了这一通跟你的汉字拼音化有什么关系呢?拼音是记录语言的一种方法。语言包括说的和写的两部分。写的那部分记录说的部分。当然,纯粹地看说的和写的两部分也可以说它们是平等的和几乎一一对应的。但是从语言的起源和发展来看,还是应该是说在写之前。
既然写没有声音大小的问题,中文在说的部分的效率或使用音节较少的优越性就应该没有使人尴尬的问题而是纯粹的优越性了。
虽然英语的拼音形式有优越性,但是随着计算机速度和存储的发展。中文的优越性已经开始显示出来了。
中英文在说的部分使用音节的数量的比较在书写部分则是完全相反的。由于英文和其他拼音文字用的字母系统大大简化了语言的书写对于普及文化和扫除文盲都非常有优越性,当然还包括拼音语言的数字化。
音节是语言中说的部分的基本分子。可语言中写的部分的基本分子是什么呢?对于拼音语言,我们也许可以说是那些字母。不管事实上究竟如何,反正在语言的数字化上来说似乎是这样的。这就使拼音语言成了书写上的26进制。而中文呢,由于其基本分子似乎纷乱和众多就不好说究竟中文是几进制了,而且应该似乎比26多一些。
由于中文是似乎比26多一些的进制,中文的数字化就要比英文困难的多。这也是多年来人们努力试图使中文拼音化的原因。有得必有失,虽然人们往往看不到他们失去的东西。英文的26进制在数字化初期的优越性已经随着计算机速度和存储的发展已经逐渐不再那么明显了。相对的,英文的26进制在数字化方面的缺点也已经开始显露出来了,比如英文字典的庞大。
其实,语言嘛,不管是说还是写,其目的是交流信息。打个比方就好比计算机的机器语言。但是由于种种原因,就像人们不用机器语言去编程序而是用各种各样的所谓高级语言去编程序一样,人们用各种各样的语言去交流(虽然我们不知道人类是否有一个相同的“机器语言”,为了讨论方便起见不妨假设它的存在性)。假设人类的相同的“机器语言”的存在,其实也可以理解成人体内部神经细胞交流的方式,或是电磁的或是化学的方式。假设人体内部神经细胞交流的方式,或是电磁的或是化学的方式,是人人都基本上一样的应该不是什么太过分的事情。
这样一来,人类日常使用的语言就好比人们编程序用的所谓高级语言一样。人脑必须将这些语言“翻译”了以后才能应用。因为人脑要把人类日常使用的语言翻译成人类的相同的“机器语言”,这时人脑就需要一个从人类日常使用的语言到人类的相同的“机器语言”的“字典”。
有了人类的相同的“机器语言”这个基础和我们必须将这些人类日常使用的语言“翻译”了以后才能应用,相对某个语言到人类的相同的“机器语言”的“字典”的优越性才是那个语言的真正的优越性。
这个地方,中文就比英文优越。为什么呢?因为英文是26进制而中文比较起来是个比26多的进制。如果把我们需要表达的事情的集合看成是所有整数的话,用26进制的英文来描写这些整数的字典就一定要比用比26多的进制的中文来描写这些整数的字典大得多!
而且事实也正是如此:英文字典天天在膨胀,而相对说来中文字典从康熙大词典到今天有变化也不多!
拼音语言的长处在于它的文字是基本记录说话的声音同时又是短处。
拼音语言的文字是记录说话的声音,因此拼音文字没有利用文字是为眼睛(盲人就是触摸)设计的这个事实。因此,拼音语言的看或读或写跟说基本上没有本质的区别。所以,拼音语言是像声语言。
中文是像形语言就利用了文字是为眼睛(盲人就是触摸)设计的这个事实。由于文字可以是被看见或触摸着或就是被看见或触摸着为目的设计的,所以它的使用的性质就使它不必操心耳朵听所不能区分的东西。这个事实在中文的具体体现就是中文里同音字和词的众多。虽然英文也有少量同音词,但是比较中文就少了。
由于拼音语言是以声音为基础的,因为发声的基本单位有限(因而这也是拼音语言用的字母的发音都很类似的原因)制造一个拼音语言的阅读机器和数字化就比较容易。
由于中文是以形象为基础的,因为形象的基本单位太多(因而这也是像形语言用很多的同音字和词的原因)制造一个中文的阅读机器和数字化就比较困难。
由于是机器,其实这个困难只体现在制造这种机器的初级阶段,也就是初级的技术只能处理数量比较少的基本单位的像声语言。一旦技术发展了,也就是技术发展到能够处理数量比较大的基本单位的像形语言了,中文的阅读机器也就可以制造了。知道一点人工智能的人们都知道这只是存储量和处理速度的技术问题。大家又都知道,以发声的基本单位为基础制造出来的阅读机器的声音是早期科幻电影里的机器人的声音。要制造比较好也就是比较接近人说话的机器人就不能完全以发声的基本单位为基础。当然另一个极端的做法就是把所有字的发音储存起来。这个极端的做法对中文来说就不是那么极端,因为中文的字的数量相比英文词的数量不太大。而对英文来说把所有词的发音储存起来就比较极端了。还由于英文像声或叫拼音的本性,它必然要产生新词。因此这个英文的所有词的发音储存还不断地需要更新。这就又回到了前面字典的问题上了。
总之,我们中国人的祖先成千上万年祖祖辈辈为我们通过他们的实践筛选或叫被时间的大浪淘洗出来的中文在很多意义或方面是比拼音语言有着很多我们还没有意识到的优越性(或叫有技术含量或技术含量比较高)的。相比之下拼音语言就基本上没有技术含量或技术含量比较低,虽然拼音语言数字化的门坎儿比较低。但是一旦技术发展了,拼音语言数字化的门坎儿比较低的这个优势就不仅仅是优势而是劣势啦。
有一得就必有一失,开始时占了容易或门坎儿低的便宜后来就要付出代价。这代价就是像声语言命里住定的地位就是为像形语言铺路做奴隶和最终消失。
汉语的某种学习和使用上的技术性的困难对人们智力的锻炼和发展还有抽象思维我就不在这里讨论了。汉语里的成语其实是智慧的结晶。这种智慧的结晶不仅仅是语言方面的还是文明层次上的。可以打个比方说汉语里的成语就好比数学里的公式和定理或物理学里的定律是智慧的结晶一样。
所以,搞中文的拼音化其实就是去迁就拼音语言的低门坎儿,是非常鼠目寸光和自废武功的,就更不用说不仅仅是徒劳无益的还是有害的好在我们中国人的祖先早已为中文注有免疫力啦。
江毅:“我觉得你的关于大声说话的推理是有道理的,谢谢!
庄冬:“我的人体内部反应和计算机机器语言的比喻更有道理。因为人的生物学相同。
所有语言的目的都是一样的:造成人体产生内部发生某种反应最后得到设想的结果。
因为人体的工作原理比较计算机复杂,而我们清楚计算机是怎么工作的。所以,分析一下我们已知的人工智能的模型是有益的。
命令是最简单的通讯类型。比如说一个指令“起立”。不管你用什么语言发出,也不管是以声音的方式还是视觉(书写)方式,明白那个语言的人在听到指令“起立”后造成人体产生内部发生某种反应最后得到设想的结果应该是一样的。因为不管你懂什么语言,人类的生物学(也就是人体内部的工作原理)应该是一样的。
在最简单的通讯类型,也就是指令这里,不同语言的优劣很可能不明显。
但是在复杂的通讯里就会有区别啦。有的语言很可能就不能做某种事情或做的不如另一种做的好一些。体现这一点的例子在计算机的程序语言里的很多。
再比如讲故事也是比较简单的通讯模式。同一个故事用不同的语言讲或写出来,相应的懂那个语言的人听或读了以后的反应应该是有所不同的。因为虽然故事是同一个,但是把它转化成语言的过程其实就是一个翻译过程。听或读故事的过程就是又翻译成人类作为生物的人体内部统一的电磁或化学语言。那个语言能使人产生身临其境的感觉的就应该是讲故事效率比较高的语言。
当然,通讯的内容可以是各种各样的,如:准确的如命令或指令、模糊的如故事或信息(包括事实、感情和思想等等)。不同的语言都会有不同的实际应用效果的。
江毅:“很有见解.值得思考.特别是关于为什么汉语导致大声说话的思辩非常新颖,想想也似乎有道理.
庄冬:“你是专家。我是业余聊天玩的。其实你的帖里也说了“汉字的单音节特点使得汉字语音识别可以更可靠”的一方面。但是也正因为如此,每一个音节的价值和准确的识别就至关重要了。因此,为了保证汉语交流的可靠性,使用汉语的人就必须将每一个音节都准确无误地传出去,从而导致几乎是必须大声说话的现象。
文字是通过视觉(盲人是触觉)达到交流的目的的工具。拼音语言文字在直接联系发音上有优越性。由于声音是一维的信息,拼音文字的一维的本性就决定了。但是视觉(即便减去声音也)是一个多维(现在时髦叫multi media)的功能,至少写字用的纸就是二维空间。像形文字就是利用了视觉(处理信息的多维能力)超过拼音文字只是利用了听觉(处理信息的一维能力)的特点的结果,因此像形文字比拼音文字优越。视觉可以处理同音字就是利用了视觉比听觉的特殊性。
拼音文字扫盲门坎儿也低。教一个母语说英语的成人阅读报纸只需要几个星期的时间。教一个母语说汉语的成人阅读报纸却需要几年的时间。