纯拉丁化汉语拼音文字方案 第1节 简介 这个拼音文字方案是一个试图只用26个英文字母,不用声调符号,不用带帽字母来拼写汉语中文的汉字(词素),汉词以及句子文章的文字方案,因此是一种纯拉丁化拼音文字方案。这个方案是一种采用一维线性书写形式的拼写式拼音拼意文字方案,是一种能够拼写出传统方块汉字的声,韵,调,意四种信息的方案。这个方案是一种能够拼写出所有传统方块汉字,并且可以与传统方块汉字一一对应的方案。这个方案也是一种采用了分词连写方式,以字组词,字词双本位的方案。 这个方案试图只用26个英文字母来拼写汉语拼音文字,用异拼来区分声调和独体字,用意符来区分形声字。 第2节 拼音的修改 既然是一个纯拉方案,就必须对原汉语拼音方案的戴帽字母和声调符号进行改造。最常用的办法,一个是用“v”代替“ü”,一个是用“eu”代替“ü”。考虑到“v”在中国方言中会作为声母出现,以后的拼音文字会吸收方言词汇,所以在我的方案里不使用“v”来代替“ü”。“eu” 在下文将要论述的异拼方法中是“ou”的异拼拼式,考虑到异拼拼式的一致性,也不使用“eu”来代替“ü”,而是采用了台湾的通用拼音的做法。 修改现行的汉语拼音方案,去掉不属于英文26个字母的韵母“ü”,改用“iu”来代替。同时,原来的“iu”用“iou”代替。 第3节 异拼 什么是异拼?用不同的字母组合代表相同的语音单位,这样一种手段叫做异拼手段,简称异拼。不同的字母组合叫做异拼拼式或者异拼拼形。相同的语音单位叫做异拼音素。如果异拼的语音单位比音节小,那么这样的异拼叫做狭义异拼;否则,叫做广义异拼。 异拼可以分两种。一种是仍然符合拼音原理的异拼,另一种是整体认读。符合拼音原理的异拼,它的字母组合所代表的语音单位的语音就等于组成它的各个字母的发音的组合。例如,“ung=u+ng=o+ng=ong”,“uen=u+en=u+n=un”,“ba=b+a=b+u+a=bua”等等。整体认读则不然,它的各个字母的发音的组合与这个字母组合所代表的语音单位的语音并不相同。例如“ee=i”,“oo=u”,“right=write”,“eye=i”等等。 按照定义,广义的异拼包括了意缀,变读和编码。为了区分开异拼与意缀,变读,编码的区别,在我的这个方案里,异拼仅仅指的是狭义异拼。实际上,我的方案只使用了韵母的异拼。 第4节 异拼的来源 2.1 汉语拼音方案 汉语拼音方案本身在当初定型的时候,就有一些不同的拼写形式。这些不同的拼写形式就可以成为我们拼音文字的合理的异拼。例如,“an, en, in, un”和“ang, eng, ing, ong”应该一一对应才是,对应“un”的应该是“ung”,可是在方案中却是“ong”。所以规定 “ung”和“ong”互为异拼是合理的。反过来,“on=un”也应该可以互为异拼。进一步推论,“oan=uan”, “uen=oen”等等似乎也可行。同时,因为“un”是“uen”的缩写,所以他们两个也应该能够看做互为异拼拼式。这样,我们可以得到两条异拼规则: 第1异拼规则: *o*=*u*: on=un, ung=ong, oan=uan, oai=uai, oei=uei, ui=oi, ... 第2异拼规则: *ien=*in; *ieng=*ing; *uen=*un; *ueng=*ung=*ong; *uei=*ui; 另外,似乎“au”和“eu”,比“ao”和“ou”更接近汉语的发音,所以他们也可以互为异拼拼式。 第3异拼规则: “au=ao”,“eu=ou=eo”。 2.2 通用拼音方案 台湾的通用拼音方案与大陆的汉语拼音方案非常类似,不同的的地方就可以成为我们异拼的来源。比如说,汉语拼音方案“翁=weng”,通用拼音方案则写作“翁=wong”;汉语拼音方案“风=feng”,通用拼音方案则写作“风=fong”;汉语拼音方案“女=nü”,通用拼音方案则写作“女=nyu”。这给我们两点提示。第1点,“fong=fung=fueng=feng”说明了在“f”和“eng”之间加入“u”,并不影响发音。第2点,“i”可以用“y”代替,“u”可以用“w”代替。由此,我们又可以得到两个异拼规则: 第4异拼规则: (b, p, m, f)+* = (b, p, m, f)+u+* = (b, p, m, f)+o+*: ben=bon=bun, feng=fong=fung, …, ba=bua=boa, pan=puan=poan,…; pian=piuan, min=miun=mien=mion, …(分别只能应用于b,p,m,f) 第5异拼规则: *y* = *i*, *w*=*u*: bye = bie, ly = li, dyan = dian, luan = lwan, ..., ay = ai; ey = ei; aw = au = ao; eu = ew = ou = ow; 2.3 介母的扩展 我们知道,“i”和“u”在音节当中有时候被叫做介母。在拼声音的时候,他们先与韵母相拼,形成介韵合母,然后再与声母相拼,就可以得到我们所要的声音了。例如,“duan=d+(u+an)”,“mian=m+(i+an)”等等。如果我们把这种声介韵三拼方式扩展运用到其他音节上去,并且拼出来的声音与声韵双拼方式拼出来的声音相同,或者非常接近,那么我们就可以把这种三拼字母串看做双拼字母串的异拼拼式。例如,“zhian = zh + (i + an) = zh + an = zhan”,“jian = j + (i + an) = j + an = jan”,“bua = b + (u + a) = b + a = ba”,“choan = ch + (o + an) = ch + (u + an) = chuan”等等。由此我们可以得到如下三个异拼规则: 第6异拼规则: ji*=j*: jie = je, jia = ja, qiang = qang, xing = xeng, …(分别只可应用于j, q, x) 第7异拼规则: zi*=z*: zian = zan, zin = zen, cin = cen, siang = sang, …(分别只可应用于z, c, s, zh, ch, sh, r) 又一次推导出第4异拼规则: (b, p, m, f)+* = (b, p, m, f)+u+* = (b, p, m, f)+o+*: ba = bua = boa, pan = puan = poan,…; ben = bon = bun, feng = fong = fung, pian = piuan, min = miun = mien = mion, …(分别只可应用于b,p,m,f) 如果我们把“e”和“o”也看做介母,那么我们就得到了另外两条异拼规则: 第8异拼规则: 声母+e+韵母 = 声母+韵母: zhean = zh+(e+an) = zh + an = zhan, dean= d+ (e+an) = d + an = dan, bein = b + (e + in) = b+ en = ben, … ain = a + in = an, aen = a + en = an; 第9异拼规则: 声母+o+韵母 = 声母+ue+韵母: ue = u + e = o = o + e = oe = u + o = uo, oen = o + en = un = uen = on, ... 如果我们允许两个介母同时存在,那么我们还能够扩展异拼规则。 第10异拼规则: 声母 + e + 介母 + 韵母 = 声母 + 介母 + 韵母; 声母 + 介母 + e+ 韵母 = 声母 + 介母 + 韵母; 声母 +i + u+ 韵母 = 声母 +ü + 韵母; 例如, diean = d+(i+(e+an))=dian deuan=d+(e+(u+an))=duan jiuan = j+(i+(u+an))= jüan = juan 2.4 英文的异拼 在英文中,“ee”和“ea”都是“i”的异拼,“oo”是“u”的异拼,我们可以借鉴这一作法。 第11异拼规则: ee = ea = i; oo = u; 为什么不用“ee”作为“e”的异拼, “ea”作为“a” , “oo”作为“o”的异拼呢?这是因为韵母“i”,“u”所在的音节同音字非常多,例如音节“fu”,“li”,“ji”,“qi”,“xi”,“zhi”,“shi”,“yu”,“wu”都拥有超过30个同音字,所以这两个韵母一定要分配足够多的异拼拼式才能应付使用。 2.5 国语罗马字方案 借鉴使用国语罗马字方案的双写元音字母的方法,来产生异拼。这里我们进一步扩展,不但元音字母可以双写,韵母中的辅音字母也可以双写。例如,shaan = shann = shan, yun = yuun = yunn, ...。 第12异拼规则: 双写元音字母或者辅音字母,不改变发音。 借鉴国语罗马字方案的表调方法,用附加字母“h”和“l”来作为音节的异拼拼式。但是在我的这个方案里,这条异拼规则只使用于“a”和“e”两个单元音,因为这两个单元音用其他方法产生的异拼拼式太少,不敷使用。 第13异拼规则: el=eh=e; al=ah=a; 2.6 其他 可能引起争论的一些不是非常合理的异拼。例如,比照“jian=jan”,“xiuan=xuan”,“zhian=zhan”,“shiuan=shuan”,规定“gian = gan”,“hiuang = huang”等等。 第14异拼规则: (g, k, h)+* = (g, k, h)+i+*: gie = ge, kan = kian, hiun = hun, giai = gai, kiao = kao, .... 第5节 异拼的总结和应用 根据上一节异拼的规则,我们就可以得到每一个韵母所有的异拼拼式。下面我把每一个韵母可能的异拼拼式尽量多的列举出来。 a = ae = aa =ah; ai = aii = aai = ay = aiy = aay; au = ao = aoo = auu = aao = aau = aw = aow = auw = aaw; an = aen = ann = aan =ain; ang = aeng = angg = aang = aing; e = el = he(ehh) = eh; ei = eii = eei = ey = eiy; eu = ou = eo = ouu = euu = oou = eeu = eeo = ow = ew = oow = eew; en = enn = een = ein; eng = engg = eeng = eing; ia = iae = iia = iaa = ya = iah = yia = yae = yah = yaa; iau = ieau = iao = ieao = iaoo = iauu = iaao = iaau = iaw = yao = yau = yaw = iaow = iauw = ieaw = yeao = yeau =yeaw = yaow = yauw = iaaw = yaao = yaoo = yaau = yauu = yaaw; ian = iean = iaen = iian = iann = iaan = yan = iain = yian = yean = yain = yaen = yaan = yann; iang = ieang = iaeng = iiang = iangg= iaang = yang = iaing = yiang = yeang = yaing = yaeng = yaang = yangg; ie = iel = iie = iee = ye = ieh = yie // = yer = yiie = yiee; ieu = iou = ieo = ioou = ieeu = ieeo = iow = iew = you = yeu = yeo = yow = yew // = yiou = yieu = yiow = yiew= ioow = ieew = yeeo; in = ien = iein = inn = iien = ienn = iin = ieen = yn = yin = yen = ynn // = yeen = yein = yenn = yien = yinn = yiin; ing = ieng = ieing = ingg =iieng = iengg = iing = ieeng = yng = ying = yeng = yngg //= yeeng = yeing = yengg = yieng = yingg = yiing; ua = oa = uoa = uua = ooa = uaa = oaa = wa = wua = woa = wae = waa // = uah = oah = wah; uai = ueai = euai = oai = uoai = ouai = oeai = eoai = uuai = uaii= ooai = oaii = uaai = oaai = wai = uay= oay = way = wuai = weai = woai = ueay= euay = uoay = ouay = oeay = eoay = wuay = weay = woay = waai = waii = uaay = oaay = uuay = ooay = waay; uan = uean = euan = oan = uoan = ouan = oean = eoan = uuan = ooan = uann = oann = uaan = oaan = wan = wuan = wean = woan = waan = wann; uang = ueang = euang = oang = uoang = ouang = oeang = eoang = uuang = ooang = uangg = oangg = uaang = oaang = wang = wuang = weang = woang = waang = wangg; o = ue = uo = uuo = uue = oe = uoe = wo = we = wuo = wue = woe; ui = uei = eui = oi = uoi = oui = oei = eoi = uui = ooi = uii = oii = wi = uy = oy = wy = wui = wei = woi = uiy = uey = uoy = ouy = euy = oiy = oey = eoy = wiy = wuy = wey = woy = wii; un = uen = eun = on = uon = oun = oen = eon = unn = onn = uun = oon = wn = wun = wen = won = wnn; ung = ueng = eung = ong = uong = oung = oeng = eong = ongg = ungg = oong = uung = wng = wong = wung = weng = wngg; i = yi = ee = yee = ii =yii = y = ea = iy = yea = yiy; u = wu = oo = woo = uu = wuu = w = uw = wuw; iu = yu = iiu = yiu = ioo = yoo = iuu = yuu = iw = yw = yiw = yuw = ywu = iiw // = yuoo = ywoo = ywuu; io = iue = iuo = ioe = yo = yue = yuo = yoe = ywe = ywo // = yuue = yuoe = ywuo = ywoe = ywue = yuuo; 从以上列表可以看出,异拼拼式的分布很不均匀。韵母“e”和“a”的异拼拼式最少,“ui”和“uai”的异拼拼式最多。一般来说,单韵母的异拼拼式比较少,复合韵母的异拼拼式比较多;不含介母的韵母异拼拼式比较少,含有介母的韵母异拼拼式比较多。 尽管存在这么多的异拼拼式,但是,除了第13异拼规则所产生的拼式属于整体认读之外,其他都仍然遵循拼音原理,拼式所代表的语音能够根据组成拼式的各个字母的发音拼读出来,不需要死记硬背。 我们已经发掘出如此多的异拼拼式,这些异拼拼式在拼音文字当中都能够起些什么作用呢?他们能够用来表调,用来区分同音字,用来表示独体字(非形声字),用来表示汉字的词性等等。在我的这个方案中,我只用他们来表调和区分最常用的同音字。在力所能及的情况下,也用来表示某些独体字(不是全部)。其他不常用的同音字则用意符来区分。 第6节 异拼表调规则 标示声调问题。声调是汉语语音中不可缺少的、有区别意义功能的组成部分。拼音文字的优势本来在于见形知音; 如果不标调, 就等于见形只知近似音, 而不知准确音。汉字学习起来困难, 但是当学会5000个左右汉字之后, 阅读的时候就能知道准确的读音, 只有少数多音字须要结合前后的字 (语境) 确定读音。不标调的汉语拼音文字必须整词死记它们的声调。其中几千个常用的熟悉的词, 如 renmin (人民)、guojia (国家)、xuexi (学习) 等, 记住这些词的声调也许问题不大, 但是对几万个 (三四万以上) 不常用不熟悉的词, 就得下功夫死记。例如, 要记住 gongchu 读 gongchu4 (公畜), gongding 读 gong3ding3 (拱顶), gongzhuo 读 gong4zhuo (供桌)。死记大量的词的声调要花费相当多的时间和精力, 这大大降低了拼音文字易学的优越性。如果不去死记, 许多词就得根据上下文确定准确读音, 这势必降低阅读的速度, 有时还确定不了读音。所以, 与标调的汉语拼音文字相比, 不标调的汉语拼音文字从形式上看比较简单, 从习得、辨认等方面看更复杂了。 首先,我们来对付非单韵母(复合韵母)。 4声(去声): 所有包含“y”或者“w”作为韵母的全部或者一部分的异拼拼式,都是4声。以 “ein”,”eing”,“ain”,”aing” 作为韵母的全部,而不是一部分的,都是4声。例如: ai: ay; ao: aw, aaw; an: ean, ain; ang: aing; ei: ey; ou: ew, ow; en: ein; eng: eing; ia: ya, yia; iao: yau, yaw, iaw; ian: yan, yian, iain; iang: yang, yiang; ie: ye, yie; iou: yeu, iew, you, yow, yew, iow; in: yn, yen, yin; ing: yeng, yng, ying; ua: wa, wua; uai: uay, wai, way, wuai, wuay; uan: wan, wuan, wain; uang; wang, wuang, woang, waing; ui: wi, uy, uei, uey, wei, wey, wui, wuy, uoy, woi, woy; un: wen, wun, won; ong: weng, wung, wong; ein, ain是4声,而 iein, iain, uein, uain 不是。 3声(上声): 所有不是4声,双写主要元音字母的异拼拼式都属于3声。例如, ai: aai; ao: aau, aao; an: aan; ang: aang, eaang ei: eei; ou: eeu; en: een, eein; eng: eeng ia: iaa; iao: iaau, iaao; ian: iaan; iang: iaang ie: iee; iou: iouu, ieuu; in: iin, ieen; ing: iing, ieeng ua: uaa, oaa; uai: uaai, oaai; uan: uaan, oaan; uang: uaang, oaang ui: uii; un: uun, ueen; ong: uung, oong, ueeng, uoong 如何确定主要元音字母: 主要元音字母是原汉语拼音方案的规定。原汉语拼音方案规定只能在主要元音字母上头添加声调符号,而不能在次要元音字母上头添加声调符号。 如何确定一个字符串中哪个字母是主要元音字母呢?原则是,只要有a,a就是主要元音字母;没有a,有e,e就是主要元音字母。既没有a,也没有e,只有o,i,u,那么哪个字母在后,哪个字母就是主要元音字母。其中“ou”是个例外,“ou”的主要元音字母是“o”,而不是“u”。 2声(阳平): 所有不是4声,也不是3声,包含“o”作为韵母的一部分,或者双写次要元音, 双写“n”或者“g”的异拼拼式,都属于2声。以 “ae” 作为韵母的全部或者一部分的,都是4声。例如: ai: aii; ao: ao, aoo, auu; an: ann, aen; ang: angg, aeng ei: eii; ou: euu, ouu; en: enn; eng: engg ia: iia; iao: iao, iiao, iiau, iauu, iaoo; ian: iian, iann; iang: iiang, iangg ie: iie; iou: iiou, iouu, iieu, ieuu; in: inn; ing: ingg ua: oa, uua, ooa; uai: oai, uaii, oaii, uuai, ooai; uan: oan, uann, uuan, oann, ooan; uang: oang, uuang, uangg, oangg, ooang ; ui: oi, uoi, oei, uui, ooi, ueii; un: on, unn, onn, uon, oen, oon; ong: ong, ungg, ongg, uong, oeng, oong ; 1声(阴平)和轻声: 其他异拼拼式全部都属于1声或者轻声。这些拼式大部分都是汉语拼音方案的原形。例如: ai: ai; ao: au; an: an; ang: ang ei: ei; ou: eu; en: en; eng: engg ia: ia, eia; iao: iau, ieau, eiau; ian: ian, iean, eian; iang: iang ie: ie; iou: ieu; in: in, ien; ing: ing, ieng ua: ua; uai: uai, ueai, euai; uan: uan, uean, euan; uang: uang, ueang, euang ui: ui, uei; un: un, uen; ong: ung, ueng 单韵母的异拼拼式特殊规定如下: 原形: 1声或者轻声;2声;3声;4声 a:a; ae; aa; ah e:e; el; he(ehh); eh er:ir;err;eer;er o:o, ue; uo, uuo; oe, uoe; wo,we, wue, wuo, woe i:i, yi; ee, yee; ii, yii; y, iy, ea, yea, iiy, yiy u:u, wu;oo, woo; uu, wuu;w, uw, ww, uuw, wuw ü:iu, yu;iiu, yiu; iuu, yuu;iw, yw, yuw, iiw, yiw, iuw üe: io, iue; iuo; ioe;yo, yue, yuo, yoe, ywe, ywo 注释1: 当“e”位于声母之后的时候,3声的拼式为“he”, 例如“葛”拼写成“ghe”;当“e”单独存在的时候, 3声的拼式为“ehh”,例如“恶心”拼写成“ehhxen”。为了“he”不会与“zhe”,“che”和“she”相混淆,我查看了一下,发现在 “ze3”,“ce3”和“se3”这三个音节上没有汉字存在。这就保证了不需要用“zhe”表示平舌音“ze3”,不会与卷舌音的拼式相混淆。 注释2:我们可以把“o”看做是“ue”的缩写,因此,“o; uo; oe”就相当于“ue; uue; uee”,“io; iuo; ioe”就相当于“iue; iuue; iuee”,也是符合复韵母表调规则的。同理,把“ee” “oo”看做是双写次要元音字母,那么“i”,“u”两个单韵母也符合复韵母表调规则。这样做,可以帮助我们记忆表调规则,不会感觉到有那么多的例外。 根据异拼表调规则,我们可以计算出每一个带调音节各有多少个异拼可用。下面的统计只限于字母数量最多比汉语拼音原拼式多一个字母的异拼拼式,并且这里的统计只是取最少可能的异拼数量,某些音节的异拼数量远多于这些。 b,p,m,f + 韵母:1声:2个;2声:2个;3声:1个;4声:2个。 d,t,n,l + 韵母:1声:1个;2声:1个;3声:1个;4声:1个。 j,q,x + 韵母:1声:3个;2声:3个;3声:3个;4声:6个。 g,k,h,z,c,s,zh,ch,sh,r + 韵母:1声:2个;2声:1个;3声:1个;4声:2个。 看起来许多人不喜欢字母上带帽子,又没有其他好办法区分声调,所以在用汉语拼音方案书写句子的时候,干脆不表达声调信息。比如,人民币上,以及许多城市的街道名称等等。在书店里,许多书的封面上标出了书名的汉语拼音,可是有多少是附加着声调符号的呢?在网上,使用拼音进行聊天通信的人当中,又有多少人是使用了声调的呢(不管是使用声调符号,还是使用数目字来区分声调)?我觉得这也没什么不好,也就是说我可以接受,但是如何说服其他人,就是个问题。因为声调在汉语里是很重要的,没有声调的拼音文字,如果没有经过长时间的学习,熟悉每一个拼式隐含的调号,念出来是阴阳怪气的,也是听不懂,看不明白的。不能算是完全的,或者说是完备的“拼音”文字,只能算是瘸腿拼音文字。英语的重音是有规律的,大部分是在倒数第二音节,只有很少的单词是不规则的,所以英美的一年级小学生在掌握了拼读规则之后,读出来的英语是大致正确的,不会有太大偏差。没有声调的方案,在小学生掌握了拼读规则之后,是否都能念对呢?既然是规则,就不可能有太多条,不能够每一个汉字的声调都有一条规则。那样的话,只好象学习原方块汉字那样,对于每一个汉字的声调,没有任何规律可循,都需要花时间死记硬背。规则简单,这也是拼音文字比方块汉字优胜的地方。 异拼表调方案的一个优点就是给原汉语拼音方案中的拼音摘了帽。只需要使用26个纯英文字母,不需要额外的其他字母。只需要英文键盘,不需要任何字库和编码,就能够上网打字,比法文,德文,俄文等等其他西方文字还要容易,更比日文,韩文,越南文等等东方文字容易许多。既然要搞文字改革,干脆搞的彻底一些。当然了,如果技术上确实没有办法搞的彻底,我们也没有脾气。可是如果我们在技术上能够做得到,又何乐而不为呢? 在我的这个方案里,异拼的第一用处是起表调作用。除此之外,还可以表达非形声字或者独体字。 也就是说,在每个同调音节(音同, 调也同),一般还能存在2-3个不同的异拼形式,最多能区分2-3个同音同调汉字。因为同音同调的独体字差不多也就是2-3个,所以异拼除了能够提示我们声调之外,还可以区分这些独体字。对于大量的形声字,仍然需要使用意符。我们必须明白,离开意符,是不可能区分大量同音字的,因为异拼的拼式毕竟有限,不可能达到80多个。即便有80多个异拼,我们也很难使他们有理化,容易记忆。 异拼表调其实是字母表调的一种。我的这个方案与国罗和王力的方案比起来,最大的好处就是不需要额外的字母跟在拼音的屁股后面(含有e和a这2个单韵母的音节除外,而这些音节的设计不会与意符相混淆),从而为添加意符腾出了位置。国罗和王力的方案作为注音方案是没有问题的,但是作为文字,要区分大量的的同音字,就需要添加意符,只靠异拼或者标调是做不到的。 声调一律标原调,不标变调。但在诵读的时候,可以按照变调诵读。 第7节 异拼表调举例 与声母相拼举例说明: a:答=da;达=dae;打=daa;大=dah ai:拍=pai;排=poai;迫=paai;派=pay ao:凹=ao;熬=aw;袄=aao;奥=au an:贪=tann;谈=tean;坦=taan;探=tan ang:汤=tangg;堂=teang;躺=taang;趟=tang e:哥=gel;阁=geh;葛=ger;个=ge ei:勒=leii;雷=ley;垒=leei;类=lei ou:州=zhou;轴=zhow;走=zhoou;宙=zheu en:琛=chenn;沉=chein;碜=cheen;衬=chen eng:称=chengg;成=cheing;逞=cheeng;秤=cheng ia:家=jiia;甲=jya;假=jiaa;价=jia,架=ja iao:挑=tiao;条=tiaw;眺=tiaao;跳=tiau ian:拈=niian;年=nyan;撵=niaan;念=nian iang:枪=qeang;强=qyang;抢=qiaang;呛=qiang ie:歇=xiie;斜=xye;写=xiee;械=xie iu:妞=niou;牛=niw;扭=niuu;拗=niu in:拼=pinn;贫=pien;品=piin;聘=pin ing:星=xingg;行=xieng;醒=xiing;性=xing,幸=xeng ua:瓜=goa;华=hwa;刮=guaa;挂=gua uai:摔=shoai;怀=hwai;甩=shuaai;帅=shuai uan:欢=hoan;环=hwan;缓=huaan;换=huan uang:框=koang;狂=kwang;夼=kuaang;况=kuang ue:郭=gue;国=guo;果=goe;过=go ui:亏=koi;奎=kwi;傀=kuii;愧=kui un:村=con;存=cuen;忖=cuun;寸=cun ong:通=tong;同=tueng;统=toong;痛=tung i:机=jee;即=jea;几=jii;技=ji u:突=too;图=tuw;土=tuu;兔=tu ü:(1声无字);驴=lyuw;旅=lyuu,女=nyuu;率=lyu üe:(1至3声无字);略=lio,虐=nio er:(1声无字);而=err;耳=eer;二=er yi:医=yee;异=yea;以=yii;意=yi wu:污=woo;无=wuw;五=wuu;务=wu yu:吁=yoo;于=yuw;语=yuu;育=yu 对于那些只有一个声调有汉字的音节,可以使用1声的拼式来表示任何一个声调。只有一个声调有汉字的音节列举如下: ce4册;chua1欻;ceu4凑; den4扽;dia3嗲;dieu1丢; eng1鞥嗯; fo2佛;feu3否; gei3给; kei1剋;ko4扩; lia3俩;lio4略; me0么; nieu4谬;neng2能;nin2您;neu4耨;nuan3暖;nun2黁;nio4虐; ri4日;run4润; se4色;sen1森;seng1僧; te4特; zhei4这; 第8节 意符 英文26个字母去掉作为韵母成分的9个字母,还剩下17个字母可以用来作为后缀意符:26 - a, o, e, i, u, y, w, n, g = 17。 17个意符可以分别代表17个意类: h = 火,l = (liquid) 流(水),t = 土,r = (rock) 石,j = 金 c = 草,m = 木,d = 动(物),b = 病,p = (people) 人 s = 手,z = 足,k = 口,v = 肉,x = 心 f = 服(装),q = 器(皿) 与 建筑 意符使用17个,代表17个不同的意类,与汉字的偏旁部首相对应,一个意符对应多个偏旁部首,可以用来区分开具有不同部首的形声字。这些意符与传统方块字的部首的对应关系如下: h: 火,灬, 光, 日, 气, 风 l: 水,氵, 冫,雨,川,巛 t: 土,山,阜(左阝),至,卤,穴,谷,田,里 r: 石,玉,王,贝 j: 金,钅,刀,斤,戈,弓,矢,殳,矛 c: 艹,禾,米,瓜,豆 m: 木,林,生,竹,片,册 d: 虫, 鱼,黾,辰,甲,鸟,隹,龙,飞,犬,犭,豸,虎,虍,豕,象,马,鼠,兔,牜,羊,鹿 b: 疒,鬼,卜,巫,示,礻,辛 p: 亻,氏,女,子,父,母 s: 扌,手,攵,又,寸,爪,廾,聿,力,工,克 z: 走,辶,足,?,立,登,彳,止,旡,舟,车 k: 口,言,讠,欠,音,甘,舌,食,酉 v: 肉,月,歹,耳,血,尸,骨,页,齿,身,自,面,革,羽,髟,毛,角,韦,皮 x: 心,忄,目,见,黑,白,臣,文,赤,青 包括空间(囗,大,匚,亼,尤,勹,高,小,冒,长,函,廴,申) 时间和数量(十,一,斗,几,爿,个,尺,非,老,少,夕) f: 丝,纟,系,衣,黹,巾,方 q: 皿,且,瓦,缶,勺,几,豆,臼,匕,鬲,呙,网,耒 宀,门,广,户,厂,冖,邑(右阝) 记忆口诀: 火流(水)土石金, 草木动(物)病人, 手足口肉心, 服装建器皿。 每一个带调音节中,最常用的一个甚至几个汉字不带意符,而是用异拼区分开来。次常用的带一个意符。意符的确定按照意符与原汉字部首的对应规则来决定。例如,原汉字“郸”的部首是“阝”(右耳=邑),它所对应的意符是“q”,所以这个汉字所对应的拼音文字的意符就是“q”。实际上,这个汉字所对应的拼音文字写为“danq”。 当两个同音同调的汉字也属于同样的意类的时候,可以用异拼加一个意符来区分。例如,“溅 = jeanl”,“涧 = jyanl”;“谊 = yyk”,“译 = yeak”,“呓 = yiyk”等等。 汉语中存在许多同音同调,偏旁部首也相同的汉字,例如“渐,溅,涧”,“芙,茯,菔,苻”,“园,圆”等等。汉字是如何区分这些同音同调同偏旁部首的形声字的呢?那就是使用不同的声旁,也就是说,是使用了表声成分。异拼拼式就是一种表声成分,所以使用不同的异拼拼式来区分同音同调同偏旁的汉字是非常恰当的,与原方块汉字的做法非常一致。意符+异拼是区分同音同调同意类汉字的最佳方法。 当一个意符加上所有的异拼拼式仍然无法区分同音同调同部首的所有汉字的时候,就需要考虑增加一个意符了。我的做法是,新增加的意符在原汉字去掉第1个部首之后的剩余部分当中确定,确定方法与第1个意符的确定方法相同。例如“涧”字去掉第1个部首“氵”就是“间”,“间”的部首是“门”,所以第二个意符就是“门”这个部首所对应的“q”。这样,“涧”字如果需要两个意符的话,那么他所对应的拼音文字的拼式应该写为“jyanlq”。同理,“溅”字去掉第1个部首“氵”就是“贱”,“贱”的部首是“贝”,所以第二个意符就是“贝”这个部首所对应的“r”。“溅”字如果需要两个意符的话,那么他所对应的拼音文字的拼式应该写为“jyanlr”。再如,“幅 = foof”,“绋 = foofx”,“幞 = foofm”等等也使用了两个意符。 音节后面附加的意符的个数最好是一个,最多两个就足够了。拼音的后面跟着太多的不发音字母既看起来累赘,又与英语差别太大(当然与法文倒有些相似了),读起来需要跳动,影响阅读速度。所以,能省则省。异拼表调把调号揉和进拼音当中去,可以减少一个后加字母。 这样一来,只用最多两个意符和所有的异拼,就能够区分至少289(289 = 17 * 17, 假设用17个不同的意符)个同音同调汉字,而这足以区分开古往今来的所有汉字(只是猜测,需要专家证实),不单单只是6763个常用的。虽然在我的这个方案里,暂时只是定型6763个常用汉字,但是我所论述的意符加异拼的方法的表现能力远远不止如此。 还有一个问题需要解决。由于异拼中用到了字母“h”和“l”,意符也使用了这两个字母,所以必须有办法来区分这两个字母在什么情况下是异拼,什么情况下是意符,保证意符与异拼不会混淆不清才行。规定,在韵母不是“a”和“e”的时候,这两个字母都是作为意符使用的。在韵母是“a”和“e”的时候,这两个字母都是作为异拼使用的。如何能够确定在韵母是“a”和“e”的情况下,不需要这两个字母作为意符使用呢?这只要保证音节“*ā”里不存在以“h”为意符的汉字,音节“*ē”里不存在以“h”和“l”为意符的汉字就行了。检查可知,只有“湝”是属于以“l”为意符的汉字,但是它可以用“jiē”而不是“jē”作为它的拼音拼式。 总结起来,异拼既能够区分声调,又能够区分同音同调的独体字,甚至所有的非形声字,还能够区分部分相同偏旁部首的同音同调同意类的形声字;意符既可以用来区分形声字,也可以用来区分部分会意字,指事字和象形字。异拼加意符,既能够把声调信息表达出来,又能够区分开所有的同音字,是一个完备的非纯拼汉语拼音文字方案所需要的,区分大量同音字词的非常有效的手段。 第9节 单字词定型规则 先来分辨一下我所使用的概念:“音节”和“带调音节”。当2个汉字的声音相同,声调也相同的时候,我们说这2个汉字属于同一个带调音节。当2个汉字的声音相同,但是声调不同的时候,我们说这2个汉字属于同一个“音节”,但是不属于同一个“带调音节”。 上一节我们利用异拼表调规则,可以根据异拼拼式的不同区分开不同的带调音节的汉字。这一节进一步研究如何区分属于同一个带调音节的不同汉字,也就是汉字定型问题。 有的人主张多用意符,有的人主张多用异拼。主张用意符的人认为意符能够帮助记忆,是1种有条理的能够提示汉字含义的方法。这里我要强调一点,并不是异拼用的越少,越有利于记忆,而是有一个异拼拼形个数的使用下限。超过了这个下限,并不会减少记忆量。因为在同音同调的汉字集合中,还存在着同部首,同意类的汉字。对于这些汉字,只靠意符是没有办法区分开的。区分他们有两个办法,一个是使用不同的异拼拼式,另一个是再增加一个意符。但是这第2个意符并不能提示我们什么含义,只是在字形上帮助我们区分同音同调同意类的汉字,所以这个意符被叫做形符更合适。形符由于不能提示含义,只能死记硬背,所以并不能帮助我们记忆,或者减少记忆工作量。因此,使用形符和使用异拼,在需要的记忆负担方面没有任何区别。既然如此,使用形符就不如使用异拼拼式,因为异拼至少还能表音,而形符只是一种不发音的后缀,看上去,读起来都不舒服,与英文的书写方式也不如异拼接近。 在一个同音同调的汉字集合中,如果存在N个同一意类的汉字,那么至少需要N/2个异拼拼式才能把他们区分开来。举个例子可能更有利于理解。在带调音节jian4中,存在3个属于意类“l=水”的汉字:渐,溅,涧。因此至少需要3/2=2(注意4舍5入)个异拼拼式才能区分开他们,比如用拼式“jain”和“jyan”: 渐=jain;溅=jyan;涧=jainl 如果只用1个异拼拼式,那么就只好用形符来区分: 渐=jain;溅=jainl;涧=jainlq 注意,这里第1个意符“l=水”,第2个意符也就是形符“q=门”。如果异拼拼形需要死记硬背,那么形符也一样需要死记硬背。对于没有学习过方块字的新人来说,“q”究竟有何含义?即使对于原方块汉字,想想我们是如何区分“渐,溅,涧”这3个字的?虽然偏旁部首能够帮助我们理解含义,但是我们仍然需要记住每个汉字的另一半字形,而且只能死记硬背:“逐渐”的“渐”是用“斩”做声旁的“渐”,而不是用“间”做声旁的“涧”。“渐”与“涧”的含义不同,但是他们的含义与“斩” 和“间” 没有任何关系。 考虑到还有其他的意类也存在多个汉字,比如:“键,剑,鉴,锏”;“健,僭”;“践,踺”,他们也需要异拼来区分相同意类的汉字,所以1个带调音节所需要的异拼拼式的最少个数不是那么简单就能确定出来的。另外还要考虑到,越是常用的汉字越要用异拼,所以实际的对异拼拼式的分配需要综合全面的考虑。 从以上的分析可以看出,使用异拼拼式是不可避免的;异拼拼式使用的最少数量是有一个下限的;使用少于下限的异拼数量是并不能减少死记硬背的工作量的。因此,使用多少个异拼比较合适,就是一个值得认真研究的问题。存在3种做法。第1种,尽量多的使用异拼,在用光所有可能的异拼之后,才使用意符。这样做的好处是,用拼音文字所写成的文章中,小尾巴(不发音的意符)最少,跳读次数最少。第2种做法,常用汉字用异拼,不常用的汉字用意符。比如说,以3000个汉字为界限,3000以内的尽量用异拼,3000以外的不管还有没有异拼存在,一律要加意符。当然了,一个意符无法区分的,仍然要借助于异拼,而不是增加形符。第3种做法是,用尽可能少的异拼拼式区分同音同调同意类的汉字,以及跨意类的独体字,非形声字,其他的汉字,尤其是形声字全都加意符。 在我的这个方案中,采用了第2种做法,来定型6763个汉字。主要是先做出来让大家看看效果如何。用这个方案写出来的文章中,意符占的比例不是太大(我粗略的统计了一下,在实际文章中,大约15个汉字中有1个需要加意符。如果使用第3种做法,大约5个汉字中就要有1个加意符),而且对于初学者来说,需要死记硬背的汉字定型数量也比较适中(大约2500个完全使用异拼的汉字),所以我个人感觉是一个比较好的方案。当然了,如果许多人反对,我们仍然可以改进。 汉字(单字词)定型规则如下: (1)只用字母个数最多比原拼式多一个(个别情况下多2个)的异拼拼式,不用拼式太长的。 (2)常用优先。先定型常用汉字,后定型不常用汉字。常用汉字尽量用异拼,异拼不够用,才使用意符。不常用(3000以后的)汉字尽量用意符。越常用的汉字,其对应的异拼拼式越短。 (3)跨意类及有争议的,只用异拼,不用意符,不管是不是常用。特别是独体字和非形声字。异拼不够用的时候,某些可以用来做部首的汉字允许加意符,因为部首与意符的对应关系是确定的,不会引发争议。 (4)先用异拼加一个意符区分同音同调同部首汉字,在仍然区分不开的情况下,再使用第2个意符,也就是形符。 (5)异拼中,拼式短的异拼优先使用。 (6)同样长短的异拼中,没有双写字母的异拼优先使用。个人感觉,双写字母看上去比较幼稚,不太象文字,所以尽量少出现为好。 (7)同样长短的异拼中,在不违背前几条原则的情况下,不带“y”,“w”的异拼优先使用。在没有办法不用这2个字母的情况下,包含他们越少的异拼拼式越被优先使用。这是因为这2个字母即可以当声母,又可以当韵母,还可以当介母,而且用于同音字比较多的4声的音节当中,在定型表中出现的机会太多,为了减少他们在实际文章中出现的机会,常用的汉字尽量不用含有这些字母的异拼定型。 (8)在不违背前几条原则的情况下,与原汉语拼音方案的拼式越接近,越优先使用。 更精确的做法 (1) 按照异拼规则,把某一韵母所有可能的异拼拼式列出来。去掉那些长度大于该韵母原汉语拼音方案原形韵母长度+1的所有异拼拼式。剩下的异拼称为合格异拼拼式。例如,“ui = uei = eui = oi = uoi = oui = oei = eoi= uii = oii = uui = ooi = wi = uy = oy = wy = wui = wei = woi = uiy = oiy = uey = euy = uoy = ouy= oey = eoy = wuy = wey = woy = wiy = wii”,不包括“wuei = uuei = ueei = ueiy”等等。 (2) 按照异拼规则,把每一个音节(不区分声调)的所有可能的异拼拼式列出来。去掉那些拼式的韵母部分不合格的(在第1步中确定的)。注意,音节的异拼拼式与韵母的异拼拼式是2个不同的概念。韵母异拼拼式只是音节异拼拼式的一部分。例如,“dui = duei = deui = doi = duoi = doui = doei = deoi= duii = doii = duui = dooi = dwi = duy = doy = dwy = dwui = dwei = dwoi = duiy = doiy = duey = deuy = duoy = douy= doey = deoy = dwuy = dwey = dwoy = dwiy = dwii”。 (3) 按照异拼表调规则,把每一个音节的所有异拼拼式分成4个集合,分别对应4个声调。例如,{dui = duei = deui}, {doi = duoi = doui = doei = deoi= duii = doii}, {duui = dooi}, {dwi = duy = doy = dwy = dwui = dwei = dwoi = duiy = doiy = duey = deuy = duoy = douy= doey = deoy = dwuy = dwey = dwoy = dwiy = dwii}。 (4) 在每一个集合当中,按照拼式的长度分成不同的组。对组进行排序。长度短的异拼组排在前面。例如,{dui /duei = deui}, {doi/duoi = doui = doei = deoi= duii = doii}, {duui = dooi}, {dwi = duy = doy = dwy/dwui = dwei = dwoi = duiy = doiy = duey = deuy = duoy = douy= doey = deoy = dwuy = dwey = dwoy = dwiy = dwii}。 (5) 在每一个集合当中,最短的拼式的长度被叫做这个集合的异拼拼式标准长度。比标准长度+1还长的拼式扔掉不用(个别音节如yi,wu除外)。 (6) 在各个组当中(实际最多只有两个组,1个是标准长度组,1个是标准长度+1的组),按照拼式当中有没有双写字母,进一步分组。没有双写字母的异拼组排在前面。例如,{dui /duei = deui}, {doi/duoi = doui = doei = deoi/duii = doii}, {duui = dooi}, {dwi = duy = doy = dwy/dwui = dwei = dwoi = duiy = doiy = duey = deuy = duoy = douy= doey = deoy = dwuy = dwey = dwoy = dwiy/dwii}。 (7) 在各个组当中,按照拼式当中字母“w”的数量+“y”的数量,进一步分组。数量少的异拼组排在前面。例如,{dui /duei = deui}, {doi/duoi = doui = doei = deoi/duii = doii}, {duui = dooi}, {dwi = duy = doy = /dwy/dwui = dwei = dwoi = duiy = doiy = duey = deuy = duoy = douy= doey = deoy / dwuy = dwey = dwoy = dwiy/dwii}。 (8) 在各个组当中,按照拼式当中字母“y”的数量,进一步分组。数量少的异拼组排在前面。注意,上1次是2个字母数量之和,这1次只是1个字母数量。例如,{dui /duei = deui}, {doi/duoi = doui = doei = deoi/duii = doii}, {duui = dooi}, {dwi/duy = doy = /dwy/dwui = dwei = dwoi/duiy = doiy = duey = deuy = duoy = douy= doey = deoy / dwuy = dwey = dwoy = dwiy/dwii}。 (9) 在各个组当中,按照与原汉语拼音方案的接近程度,进一步分组。接近的异拼组排在前面。例如,{dui /duei = deui}, {doi/duoi = doui/doei = deoi/duii/doii}, {duui/dooi}, {dwi/duy/doy /dwy/dwui/ dwei = dwoi/duiy/doiy = duey = deuy = duoy = douy/doey = deoy / dwuy = dwiy/dwey = dwoy/dwii}。 (10) 在各个组当中,按照存在不存在原汉语拼音方案中韵母部分,进一步分组。存在的排在前面。例如,{dui /duei = deui}, {doi/duoi = doui/doei/deoi/duii/doii}, {duui/dooi}, {dwi/duy/doy /dwy/dwui/ dwei/dwoi/duiy/duey = duoy = douy/deuy=doiy/doey = deoy / dwuy/dwiy/ dwoy/dwey/dwii}。 (11) 在各个组当中,按照辅音优先,次要元音其次,主要元音再其次,介母最后的次序,检查这几个成分在拼式当中是否出现,进一步分组。例如,{yah/yae/yia},再如,{yaoo/yaao},{yauu/yaau}。 (12) 在各个组当中,按照“ea > ua > oa > ai > ae > au> ao>ia, ue > uo > oi > oe > ou > eu > eo; a > e > i > u > o”的次序,检查这些成分在拼式当中是否出现,进一步分组。这里,“>”的意思是“优先于”。当然,这些细则太具体了,可以不用太计较。例如,{dui /duei /deui}, {doi/duoi/doui/doei/deoi/duii/doii}, {duui/dooi}, {dwi/duy/doy /dwy/dwui/ dwei/dwoi/duiy/duey/duoy/douy/deuy/doiy/doey/deoy / dwuy/dwiy/ dwoy/dwey/dwii}。 (13) 按照以上步骤,就可以对同一集合中的所有异拼拼式完全排序。排在最前面的异拼拼式被叫做这个带调音节的标准拼式。 (14) 对于那些纯粹表音的汉字,例如,“秘=bi4”的时候只用于“秘鲁”一词,“龟兹=qiu1ci2”的时候只用于表示这个国家,等等,用异拼的标准拼式来定型。 (15) 对于那些专用名词,用异拼的标准拼式定型并且首字母大写。例如,“兖=Yaan”,“灞=Bwa”,“秦=Qinn”,“陕=Shaan”,等等。 (16) 对于新造的(指近代)的化学名词,用异拼的标准拼式定型并且首字母大写。例如,“羟=Qaang”,“羧=So”,“羰=Tang”,等等。 (17) 对于剩下的原汉字,按照带调音节分成不同的集合。属于同一带调音节集合的所有原汉字,按照使用频率进行排序。这样,属于同一个带调音节的原汉字和异拼拼式两个集合中的元素各自进行了排序,按照这种排序,两个集合中的元素可以建立一种一一对应关系。按照这种关系,就可以给每一个汉字在新汉语拼音文字中定型。如果原汉字个数多于异拼个数,那么就需要去掉那么多出来的,不常用的,能够确定意类的汉字,直到剩下来的汉字个数与异拼拼式个数一样多。 (18) 对于那些上一步中去掉的汉字,使用意符进行定型。如果存在多个属于同一意类的汉字,仍然按照异拼拼式的持续和这些汉字的排序,进行意义对应。如果异拼拼式个数不够用,那么按照“意符”一节所述原则添加第2个意符(形符)。至此,所有的汉字应该已经被全部定型,而且不应该有任何两个汉字的拼式相同。 按照以上规则定型之后,用定型的汉字转写网上的文章,我做了一些拼写实验。初步统计,字母“y”的出现频率相当高,大于1/3的汉字都包含这个字母,略微高于字母“e”的出现频率。双写字母的出现频率也很高,介于1/3到1/4之间。意符的出现频率是1/16,也就是16个汉字中出现一次,还可以忍受。后面附上汉字定型表以及一些拼写实验,供大家参考。 第10节 儿化音的表达 在不会出现音节混淆的情况下,直接在拼音后面添加“er”,否则,添加“’er”。例如,“花儿=hua’er”,“小米儿=xaao mii’er”,“小鸡儿=xaao jid’er”等等。 第11节 正词法 总的原则是,对于传统的汉词,以字为本,以字组词。对于外来词汇,以词为本,音译为主,意译为辅,不提倡直接使用原外文的拼写形式,也就是不提倡英文所使用的“名从主人”的原则。 区别同音词问题。汉语中有大量的同音词。虽然古代汉语中有些单音节词在现代汉语中不单独成词, 减少了单音节词中的同音词数量, 但是双音节词中的同音词数量仍然很多。据作者对《汉语拼音词汇》1989年重编本 (语文出版社) 的统计, 在大约60000条词中, 声韵调相同的同音词有6514条, 占总词数的10.9%, 其中单音节词1487条, 多音节词5027条, 每组同音词最多8条; 只计声韵不计声调的同音词有21472条, 占总词数的35.8%, 其中单音节词1936条, 多音节词19536条, 每组同音词最多23条。如此大量的同音词如果在书面上不加区别, 只靠上下文来确定意义, 就不能成为一种严密表达意义的文字。其他拼音文字也有同形异义的同音词, 可是数量少, 不影响文字的使用, 不可与汉语拼音文字类比。我们所要的汉语拼音文字, 应该是能够脱离汉字独立使用的文字, 是词能够孤立存在 (如在标题、词典、语文著作中所出现的) 的文字, 是能用来书写复杂的文学作品、严密的科学论文、精密的法律和公文的文字, 而不仅仅是汉字的拐棍或只能书写通俗读物的文字。不区别大量的同音词, 是达不到这个目的的。 区别同音语素问题。这是汉语拼音文字成败的关键问题。汉语合成词有比较强的理据性。词义不等于语素义的简单相加, 但是在多数情况下语素义对词义有较强的提示作用。从语素入手学习合成词可以事半功倍, 脱离语素学习合成词等于不管它的理据性, 必然事倍功半。也许有人说, 语素本来是语言中的成分, 人们学习词本来是先在语言中掌握, 然后才学习文字的, 所以文字能不能区分同音语素无关紧要。事实不是这样。中等以上文化水平的人所掌握的词汇, 少部分是在识字以前通过语言学会的, 大部分是在识字以后通过文字学会的。我们凭观察就能知道, 一般的说, 一个人文化程度越高, 掌握的词汇越多, 成年文盲掌握的词汇大大少于同龄有文化的人掌握的词汇。通过汉字或区别同音语素的汉语拼音文字学习合成词, 可以充分利用它的理据性, 只要掌握了相应的字或代表词素的字母串, 学习合成词就没有多大困难 (这里说的学习、掌握词, 是从一般意义讲的, 并不是说能够像词典一样对词作出全面准确的解释)。如果汉语拼音文字不区别同音语素, 就意味着基本上不表示语素, 通过这样的文字学习新的合成词, 要么是囫囵吞枣, 不分析语素, 把合成词当作联绵词学习, 把有理据的词当作无理据的词死记硬背; 要么是在文字之外讲解合成词的理据, 某个词由某些语素构成, 如 dian4deng (电灯) 的 dian4 是电子、电流的电, deng 是照明用的灯, dian4ru3 (玷辱) 的 dian4 是玷污的玷, ru3 是污辱的辱, 等等, 学习者要一一记住这些讲解, 学生还要考试这些内容。不论用这两种办法中的哪一种来学习几万个合成词, 都是不可思议的、行不通的。可见, 虽然不标调、不区分语素的汉语拼音文字的词形简单, 但是在词形以外有沉重的学习和记忆负担。 10.1 以字组词规则 以字组词是汉语造词的一个特点,也是一个优点。我们继承这一做法。由于大部分的常用汉字是用异拼来表示的,当用这些汉字来组词的时候,直接把异拼拼式连写在一起就可以了。例如,“车辆”写做“chelyang”,“成就”写做“chenggjow”,“团员”写做“toanyuoan”,“团圆”写做“toanyoann”,等等。对于那些使用了意符的汉字,当用这些汉字来组词的时候,需要把每个汉字的意符集中起来,写在整个汉词的最后,也就是先连写汉词中所有汉字的拼音部分(包括异拼),然后再连写意符部分。例如,“榕树”写做“rongshwwm”,“茯苓”写做“foolinggcc”,等等。注意,汉词中每一个汉字的声调已经融合在异拼的拼形当中了,所以不管有没有意符,从汉词的拼音部分就完全可以知道每个汉字的声调。 为了区分同音同调汉词,规定,如果两个同音同调的汉词词形相同,那么可以采用以下方法加以区分: 当组成汉词的某一个汉字没有携带意符的时候,可以用“’”来表示零意符。例如,“危急”的“危”没有意符,那么这个汉词可以写做“wueijee’x”,这里意符“x”是“急”字的意符,“’”代表“危”字的零意符。 当组成汉词的最后一个汉字没有携带意符的时候,不需要添加“’”。所以,“榕树”对应的拼音文字词形“rongshwwm”里不需要添加“’”。这里,“m”是“榕”字的意符,“树”字没有意符。如果组成汉词的最后几个汉字都没有携带意符,那么这些汉字都不需要添加“’”。 当组成汉词的所有汉字或者最后几个汉字的意符相同的时候,只需要写一次这个意符,然后在意符之后添加一个“’”就可以了。也就是说,如果词形的最后出现“’”,说明了组成汉词的所有汉字,或者最后几个汉字的意符是相同的。 10.2 汉词的逐级简化 第1次简化: 如果一个汉字携带了两个意符,那么当这个汉字组词的时候,他的第2个意符可以省略,只要这种省略不会造成同音同调的汉词产生同形。 第2次简化: 组成一个汉词的任何一个汉字的意符都可以省略,只要这种省略不会造成同音同调的汉词产生同形。 第3次简化: 在每一个带调音节的多个异拼拼式之中,规定某一个拼式为基本拼式。组成一个汉词的任何一个汉字的异拼拼式都可以用基本拼式加以代替,只要这种代替不会造成同音同调的汉词产生同形。这种异拼拼式的替换为字本位向词本位转化,为区分同音字的拼音文字向纯拼音文字的转化开启了一道方便之门。 这3级简化不光应用于多字词,也适用于单字词,也就是汉字。 为了照顾初学者,可以规定,即使任何一级简化造成了多个同音同调汉词的同形现象,在实际应用当中,仍然允许广大的学习使用者进行这种简化。并且规定这样做不是写错白字,而是写一种合理合法的简化字。初学者,例如1,2年级的学生,学习汉语的老外,在开始学习的时候,可以只需要学习由基本拼式所组成的汉词,然后在以后有时间的情况下,学习其他异拼拼式和意符。这样可以使得汉语拼音文字学习的难度是逐渐增加的,而不是象原汉字那样,初始门槛过高,给许多人(古代广大的下层民众,现代大量的老外)造成难以逾越的障碍。同时,因为异拼表调规则的简单性,初学者很容易在短暂的培训之后,就能够根据拼读规则,读出所有的拼音文字,虽然不一定会写,不一定懂得含义,但是能够读出来。就像东南亚某些国家的华人在学习汉字的时候要求能够认识繁体字,写出简体字,叫做“识繁写简”一样,汉语拼音文字的初学者,在初学阶段,就能够做到“识难写简”。 一方面,在异拼和意符的帮助之下,汉语拼音文字是一个全面,完备,精确,严密的文字系统。另一方面,在逐级简化的辅助之下,汉语拼音文字同时也是一个简单,易学,包容,开放,多元的文字系统。从而,汉语拼音文字做到了精确与简单兼顾。 10.3 分词连写规则 在我的汉语拼音文字方案中,存在三种汉词:单字词,多字紧致汉词和多字松散汉词。由单个汉字组成的汉词叫做单字词。由多个汉字组成的汉词,汉字之间没有任何附加符号,汉字直接连写在一起的,叫做紧致汉词,简称紧词。紧词内汉字的连写有时候叫做全连写。由多个汉字组成,汉字之间使用了符号“-”的汉词,叫做松散汉词,简称散词。散词内汉字的连写有时候叫做半连写。在书写文章句子的时候,汉词之间需要用空格分开,组成同一个汉词的汉字之间则不需要。 一个字组,既可能是多个单字词组成的词组,也可能是多个汉字组成的一个紧致汉词,还可能是多个汉字组成的一个松散汉词。分词连写规则就是用来区分一个字组是一个词组,一个紧致汉词还是一个松散汉词的文字书写规则。 如何确定一组汉字是一个紧词,一个散词,还是多个单字词呢? 规则1(句子成分规则): 当两个汉字或者多个汉字在句子里属于不同的句子成分的时候,这些汉字应该属于不同的汉词。例如“现在开会了”这句话中的“开会”两个字,应该属于两个词,因为“开”是谓语,“会”是宾语。 规则2(散词偏爱规则): 可分可合的,或者很难确定的,建议当作散词处理。 规则3(双字词,三字词偏爱规则): 原则上说,凡是口语中结合紧密的单位都要全连写或半连写成一个词,因为文字最基本的功能是让人去读:读起来合乎自然节奏,顺口,意思就自然容易理解了。反过来,能够读得节奏正确,也说明读者是基本理解了文章的内容。古人把正确掌握句逗看作理解文章字面意义的主要标准,道理也是如此。总之,文字的连写形式应该同口语节奏尽量一致,这样才能使文字处理的视觉过程和听话的听觉过程这两个语言信息处理通道的结构取得一致。 除了成语,汉词不应该由多于3个音节所组成。因为汉语讲究节奏和韵律,双字词和三字词,不管是紧致的,还是松散的,能够带给我们一种节奏均匀舒缓的感觉。音节太多,一口气读下来,会给我们一种急迫感或者喘不上气的感觉。我们平时在写文章的时候,也是偏爱使用双字词和三字词。 因此,当句子的某一成分包含许多音节(汉字)的时候,我们就必须把他们看成是多个汉词。 另一方面,在分词的时候,尽量把单字词连合在一起,形成双字散词,三字散词,甚至是双字紧词,三字紧词。比如,“开会是一种交流方式”这句话中,“开会”是主语,是一个句子成分。因此既可以把“开会” 看做是一个双字散词,也可以看做是两个单字词。按照双字词,三字词偏爱规则和散词偏爱规则,把它看做一个双字散词比较好。在长期的使用之后,人们就会厌烦散词中间的连接符号“-”,逐渐省略掉它,从而散词就会演变成紧词。这种情况在英语中就常常发生。当然,在非常确定的情况下,也可以不用等待很长的使用时间,而直接把他们看做是一个双字紧词。双字词和三字词比起单字词来,另一个优点是,双字词和三字词的同音同调词非常少,在口语交流的时候不容易因为同音字词而造成误会。 规则4(含义转化规则): 当一个字组的含义偏离了组成这个字组的各个单字的含义的组合或者叠加的时候,这个字组应该看做是一个紧致汉词。例如句子“一切反动派都是纸老虎”中的“一切”的含义并不是“一”的含义加上“切”的含义,也就是“切一下”的意思,所以“一切”应该看做是一个双字紧词,而不是一个双字散词或者两个单字词。而在句子“你用刀一切,它就会分裂开了”这句话里,“一切”就应该看做是两个单字词。在句子“我们这个动物园里养了水牛,奶牛,野牛,北美野牛和黄牛”中,“北美野牛”和“黄牛”都是汉词,因为他们都是代表一个物种,而从组成他们的单个汉字的含义中是看不出“物种”这一信息的。而在句子“白牛,黑牛,黄牛,花牛满山遍野”中,“黄牛”就不应该是一个紧致汉词,只能看做是一个散词或者两个单字词。按照双字词,三字词偏爱规则和散词偏爱规则,把它看做一个双字散词比较好。同时,把“白牛”,“黑牛”,“花牛”也看做是双字散词,把“满山遍野”看做是成语,读起来就非常有韵律感。同理,“河马”,“海马”,“斑马”应该是紧词,“白马”,“黑马”,“棕红马”应该是散词。 规则5(外来语引入规则): 当一个字组是外来语某一个单词翻译而来的时候,不管是音译还是意译,都应该看做是一个紧词。例如“民主”,“民族”,“自由”,“布什”,“沙发”,“雷射”,“激光”,“互联网”,“万维网”,“硬件”,“软体”等等。 规则6(翻译一致规则): 利用英语的词汇来确定汉语拼音文字的分词准则。也就是说,如果一个字组在翻译成英语的时候能够翻译成一个英语单词,那么这个字组在汉语拼音文字中也应该被当作一个紧词来看待,不管这个汉词是不是外来语。例如“生物学家”的英文说法是“biologist”,是一个单词,所以“生物学家”在汉语拼音文字里就应该是一个紧词。 以上是几个分词连写大的原则。从这些原则中可以看出,分词是与汉词的含义和来源,以及组成汉词的汉字的含义和来源有着密不可分的关系的。或者说,分词的依据就是汉词的含义或者来源。按照这些原则,下面我们给出划分句子为单词的具体步骤。分词应该是以句子为环境的,脱离开环境来谈论分词是没有意义的。这是因为汉语文字是一个严重依赖上下文的文字。汉词的含义,汉字的含义,许多都是必须利用上下文才能够确定下来。 分词步骤 第1步,划分句子成分。 句子成分包括主语,谓语,宾语,补语和句子状语。定语只是主语,宾语或者补语的子成分,而不是句子一级的组成成分,所以与其他成分不在一个级别上,不能够与其他成分平起平坐。同理,谓语状语只是谓语的组成子成分。 按照分词第1规则,汉词不可能跨越句子成分。也就是说,句子的不同成分必然是由不同的汉词所组成。根据句子成分的划分,可以把组成句子的所有汉字划分为几个不同的字组。在字组之间加入空格,这就是分词的第1步。 一个句子可能由几个并列从句组成。这种情况下,应该首先把句子划分为从句,在从句,以及连接从句的连接词之间加入空格。然后每个从句再划分为主语,谓语,宾语,补语和句子状语。由几个并列从句组成的句子叫做复合句,否则叫做简单句。由于对复合句的从句的分词步骤与对单个简单句的做法完全一样,所以以下的讨论都只针对简单句。 第2步,划分句子成分的子成分。 主语,宾语或者补语都是由中心成分与修饰成分组成的。中心成分由一个或者几个并列的名词组成。修饰成分则由一个或者几个定语(包括形容词从句,形容词短语,或者形容词)组成。 谓语也是由中心成分与修饰成分组成。中心成分由一个或者几个并列的动词组成。修饰成分则由一个或者几个谓语状语(包括副词从句,副词短语或者副词)组成。 句子状语也包括副词从句,副词短语或者副词,是修饰整个句子的。在第1步,句子状语已经与主语,谓语,宾语等其他成分划分开来。由于它与谓语状语的组成方法完全一样,所以这里就不单独讨论了。对它的进一步划分,可以参照以下对谓语状语的进一步划分的方法。 2.1步:在除了名词(包括代词,数词,量词),动词,形容词和副词之外的其他虚词(包括连词,介词,感叹词,拟声词,语气助词,不包括结构助词)的前后添加空格,把所有的虚词与其他成分区分开来。剩下的都是由名词及其定语组成的字组,或者动词及其状语组成的字组。这些字组仍然是由中心成分(名词,动词)与修饰成分(定语,状语)组成。 如果一个修饰成分所修饰的中心成分已经被虚词所分开,那么该修饰成分也应该与其所修饰的中心成分用空格分开。例如,如果“病牛和羊被处理掉了”这句话中,“病”所修饰的是“牛”和“羊”,而不只是“牛”,那么它就应该与“牛”分开,写做“病 牛 和 羊 被 处理 掉 了”;否则,如果“病”只修饰“牛”,那么就不一定需要分开,写做“病-牛 和 羊 被 处理 掉 了”,或者“病牛 和 羊 被 处理 掉 了”。 对于结构助词“的”,“地”,“得”和“之”,分两种情况处理。如果这些助词前面的修饰成分不止一个,或者修饰成分的字数大于3,那么这些助词的前后都要加空格;否则,只需要在这些助词的后面加空格。例如,“受伤的 牛”,“受伤 和 死掉 的 牛”;“紧张地 比赛着”,“极其紧张 地 比赛着”,“坏得 很”,“卑鄙 无耻 下流 得 很”,等等。 虚词内部的汉字之间全连写。 2.2步:在用虚词分开之后的任何一个部分当中,如果至少存在3个成分(可以是修饰成分或者中心成分),并且其中至少有1个成分的字数超过2个,那么成分与成分之间应该添加空格加以分开,也就是把每一个成分看做是由不同的汉词组成。 2.3步:如果只存在2个中心成分,并且其中至少1个中心成分的字数超过3个,那么这2个成分之间也要加入空格,划分成不同的汉词。 剩下的情况包括,(1)只存在2个成分,1个是修饰成分,1个是中心成分,成分的字数没有限制;(2)只存在2个成分,而且都是中心成分,但是每个成分的字数都不超过3个;(3)存在至少3个成分,但是每1个成分的字数都不超过2个。这3种情况是最难于分词的情况。以下的规定是我个人的看法,有很多值得商讨的地方,写出来共大家讨论。 2.4步:规定,(1)如果这个字组(尽管是由几个成分组成的)是某一个外来词的音译或者意译,那么直接连写,例如“马克思主义”,“共和国”,“考古学家”;(2)如果这个字组在翻译成外语,尤其是英语的时候,能够翻译成一个词,那么直接连写,例如,“公牛”,“牛奶”, “杨树”,“柳树”;(3)如果这个字组的含义偏离了各个成分的含义的组合或者叠加,那么直接连写,例如,“黄牛”,“老黄牛”,“马上”,“海外”;(4)对于其他情况,包括无法确定,或者不知道是不是外来语,能不能翻译成单个外语单词,含义有没有转化的情况,规定,如果所有成分的字数加起来大于4,那么分写各个成分。成分之内,按照下一步所述方法进行连写或者分写。如果所有成分的字数加起来不大于3,那么各成分之间,以及成分之内汉字之间用“-”连写,或者按照国家发布的汉语拼音正词法规则连写或者分写。 第3步:划分修饰成分的子成分。 修饰成分包括定语(形容词从句,形容词短语,形容词),状语(副词从句,副词短语,副词)。状语又分为谓语状语和句子状语。 修饰成分可以嵌套。也就是说,修饰成分本身还可以进一步划分为修饰子成分和中心子成分。例如“古生物学家”这个字组,“古生物学”是修饰成分,“家”是中心成分。“古生物学”本身又可以划分为“古生物”这个修饰子成分和“学”这个中心子成分。“古生物”还可以进一步划分为“古”这个修饰子成分和“生物”这个中心子成分。“生物”又可以划分为“生”这个修饰子成分和“物”这个中心子成分。一个多层嵌套的修饰成分和多个同级并列的修饰成分是不一样的。一个多层嵌套的修饰成分在我们上面的讨论中,仍然只是被看做一个修饰成分,而不是多个。 既然修饰成分本身可以进一步划分为修饰子成分和中心子成分,那么对修饰成分的划分方法就完全可以模仿第2步的方法,并且这一方法可以一直应用到各个嵌套的子成分中去,直到子成分是由一个汉字所组成。 第12节 其他考虑 11.1 特殊拼写 一=i,的=d,了=l,个=g,和=h,子=z 只有作为单音节词的时候才允许这样特殊拼写。 11.2 隔音符号 原汉语拼音方案中的隔音符号是为了用来区分音节的。主要用于当第2个音节是零声母音节的时候。在我的这个拼音文字方案中,扩展使用隔音符号。在前后两个音节容易混淆的任何情况下,都可以使用隔音符号。例如,当第1个音节最后一个字母是“n”或者“g”,第2个音节的第1个字母是“y”或者“w”的时候,为了避免把“ny”,“nw”,“gw”看做属于同一个音节,需要在他们之间加入隔音符号。例如,“禁烟=jyn’yan”,而不是“jynyan(=纪念)”。 继承汉语拼音方案的规定,当不存在隔音符号的时候,拼式中间的辅音字母尽量与后面的元音字母相拼,而不是与前面的元音字母相拼。例如,“jynyan =jy’nyan = 纪念”,而不是“jyn’yan( 禁烟)”。 11.3 数目字的表示 汉语现在所用的数字系统是四位一进的“万进制”,多数外语采用的是三位一进的“千进制”。因此,大数目翻译实际上需要一个在千进制和万进制之间的换算过程,而不仅仅是一个单纯的翻译过程。四位一逗的写法只解决了阅读方便的问题,而没有解决翻译麻烦的问题。考虑到数量信息在国际交往中的频繁性,考虑到大多数国家的习惯,也考虑到国际度量衡一千克进到一吨以及三维度量等等的三位进制常规,从长远看,汉语最好也改为千进制,取消“亿、万”,向国际化靠拢,与阿拉伯数字书写接轨,启用汉语已有的另一套千进制:千、兆、吉,分别对应thousand,million,billion。“170千”就是“170 thousand”,写做“170,000”。“13兆”就是“13 million”,写做“13,000,000”。 我的这个汉语拼音文字方案决定采用“千进制”,与国际接轨。 11.4 人名地名拼写法 句子开头的字母和诗歌每行开头的字母大写。人名,地名等等专用名词,第1个字母大写,与英文的做法完全一样。 11.5 外来词拼写法 外来词采用以音译为主,以意译为辅的做法。由于意译的难度比较大,用汉语传统的以字组词的方法,来创造出一个与原文单词含义相同或者接近的汉词的可能性非常小,所以,大部分外来词,使用音译。这样做可以非常快捷方便的吸收外语词汇,为我所用。在突飞猛进的现代化面前,不会因为翻译不了而延误学习时间,翻译不准而造成理解错误。 不提倡象英语那样直接使用外来语的原形拼式。因为外语的拼音规则与汉语的拼音规则不可能完全相同,如果使用了外来语的原形拼式,没有学习过外语的广大的中下层群众,很可能读不出来。而且,时间一长,外语的拼音规则就会破坏汉语的拼音规则的简单一致好学的特点,造成象英语那样拼读规则复杂,例外极多,因而逐渐演变成为一种不能够准确地拼音的拼音文字。我们应该学习法语,德语,俄语的做法,按照外来语本来的发音,用自己的拼音规则重新拼写外来语单词的词形,使得外来语词汇成为能够与本国语词汇完全融合的汉语词汇的一部分。 当然也不排除某些外来语词汇直接使用原拼式,只要这些原拼式符合我们自己的拼音规则,或者能够用我们自己的拼音规则读出来。 音译的时候,所有音节使用异拼基本拼式拼写。重音音节用4声(去声)或者1声(阴平)的基本拼式拼写,其他音节用轻声的基本拼式拼写,辅音也用轻声的基本拼式拼写。由于1声与轻声的基本拼式相同,所以单从拼式上是看不出来哪一个音节是1声,哪一个音节是轻声的。因此规定,在所有音节都是1声或者轻声的时候,规定倒数第2音节读1声,其他全部读轻声;在有1个音节是4声的时候,其他音节全部读轻声。例如,“Bush”应该拼写为“Bwshi”;“Clinton”应该拼写为“Kelinten”。 11.6 缩略语拼写法 第1,可以象原中文那样,取每一个汉词的第一个音节,把几个汉词缩略成一个汉词。例如“人大= 人民代表大会”,“国标=国家标准”等等。 第2,可以象英语那样,取每一个单词的第1个字母,拼写在一起,作为缩略语,把几个单词缩略成一个单词。例如,“dzjsj = dyanzii jyswanji = 电子计算机”。 第3,可以象古文那样,取第1个音节的声母,第2个音节的韵母,拼写在一起,把两个音节缩略成一个音节。这种方法叫做反切法。例如“甭= bwng = bu ywng = 不用”,“byaw = bu yaw = 不要”,“zyangzi = zheh yeang zi = 这样子” (网上现在用“酱紫 =这样子”),等等。 11.7 移行规则 与英文的移行规则相同。属于同一音节的字母必须书写在同一行内。属于同一单词的不同音节写在不同行内的时候,前一行最后一个音节的后面要附加“-”。 11.8 标点符号使用法 使用英文的标点符号来标示汉语拼音文字,而不是使用原中文所使用的标点符号。