现代方法考证《红楼梦》作者

打印 被阅读次数

【现代方法考证《红楼梦》作者】窈窕淑女司令

去年某时在某朋友家作客时乱翻看到的一条消息,今天不知为什么忽然涌现在脑海中,可能有些微误差。

是说长期以来各界普遍承认曹雪芹只写了《红楼梦》的前80回,后40回是高鹗所续。但在1981年威斯康新的一位名叫陈炳藻的学者,在于美国召开的首届国际《红楼梦》研讨会上宣读了一篇论文:《从词汇上的统计 论《红楼梦》作者的问题》。轰动了整个红学界。

陈炳藻用计算机对《红楼梦》中的字、词的出现频率进行统计处理分析,彻底质疑后40回是高鹗所续的说法,认为整个120全是曹雪芹一人所作 人的语言风格在表达时都具有个人特征,是人格在文字语言活动中的一种体现,而这种风格可以编程须用数量特征来反映出来。 

例如:句长、词长的运用习惯,或字词在文章作品中出现的次数,等等。大数量的统计分析发现人与人之间的风格都很不相同。这门学科有个新词叫“计算风格学”

运用“计算风格学”也解决了不少所谓“佚名”作者或有争议作者的公案,比如:很多人一直质疑《静静的顿河》的作者是不是肖洛霍夫(1965年获诺贝尔奖),并说是他从一位名不见经传的作家克留柯夫那儿抄袭来的。连索尔仁尼琴等许多有名作家都认为如此。理由是肖洛霍夫年纪太轻不可能有小说中的生活经历。而肖洛霍夫本人也属於“one hit wonder",这本书后就再没写出什么有价值的作品了。 

於是有许多学者用计算风格学进行研究,把肖洛霍夫的《静静的顿河》与克留柯夫的作品进行分析,分析包括比较句子长短、词类分析、词类在句子中的不同位置、句子结构、结尾句子的用法等等。结果确定《静静的顿河》的确是肖洛霍夫写的。

淑女司令 发表评论于
化学键,你说的有一定道理
化学键 发表评论于
感觉 false positive 和 false negative的可能性都比较大, 因为不同人的风格经过那种计算可能得出相同或者相似的结果,那就是说,在误差范围内,没法区别。 这可能是所有的统计的本质,即任何统计结果都是说明某种结论的概率,而且都有个置信期间。
窈窕淑女司令 发表评论于



夜林 发表评论于
这个话题很有意思,我有个同事研究方向是 "text mining", 跟计算风格学多少相关,所以我听说过一些。可惜司令贴本文在走廊时我正忙,现在都沉到第二页了,就在这儿瞎跟两句吧。用计算风格学来判断作者,其精确度不难验证。比如,把红楼梦中确认是曹雪芹的前80章抽出来,再从中随机选40章,统计出其风格,然后以此来判断剩下的40章是否是曹雪芹的,看有多少章被错误的否决掉,这被称作 false rejection rate(FRR)。又把<<三国>>,<<水浒>>,<<西游>>中的章节拿来判断,看看有多少被错判为曹雪芹的作品,即 false acceptance rate (FAR). 如果FRR跟FAR两项指标都很低,就证明这套理论确实可行,以此去判断红楼梦剩下的章节是否出自曹手,就比较有把握了。
登录后才可评论.