关于Folksonomy(分众分类)与语言的关系是一个很有意思的问题。
Tag的兴起源于两种社会性网络服务的应用 - del.icio.us书签和Flickr的图片分享服务。这两种Web服务很巧妙的将Tag功能运用其中,配合他们独特的易用性,一定程度上引爆了Tag以及分众分类的流行。不过这些服务的语言系统都是基于英文,所以在接受和认知程度上,他们更符合英文用户的使用习惯。
分词特征:英语和汉语在分词的定义上有着显著的区别。英文中的词干以单词形式出现,而中文中的词干是由单个字组成的“词组”。从语言学(Linguistic)的角度来说,英语中的单词可以直接排它性的定义,而汉语的词需要通过特定的分词结构来进行区别。举一个简单的例子,“她用魔法做了一个毒苹果然後扮成一个老婆婆到森林去找白雪公主”。这个句子中的“苹果”和“果然”就需要通过中文的分词算法来解决,到底是“苹果”为一个词还是“果然”为一个词?而英语中很少会出现这样的问题。总的来说,两种语言的分词特征有显著不同。关于中文分词详情见卢亮的中文分词系统。
语义普遍认知(Common Sense)的差别:在不同的语言环境下,对语义的普遍认知存在很大的差异,比如Technology,这是一个普同的定义词,但在汉语中,对于它的解释可能是:科技,技术,工艺等等。在这种情况下,Technology本身在英语语境的普遍认知度则比科技,技术,工艺这三个词中的任一词在汉语语境中的普遍认知度高。同样的情况也出现在汉语语境中,Keso举了“春节”这个例子,在英文中它可以表述为ChineseNewYear,SpringFestival,LunarNewYear等等。可见,不同语言系统中的语义普遍认知度差别明显。
缩写词的特征:这是在英语中一个很特有的现象,比如Get Things Done这个短语是一本书名,在使用中往往被缩写为“GTD”,又比如中国共产党 - Chinese Communist Party,在使用中被普遍缩写为CCP。在英语语境中,许多特定词组都是通过缩写形式来表达。而这种表达方式运用于Tag标签就非常方便,如创作共用Creative commons往往被缩写为CC, 这样的例子不胜枚举。但在汉语语境中则没有这个特征。
趋同性:在整个Tag系统里面还有一个很显著的特征,就是趋同性。也就是对于同一个对象的定义,往往人们趋同选择被定义次数多标签作为其分众分类。举个例子,boingboing在美味书签中被使用“Blog”标签了200多次,而被使用“news”标签了90次,也就是说,用户在定义的时候更趋向于选择使用次数多的标签。而这种结果又恰恰的反射出大家对同一事物的普遍认知度上。所以在整个Tag系统中,用户对一个事物的理解有着趋同性的特征。并且这种趋同性从一个侧面能够反映出群众的普遍认知度,甚至用户结构等。
通过最近做的一些简单使用调查,结合开发中的一些经验,对于分众分类在在汉语上的应用和普及我持比较保守的态度。不伦是从语言的使用习惯,用户群的普遍认知度,还是汉语语境的分词结构,许多地方分众分类标签容易模糊用户的导向,分众分类在中文的社会性网络服务中作为一种辅助功能而存在更为可行,或者在某一些特定领域比如具体地点名称上进行应用,但作为内容平级分类模式,其应用与汉语语境的用法和习惯等诸多方面无法协调,它并不是一种能够在中文环境中保持生命力的应用模式。