赏读|林语堂与中文检索的创新
北京青年报客户端 2023-09-23 09:00

截屏2023-09-23 17.30.23.png

1917年,23岁的林语堂在《新青年》杂志上发表了自己的第一篇作品。这份杂志两年前在上海法租界创刊,给中国躁动不宁和聪颖卓绝的青年人提供了一个平台。杂志除中文刊名外还有同样语义的法文刊名“La Jeunesse”,显示了带有马克思主义锋芒的世界性风格。在这本封面加红套印的平装杂志上,勤于思考的年轻人发文表达激进观点,介绍西方思想,质疑传统知识。主编把杂志的使命说得很清楚:如果中国必须丢弃过去所有传统的沉重包袱方能与外部世界竞争,那也只好如此。

与各种激烈批评传统文化的文章相比,林语堂的文章没有那么慷慨激昂。他选择了一个看似无害无趣,更适于图书馆工作者思考的题目——《汉字索引制说明》。同期杂志上的另一篇文章更吸引眼球,因为它介绍了法国哲学家亨利·柏格森关于时间的内部体验学说,这个学说看起来足够新颖。林语堂那篇7页长的文章没有提出什么振聋发聩、令反叛青年趋之若鹜的主张,但它后来做到了杂志中任何其他文章都做不到的事:它不可逆转地改变了新旧知识的景观。

林语堂的提议乍看似乎简单,但其实可以算是一份组织汉字的完整指南。他把汉字分解成笔画,确定了5类笔画:横、直、撇、点、勾。这里隐约可见传统上教授书法时使用的永字八法的痕迹。可是林语堂给他的5类笔画界定的范围要宽得多,他注意的是笔画的方向,不是笔画的样式。例如,一横不仅包括明显的一道横线,如汉字的“一”,而且包括任何从左到右以类似的动作写出的笔画,不一定是平的。

林语堂的5个基本笔画

数千年的书法练习使得笔画和笔顺根深蒂固,发展出了一套先写哪笔,后写哪笔,直至完成全字的固定规则。在英文书写中,可以想象写字母“A”时先写中间的小横,但常规写法是先写左边的斜线,后写右边的斜线,最后写连接这两条斜线的小横线。同样,写字母“X”的时候先写哪一笔都可以,结果毫无差别。但是,手写汉字时,笔画和笔顺严格得多。林语堂用一个字的首笔画作为第一分类依据,却发现分得不够细。于是他在那5个基本笔画的基础上加以扩大,确定了19个首笔画,囊括了所有汉字书写的第一笔。

林语堂在5个基本笔画的基础上确定的19 个“首笔画”

接下来林语堂把第一笔和第二笔放在一起,找出了28个头两笔的格式,几乎适用于所有汉字。这如同先分出所有以一条竖线开始的字母:“B”“D”“F”“H”“K”“L”“M”“N”“P”“R”。然后加上第二条规定:第一笔竖线后必须是曲线,这样前述那些字母就剩下了“B”“D”“P”“R”。用确定的一套头两笔组合来辨识汉字,如此产生的组织格式与字母的逻辑不相上下。

林语堂这个简单明了的办法向数千年来研究、学习和规范汉字的传统提出了挑战。他显示了汉字如何可以按照其自身组织来分类,而不必依赖其他外在的原理,无论是西方字母还是代码。在字典中分类查找汉字从来都是靠部首。在林语堂之前,没有一个中国人提出过他这样完整的替代部首制度的方法。祁暄仅仅是开了个头。

传统上,分类所依靠的原理因多年的习惯和文化实践积淀而成,而非来自抽象的语言理论。语文学和词典学是中国经典学问的核心,文字本身也是研究的对象。许多个世纪以来,学者们努力通过证实某个字的意思来保存古人的智慧,这是训诂学这门备受尊敬的学问的关键。印刷术发明之前,此事的难度超乎想象。即使手抄本的字体依照规范,仍旧有许多笔画差那么一点。一横写成一撇能引得以后好几代学者对这到底是什么字争吵不休。

管理汉字的全部词汇枯燥无味,吃力不讨好。把字词整理记录成词汇表是对汉语知识基础的重要支撑。这项工作是对汉语词汇的必要维护保养,需要怀着负责任的精神耐心地、不厌其烦地反复比较对照,细致入微地分门别类。所有这些一丝不苟的工作都遵循若一条基本规则。两千年来,作为汉字一部分的部首一直是分类的唯一标准。最早的汉语书写出现后大约1100年到1500年,部首得到了确定,当时用于管理内务。那时汉字的数量已经相当可观。

第一个汇编部首的人名叫许慎,是东汉时期的大儒和经学家。因为之前无人对汉字做过总结或研究过汉字的用法,所以许慎确定了540个部首来厘清混乱无序的9353个汉字。他深信,必也正名乃天下至道。这个信念深刻影响了他的组织准则。据说540这个神奇的数字来自代表“阴”“阳”的6和9相乘之积,再乘以10,它留出了足够的类别数目。他的制度从部首“一”开始,象征着万物之源,到代表时光循环的12个部首结束,形成了制度在概念上的完整性。

简而言之,部首是神圣的,上千年来一直得到尊重和遵守。不过,时常有人发问:为何要有如此多的部首?到底多少部首最为合适?对此众说纷纭。10世纪,一位僧人把部首数目从540减到了242,近500年后,一对父子选择了444这个数字。最后的214个部首是明朝时确定的,由太学生梅膺祚整理编入了自己编纂的《字汇》之中。到18世纪,爱书如痴的康熙皇帝采纳了214个部首的制度,命人编纂一部以他命名的权威性字典,由此确立了214个部首的权威地位。

到20世纪早期,部首制度开始现出裂痕。几个世纪以来,人们一直在修改、补充、调整部首制度,以维持它的可行性,但这个制度学习和使用起来仍然费时费力。没有易于掌握、有章可循的规则来储字检字,也没有合理的办法来管理浩如烟海的字轴和书籍中用汉字记载的大量故事、歌谣和王朝历史。

中国人在听说亚里士多德的分类学或梅尔维尔·杜威的十进分类法之前,很早就有了自己组织典籍的方法。他们不像杜威那样依靠数字和小数点,也不像查尔斯·A·卡特那样使用字母。卡特在1880年前后开始使用字母来标识不同的题材,后来他的制度成为美国国会图书馆目录制度的基础。中国真正的书目分类始于公元前1世纪,建立在道德秩序的概念之上。一位儒学家设计了一套复杂的制度,有7个大类,下分38个小类。儒家经典居于首位,包括天文学、风水占卜、药理学、性学在内的科学和医学敬陪末座。两个世纪后,一位秘书监把被称为“七略”的七类缩小为更简练的“四部”,即四类。几经调整后,四部被确定为延续至今的形式:经、史、子、集。四部之下分别收藏了海量书籍和记录。据报告,到15世纪末,中国产出的书目和册数比世界上所有其他国家加起来都多。

18世纪,中国执行了一项巨大无比的皇家藏书项目,经、史、子、集四部实现了标准化。在《四库全书》的编纂过程中,大批学者奉命在四部的各部之下进行编集。《四库全书》共包含近8万卷书,历时10年终得完成。四部的次序反映了它们的重要性等级。这种以儒学为尊的书目制度在以中国为中心的世界中合情合理,但用生活在20世纪第二个十年的林语堂的眼光来看,它与西方的图书馆制度相比,在现代没有多大用处。

在1917年刊登在《新青年》上的文章中,林语堂把汉字和汉语信息管理视为同一个问题。若能轻易地在字典里找到一个字,同样可以很快找到一本书书名中的第一个字。所以,解决前一个问题的办法一定能够解决后一个问题,而办法从来就摆在那里,那就是汉字的结构。林语堂表示,汉字完全可以应付现代的挑战。它的进步无需任何外援,不用罗马字母,不用数字,也不用代码。汉语不需要其他表现方法,它自己特有的笔画和笔顺就足够了。

林语堂的主张立即引起了共鸣。在中国深陷疑惑与焦虑之时,他的主张给人们带来了希望、慰藉,甚至信心。新文化运动的一位领袖钱玄同看到,林语堂的思想远超同时代的人,对这位年轻的索引编制者赞不绝口。一时间称誉四起。德高望重的教育改革家蔡元培指出,林语堂不仅重新构想了笔画的功能,而且他的办法详细展示了笔画如何引领并构成一个字的全部轮廓。林语堂发现的汉语表意文字的逻辑足以媲美西方字母的组织能力,却一个拉丁字母都不用,这是何等的巧思啊。

从康奈尔大学留学归来的庚款留学生胡适的看法最深刻。他看到,林语堂研究的是使中国的往昔得以延续到未来的基础结构。林语堂的成就是认识到汉字有自我组织的能力,能够用来在中国浩大而丰富的知识基础内存储、搜寻、分类、选择并查找想要的信息。这个能力可以扩展到各种排序系统,甚至是其他语言的排序系统。也可以借此能力恢复中华知识宝库的文化力量。胡适说,林语堂的索引制是打开其他门的那扇门,是被批评传统的人忽略了的奠基工作:

“整理”是要从乱七八糟里面找出一个条理头绪来;从昏乱糊涂里面查出一个明确意义来……最没有趣味,却又是一切趣味的钥匙;最粗陋讨人厌,却又是一切高深学问的门径阶级……这样的努力中最困难又最不可缺少的是汉字的重组……即汉字的分类与组织。

现代压力逼迫中国与传统决裂,全中国如履薄冰。值此危难之际,众多革命者奋起行动,为事业抛头颅洒热血。林语堂与他们不同。他对重建中国的贡献是帮助拯救中国的传统与遗产,使之不致湮没。

编辑/韩世容

相关阅读
读屏时代,为什么还要狠抓写字
北京日报客户端 2024-10-29
新知|最难写的一个汉字是“○”?
北京青年报客户端 2024-09-22
赏读|梁晓声:写作与语文
收获 2024-06-14
用意念就能写汉字?这可不是科幻电影!
央视新闻客户端 2024-04-24
浙江大学首次实现汉字书写脑机接口 “意念写字”成现实
中国新闻网 2024-04-24
赏读|林语堂:鲁迅之死
作家联盟 2024-04-16
专栏|林语堂的西南联大之行意外惹争议
北京青年报客户端 2023-12-11
赏读|梦二与现代日本艺术
北京青年报客户端 2023-12-02
最新评论