中国古籍保护网 您所在的位置:网站首页 中医药古典文献的文字包含哪些内容 中国古籍保护网

中国古籍保护网

2023-07-07 14:47| 来源: 网络整理| 查看: 265

  摘 要

  古典知识库是关于中国古代历史和文化的综合性知识总集,是实现机器学习、人工智能的基础性工具。古典知识库建设是将散布在浩如烟海的文献中的知识析出,经过整理,将无序的知识有序化、体系化、结构化,变成计算机可以处理的数据。古典知识库的建设需要重点考虑以下问题:如何表达知识,如何认识古代知识的不同形态和不同类型,知识单元如何抽取和标引,如何处理隐性知识,如何揭示知识之间的关系。一个能够完整、准确反映中国古代文化特点的古典知识库应满足以下基本条件:支持古代文献的阅读、研究,支持古代文献的全文检索和语义检索,是拥有知识且具智能性的系统,是结构化、标准化、开放的、可扩展的知识平台。类书是中国古代最重要的知识工具,类书的编纂过程就是一个从知识发现到知识标引、知识分类与组织,再到汇编成专门或综合性知识工具的过程。类书从性质、特点到具体的编纂方法,与古典知识库有着高度的一致性,可以为后者提供借鉴和素材。同时,用古代知识名称进行标注的文献如《山海经》《尔雅》《事林广记》《永乐大典》等也是建设古典知识库重要的语料资源。

  在以中国古代文化为对象的数字人文研究中,我们面临着不少难题:如何让计算机读懂中国的古书?如何借助计算机的大数据处理技术在一些原本看起来毫不相干的史料之间建立联系,通过关联关系、因果关系的分析,形成新的证据链,从而发现新的知识?在进行古籍数字化——数字人文研究最基础的工作时,如何通过语义关系让计算机准确判断古籍中一字多形、一形多义问题,进而作出正确的选择?这些问题的解决,都需要专家系统亦即我们通常所说的古典知识库来支持。

  知识库(knowledge base/repository)本质上就是一种知识工具,是“求解问题所需领域知识的集合,表现为基本事实、规则和组织成程序的模式,用于有关领域知识的获取、存储以及共享”。与传统知识工具不同的是,现代知识库是“利用计算机来表达、存储和管理某种特定领域的知识,通常包括概念、事实和规则,并利用知识来解决该领域的问题”。中国古典知识库,顾名思义,就是包括政治、经济、文化等一切与中国古代社会有关的知识总集,是根据古代文献对古代数据、信息、知识和智慧进行综合处理的信息系统。

  古典知识库不仅是实现机器学习、人工智能的基础性工具,同时,它本身也是数字人文研究中的一部分,通过对超大数据、超大规模的古代知识的搜集、整理,本身就能形成一系列有价值的成果。

  近年来,学术界在中国古代文化知识库建设方面取得了相当多的成就,但大多集中在一些专门或专题知识库上,如人名知识库、地名知识库、中医药知识库、物产知识库等,而综合性、基础性的知识库建设还基本上是一个空白,相关研究还处于起步阶段,对于知识库建设的路径、具体方法等还在探索之中。本文即试图通过对中国古代文化和文献的梳理、分析,探讨中国古典知识库的建设路径和方法。

  01、古典知识库与数字人文研究

  知识(knowledge)是一个现代概念,是“通过学习、实践或探索所获得的认识、判断或技能”,包括:①事实性知识,如术语知识、具体细节和要素的知识;②概念性知识,如分类与类别的知识、原理和通则的知识以及理论、模型和结构的知识;③程序性知识,即如何做某事的知识,包括技能、技术和方法的知识;④元认知知识,如策略知识、认知任务的知识,等等。英国学者波兰尼曾经对知识的类型进行区分,他说:

  人类知识有两种:诸如书面文字、地图或者数学公式里所展示出来的,通常被人们描述为知识的东西仅是其中之一而已;另一些未被精确化的知识则是另一种形式的人类知识,比如我们正在实施某种行动之时怀有的关于行动对象之知识。假如我们将前者谓为言传知识(explicit knowledge),后者则称作意会知识(tacit knowledge)的话,那我们就可以说人类始终意会地知道自己正在支持(holding)自己的言传知识为真。

  所谓“言传知识”,又译“显性知识”;“意会知识”,又译“隐性知识”或“默会知识”。简言之,显性知识即“以文字、符号、图形等方式表达的知识”,隐性知识即“未以文字、符号、图形等方式表达的知识”。

  中国古代虽然早有“知识”一词,但并非我们今日所说的知识。《墨子·天志》中“亲戚兄弟所知识,共相儆戒”之“知识”,指知道、认识的人。中国古代“知”同“智”,有智慧、识见的意思,也有今天“知识”的意思。《韩非子·解老》云:“故视强则目不明,听甚则耳不聪,思虑过度则智识乱。”这里所说的“智识”,指智力、识见、判断事物的能力,仍与我们今天所说的“知识”有一定的差距。虽然如此,现代意义上的“知识”从人类社会诞生之日起就已产生,并且不断积累、丰富。在中国古代虽然很少有学者像古希腊柏拉图、亚里士多德那样去思考知识的本原,但却积累了十分丰富的知识,并且通过浩如烟海的文献传承至今。

  中国古代的“知识”,既包括所谓“名物制度”,古代事件、人物等,也包括思想观念、情感、审美;既有个人的知识,也有社会的知识,并且个人的知识在很多情况下会向社会的知识转变①。在这些知识中,有的比较客观、比较具象、可以被描述,即波兰尼所说的“显性知识”;还有一些“只可意会、不可言传”的知识,即波兰尼所说的“默会知识”或“隐性知识”,通过一些约定俗成的方式来表达,例如成语、典故、俗语、隐语、双关语等,每个成语、典故、俗语、隐语、双关语背后就是一个历史故事、一个文学意象,于是,隐性化的、抽象化的知识就变成了大家都能理解的知识。

  总之,中国古代的知识,范围很广,构建中国古典知识库,需要基于中国古代文化的特点,尽可能将显性知识、隐性知识都纳入其中。

  自从人类社会产生以来,人类进步的历程实质上就是知识积累的历程。将知识总结出来,世代相传,除口耳相传外,文献是最主要的载体,文献所记录的知识可以突破时空的限制,其效率远远超过前者。随着社会的发展,知识的积累、丰富,人们需要对知识进行管理,以方便学习和利用,专门的知识工具——工具书便应运而生。古代的“工具书是离散的片状知识的集合”,工具书将离散的、片状的知识从文献中提取出来,然后重新组织,使之更系统化。通过重组,原本离散的知识得以聚合,并且更加系统,原本离散的知识因为关联而显现出隐含的逻辑联系,隐性知识因而可能转变为显性知识,孤立、不完整的知识可能因此变得更系统、更丰富、更完整。

  近年来,数字人文研究已经成为传统文化研究领域一个崭新的学术研究范式,作为数字人文研究的基础、也是重要内容之一的古典知识库备受学术界的重视。目前,涉及中国古代历史文化的知识库以专门性知识和专题性知识为主。具有代表性的专门性知识库有中国历史地理信息系统(CHGIS)、中国历代人物传记数据库(CBDB)等,这类知识库所涉及的知识是专门的,如地理、人物,所用的资料主要通过一些相关的原始文献和专门的工具书获得。

  如中国历代人物传记数据库(CBDB)收录的五十多万条人物传记,其资料来源如下:各种人物传记资料,包括正史、地方志中的列传及墓志墓表;各类文学作品,包括文集中的祭文、序、记、书信等;官方文书,等等。专题性知识库有方志物产知识库,及各种专门词表库,如人名、地名、职官名等,这类知识库大多是一些客观的事实性数据库,其内容比较具体、确定。但因专门或专题,这些知识库在应用范围、场景、深度方面都会有些局限。

  因此,针对中国传统文化研究,在专门性、专题性知识库之外,还需要有基础性、综合性的知识库,而综合性的古典知识库会涉及古代社会的方方面面,相较专门性、专题性知识库而言,在广度、深度、难度上都要大得多,同时也重要得多。

  古典知识库的建设,仅就内容而言,涉及许多问题,其中,知识单元和知识元(即知识加工和利用的基本单元,包括知识的名称、领域、内容、来源、出处)的选定和分析、知识标引与名称标目、知识分类是一些关键性的问题,关系到如何从古代文献中抽取古代的知识,如何表达知识。同时,知识的分类、知识与知识之间相互关系的揭示等是实现语义搜索等功能的必要条件,这些都是古典知识库建设的重点与难点。具体说来,有若干问题需要重点考虑。

  第一,如何表达知识。构建古典知识库,目的在于帮助计算机准确理解古代文献。古典知识库中的知识是古代的知识,我们不能简单地用现代知识去解构古代的知识和知识体系。客观地还原、再现古代的知识与知识体系,是构建古典知识库最基本的原则。所谓“诗无达诂,文无达诠”,古代诗文,特别是涉及哲学、思想、审美的概念,不同的人会有不同的理解,在不同的场合、不同的语境下同一个词往往会有不同的意思。不能用张三的观点去解释李四的观点,也不能用一千年后的概念去理解一千年前的概念。例如,朱熹的“理学”与二程的“理学”显然是有不同、有发展的,与陆九渊、陈献章、王阳明的“理学”显然也是不同的。

  在建设古典知识库时,虽然理论上可以由专家对相关概念进行解释,但一则工作量太大,难以操作,二则专家的解释,也只是一家之言,难以取得学术界共识,更难以符合古代思想家的原意。而使用相关的原始文献,更能客观地表达不同的思想、观念。因此,在建设古典知识库时选取文献原文,才不会“曲解”古人,也能给研究者留下思考的空间。

  第二,古代的知识包括哪些内容。前面我们提到了知识的不同形态、不同类型,而所谓事实性知识、概念性知识、程序性知识、元认知知识在具体对应到中国古代的知识时,可能很难作具体的区分。其实,有一个捷径可以帮助我们达到目标,就是充分利用中国古代的知识工具——类书,以及各种专科性的知识工具,如政书、专志等,下文将就此进行详细讨论。

  第三,知识单元如何抽取、标引(indexing)。中国古代的知识主要记载于文献之中,一部文献包含了众多的知识单元以及其他信息,因此,从古代文献中抽取知识单元,是一项工程量十分浩大、专业水平要求极高的工作。在实际操作中,如果直接从现有的古代文献中抽取,需要大量专业人员投入巨大的精力,事实上并不可行。因此,如何有效地建设古典知识库是一个在具体操作层面必须解决的问题。因此,利用古代的知识工具对知识进行抽取、命名以及组织,就成为了一个必然的选择。

  第四,如何处理隐性知识。作为知识库,比较容易处理的是“显性知识”,如古代的名物训诂、典章制度、人名地名等内涵、范围比较确定的内容。虽然名物有各地方言、雅称俗语的不同,人物可能有字号室名的不同,职官有时代变迁而导致的职守品级乃至名称的变化,不同时代的地名有名称、四至、治所的变化,但这些都能够通过名称规范(name authorities)等传统信息处理方法来解决。但涉及“隐性知识”,特别是中国古代大量词汇,从字面上看并无特别的意义,但其背后却隐含了自然知识、社会知识、历史知识、文学知识、生活知识和具有中国特色的思想、观念、审美,很难通过名称规范来处理。

  例如,“东篱”直译是东边的篱笆,但在中国传统文化里,却是“采菊东篱下,悠然见南山”的恬淡;“梅妻”背后是“疏影横斜水清浅,暗香浮动月黄昏”的优雅;“古道西风”暗含“古道西风瘦马,断肠人在天涯”和“古道西风,荒丛细水,老树苍苔”的苍凉。在中国传统文化中,有大量的知识很难用语言文字准确地描述,只可意会,难以言传。

  因此,常常需要借助原始文献、相关的注释以及古代相关知识工具的分类、关联关系等来辅助解决,而这正是属于数字人文研究领域中所涉及的自然语言处理、人工智能的研究范围。

  第五,如何揭示知识之间的关系。古典知识库的建设,不仅仅需要将古代的知识罗列出来,更重要的是对古代个别知识与整个知识体系之间的关系给予“适当”的处理。例如,在中国传统的知识体系中,“天”不仅指日月星辰风雨雷电等天文现象或气候现象,也包括元气、太易、太初、太始、太素等哲学概念;“梅”既是一种植物,包括各种品种,也包括梅的各种风姿,“岁寒四友”之一的“梅”所具有的文化象征意义更为重要,是文学作品和传统绘画的主要题材。因此,“梅”就是中国传统文化中的一个庞大的知识体系。在《永乐大典》中,与“梅”有关的知识占了整整6卷近13万字,“梅”字头下列罗了红梅、杏梅、蜡梅等99个知识单元,内容涉及梅的植物学知识、梅的名目品种、梅的制品、与梅有关的绘画、与梅有关的诗文,每一个知识单元又通过引证多种文献加以表述、诠释、引申,如“红梅”,直接的引证文献近150种,引证的单篇诗文数量更多。这些引证文献,大致可与知识元的概念相当,它们共同构成了中国传统文化中“梅”的自然属性与社会属性,因此,在古典知识库中应当对此予以特别的处理。

  基于以上对中国古代知识与知识体系特点与难点的认识,一个能够完整、准确反映中国古代文化特点的古典知识库应满足以下基本条件。

  第一,支持古代文献的阅读、研究。无论是普通百姓的阅读还是专家的研究,都需要古代知识的专业帮助。因此,古典知识库首先应该是一个关于中国古代文化的知识工具,这也是古典知识库最基础、应用最广泛的功能。

  第二,支持古代文献的全文检索和语义检索。本来全文检索可以通过计算机字符串匹配的方式来实现,但是,古代文献版本众多,版式复杂,版面情况不一,且存在大量的异体字、一字多形、一形多义的情况,这些异体字、异形字各有其计算机编码,字符串匹配的方法并不适用,在检索时,通常需要知识库提供知识以及术语、词汇的支持,通过上下文的语义关系进行判断。

  第三,知识库应该是拥有知识且具智能性的系统。一是需要支持对知识的查询、获取,二是要帮助计算机通过知识之间的关联关系等发现新的知识和隐性的知识。因此,古典知识库应当能够反映古代知识之间、个别知识与整个知识体系之间的关系。

  第四,中国古典知识库应该是一个结构化、标准化、开放的、可扩展的知识平台,其内容可以供其他平台共享和调用,可以根据需要进行框架扩充和调整、内容补充和修订。

  02、中国古代的知识与知识工具

  东西方有着不同的文化传统。古希腊的哲学家们更重视探讨事物的本原,而古代中国人更重视对事物的观察,并在此基础上进行推理。因此,中国古代对“知识”更偏重于描述、归纳,而很少去“形而上”地研究,追寻知识的本质。

  早在殷商时期,人们就开始有意识地记录他们对世界的认知。在甲骨文中,可以看到大量有关政治、军事、经济、社会、科技、宗教等方面的知识。在上古成书、代表中国传统文化的《易》《书》《诗》等经典文献中,就记录了各种各样的知识,特别是《诗》,大量诗篇记录了当时关于宇宙、天文、气象、动物、植物方面的知识,孔子就曾说:“小子何莫学夫《诗》!《诗》,可以兴,可以观,可以群,可以怨,迩之事父,远之事君,多识于鸟兽草木之名。”所谓“鸟兽草木之名”,便是当时人们关于动物、植物的知识。人们通过对天象、物候的长期观察,发现了一些自然界变化的现象和规律,积累了相关的知识:“七月流火,九月授衣”,心宿三星从农历七月开始西沉,意味着天气开始转凉;“月离于毕,俾滂沱矣”,月亮运行到毕宿的位置,预示着将有大雨;农田发生虫害,“秉畀炎火”,可以用火烧的方法来解决;“师出以律,否臧,凶”,行军没有纪律,一定会打败仗。战国时荀子以一些生活知识和社会知识为例讲述了学习的重要性和方法:

  青,取之于蓝,而青于蓝;冰,水为之,而寒于水。木直中绳,輮以为轮,其曲中规,虽有槁暴,不复挺者,輮使之然也。故木受绳则直,金就砺则利,君子博学而日参省乎己,则知明而行无过矣。故不登高山,不知天之高也;不临深溪,不知地之厚也;不闻先王之遗言,不知学问之大也。于越、夷、貉之子,生而同声,长而异俗,教使之然也。

  人们称知识丰富为“博闻”“多识”,称知识丰富的人为“博物君子”。

  至迟从商周时代开始,人们就已经有了对事物(包括知识)进行“分类”的观念。在政治制度方面,很早就有了按各种职官分工的制度,专门承担历史记录、文献管理的史官也有很细的专业分工,“左史记言,右史记行”,从而产生了专门性的文献,如《春秋》以记史事为主,《国语》以记君臣言论为主。这些都是上古知识分类的萌芽。与知识分类有关,人们很早就开始按专题编纂文献,以供学习之用。春秋时楚庄王任命士亹担任太子的老师,士亹向申叔时请教,申叔时回答说:

  “教之《春秋》,而为之耸善而抑恶焉,以戒劝其心;教之《世》,而为之昭明德而废幽昏焉,以休惧其动;教之《诗》,而为之导广显德,以耀明其志;教之《礼》,使知上下之则;教之《乐》,以疏其秽而镇其浮;教之《令》,使访物官;教之《语》,使明其德,而知先王之务用明德于民也;教之故《志》,使知废兴者而戒惧焉;教之《训》《典》,使知族类,行比义焉。”

  因为这些文献中包含了丰富的自然与社会知识,因此成为教育后代的教科书。战国以后,传统的社会等级和世官世禄制度被打破,思想文化空前活跃,代表社会各阶级、阶层、社会团体的学派纷纷登上历史舞台,“学在王官”的局面被打破,知识得到了极大的丰富,文献数量剧增,其中包括许多记载专门知识的文献,如《墨子》的“城守”篇专记城市防卫的知识,“墨经”六篇则主要讨论认识论、逻辑和自然科学的问题,内容涉及数学、力学、光学、几何学和工程技术等知识。战国时代,还出现了具有知识工具性质的文献和以汇编“知识”为主要目的的文献,最具代表性的有《禹贡》《山海经》《周礼》和《吕氏春秋》。

  《禹贡》以大禹治水故事为背景,专述天下“九州”的山河江湖、土壤田地、物产人文,是西周到战国时期关于自然与人文地理知识的总汇②。

  《山海经》以地理为经纬,反映了当时人们对世界的基本认识,其知识谱系如图1所示。《山海经》记载了当时人们“知识”所及范围内的山川物产、奇禽怪兽,按地理或异物名称对相关“知识”进行了描述,呈现了一个完整而明确的先秦时期人们关于世界的知识体系。《山海经》编纂的目的可能是便于让战国时已经摆脱地域限制、可以往来各地的士商们在旅途中对于各地“怪物”有所了解和避忌,属于博物性质的书籍,是一个十分有用的知识工具。

  

  图1 《山海经》知识谱系

  同样,大约也是成书于战国时代的《周官》(即《周礼》),以“周公制礼”的传说为背景,设计了一套体系十分严整的政治、经济、军事、文化、社会制度,其中《冬官》一篇早佚,后来人们以齐国官书《考工记》补入。《考工记》全篇内容就是一套十分完整的先秦制造业、建筑业、农田水利等方面的技术知识大全。这说明,当时的人们已经开始注意到了对知识进行梳理、分类和总结,为后世知识工具之先声。

  战国末年秦国丞相吕不韦为汇集天下知识,召集门下宾客编纂了《吕氏春秋》:

  是时诸侯多辩士,如荀卿之徒,著书布天下。吕不韦乃使其客人人著所闻,集论以为八览、六论、十二纪,二十余万言。以为备天地万物古今之事,号曰《吕氏春秋》。

  所谓“备天地万物古今之事”,即天下知识之总汇。《吕氏春秋》,向列杂家,所谓杂家,因其不主于一家,可称作汇集当时各种思想、各种知识之学。清代学者汪中指出:“是书之成,不出于一人之手,故不名一家之学,而为后世《修文殿御览》《华林遍略》之所托始。”清末学者李慈铭也说:“自来类书,实以此为祖,而《淮南子》继之,故所存古义独夥。而此作于秦火以前,殷周佚说,赖以仅存,尤可宝贵。”《吕氏春秋》一书,广搜博采,按类编排,这一点与后世类书的确有些相似。

  专科性文献在汉代以后得到了很大的发展,有的作为某种文献的组成部分,如历代正史中的职官志、地理志、天文志等专志;有的则独立成书,如《氾胜之书》《四民月令》《齐民要术》《农桑辑要》《天工开物》《大明一统志》《大清一统志》以及各种医书、本草等。特别是专志以及各种政书,因其时间、地理关系明确,内容清晰,并且文本结构化程度很高,远较一般文献更为准确,非常适合作为构建专业性或者专题性知识库的资料。以职官为例,《后汉书·百官志》记载:

  尚书令一人,千石。本注曰:承秦所置,武帝用宦者,更为中书谒者令,成帝用士人,复故。掌凡选署及奏下尚书曹文书众事。

  在这简短的文字中,包含了尚书令一职的品秩、职权、置废情况等,更重要的是有时间坐标。因为中国古代职官,在不同朝代、不同时期,虽然官名相同,但职责可能发生变化,如东汉时尚书令仅仅是一个秩千石的中级官员,职掌不过是文书工作,以后逐步变成六部首长。不同时代的“尚书”有完全不同的含义,因此在建设知识库时,需要加上时间条件,以区别之。

  真正属于记载综合性知识、专门供人查阅、利用而编纂的知识工具,当属战国末年至西汉初年成书的《尔雅》。《尔雅》共十九卷,全书按知识内容进行分类(见图2)。例如,卷四“释亲”通过亲属关系称谓阐释宗法社会的家庭与社会关系,下面再细分为“宗族”“母党”“妻党”“婚姻”四类。卷十三至十九涵盖了植物和动物两个大类,包括草、木、虫、鱼、鸟、兽、畜七大类,其中“兽”专指野生动物,与“畜”所指的家养动物相区别。“兽”之下又细分为“寓属”(寄寓木上者)、“鼠属”(地中行者)、“齸属”(反刍动物)、“须属”(人、鱼、鸟、兽气体所须之名);“畜”类之下又细分为马、牛、羊、狗、鸡五类和六畜总论③。

  从图2可见,在《尔雅》中,罗列了当时各种知识的名称,并且通过“互释”的方式,指出了同类知识的相互关系,通过类、属、知识名称的分级,揭示了知识的系统化结构。因此,《尔雅》实际构成了一个十分完整而系统的知识体系。

  1780年,德国人罗特基于狄德罗《百科全书》所蕴含的知识分类法,用“知识树”的方式勾画了狄德罗《百科全书》所蕴含的知识体系,从某种意义上说,《尔雅》在两千年前即用文字为我们勾画了一个知识树。

  

  图2 《尔雅》知识体系

  《尔雅》本为“五经之训故,儒者所共观察”,但由于其内容几乎涵盖了当时社会知识的各个方面,无论是知识名称、知识分类还是知识体系的完整性,都可视为一种综合性知识工具。当然,《尔雅》行文简易,主要采用“互训”的方法来表达知识的内容,与后世专门的知识工具——类书还有一定的差距,但却为后者之先声,宋代学者谢维新说:

  类书之编何所昉乎?自《尔雅》载虫鱼之名,陆氏疏草木之辩(辨),沿而下之,至于《孔白六帖》出而类书备矣。

  近人张舜徽也有相同的意见。

  一般认为,三国时期成书的《皇览》是中国古代第一部类书:

  帝(魏文帝曹丕)好文学,以著述为务,自所勒成垂百篇。又使诸儒撰集经传,随类相从,凡千余篇,号曰《皇览》。

  从《皇览》书名可以测知,其编纂目的主要是让皇帝于万机之暇能够遍览群书之菁华。“撰集经传,随类相从”就说明了类书的基本特点。“撰集经传”,是指《皇览》的资料来源,所谓“经传”,乃泛指所有文献,不仅仅限于儒家经典及注释,从今天我们尚能看到的《皇览》佚文可以确认这一点;“随类相从”,是指书中内容是分类编排的。

  从三国曹丕命人编纂《皇览》开始,由于类书这种工具性图书符合社会需要,类书编纂之风渐盛:

  移居鸡笼山邸,集学士抄五经、百家,依《皇览》例为《四部要略》千卷。

  初,简文在雍州,撰《法宝联璧》,罩与群贤并抄掇区分者数岁,……以比王象、刘邵之《皇览》焉。

  梁武皇帝使阮孝绪等,于文德政御殿撰《文德政御书》四万四千五百余卷。于时帝修内法,多参佛道,又使刘杳、顾协等一十八人,于华(林)苑中纂要语七百二十卷,名之《遍略》,悉抄撮众书,以类相聚,于是文笔之士须便检用,致令悬发握锥,缘仍懈怠。又有《寿光苑》二百卷、《要录》六十卷、《类苑》一百二十卷,终是周因殷礼,损益可知。名目虽殊,还广前致,亦犹床上铺床,屋下架屋也。

  后世类书抄录前代类书,“床上铺床,屋下架屋”,虽意在批评,但从另一个角度来看,也说明了类书的可扩展性,实际上是一个不断积累、完善的知识工具。北齐后主高玮也命人编纂了大型类书《修文殿御览》:

  齐主如晋阳,尚书右仆射祖珽等上言:“昔魏文帝命韦诞诸人撰著《皇览》,包括群言,区分义别。陛下听览余日,眷言缃素,究兰台之籍,穷策府之文,以为观书贵博,博而贵要,省日兼功,期于易简。前者修文殿令臣等讨寻旧典,撰录斯书。谨罄庸短,登即编次,放天地之数,为五十部;象乾坤之策,成三百六十卷。”

  类书从它出现的那天起,作为一种知识工具,就对社会产生了重大影响。早在北魏时期,贾思勰所纂的《齐民要术》,就曾利用过类书。唐代尚文学,方便文学创作用典需要的类书如《艺文类聚》《初学记》等受到普遍欢迎。到了宋代,编纂大型类书更是成为统治者“崇文”的重要标志,于是便有宋初编纂“四大书”之事,即一千卷的《册府元龟》、一千卷的《太平御览》、一千卷的《文苑英华》和五百卷的《太平广记》。在“四大书”中,《册府元龟》是史学类书,《太平御览》是综合性类书,《太平广记》是野史小说类的文学类书。

  “类书”实际上是一个模糊的概念。在中国传统的分类法系统中,类书是一个较为特殊的类目。《四库全书总目·子部·类书类·序》云:

  类事之书,兼收四部,而非经非史,非子非集。四部之内,乃无类可归。《皇览》始于魏文,晋荀勖中经部分隶何门,今无所考。《隋志》载入子部,当有所受之。历代相承,莫之或易。明胡应麟作《笔丛》,始议改入集部,然无所取义,徒事纷更,则不如仍旧贯矣。此体一兴,而操觚者易于检寻,注书者利于剽窃,转辗稗贩,实学颇荒。然古籍散亡,十不存一。遗文旧事,往往托以得存。《艺文类聚》《初学记》《太平御览》诸编,残玑断璧,至捃拾不穷,要不可谓之无补也。其专考一事如《同姓名录》之类者,别无可附,旧皆入之类书,今亦仍其例。

  由于类书为抄录群书中的各类知识汇编成书,清代四库馆臣称其“无类可归”,这说明了类书尨杂无定的性质。类书在宋代以前尚未成为一种专门的类目,著名的类书如《皇览》《华林遍略》等在唐初编纂的《隋书·经籍志》中还列在“杂家”类。

  究其原因,一方面可能是当时“类书”影响有限,在人们的认识当中,尚不足以列为一种新的文献类型,只是把它当作杂抄之书,故隶于“杂家类”;另一方面,也可能与这类文献数量还不够多,尚不足以成为一个独立的类目有关,其情形犹如史书在魏晋之前亦未能成为一个独立的部类而被置于“春秋类”之下一样。“类书”成为一个独立的部类,大概是从唐代开始、到宋代正式形成的。

  五代后晋刘昫等所纂的《旧唐书·经籍志》主要根据唐玄宗时著名目录学家毋煚的《群书四部录》与《古今书录》编成,其丙部子录下有“类事”类,收录图书22种7 084卷,包括《皇览》《类苑》《修文殿御览》《长洲玉镜》《艺文类聚》等类书,只是类名为“类事”而已。

  在北宋中期官修目录《崇文总目》中,开始设有“类书类”,收录类书46部、4 650卷。

  北宋中期欧阳修、宋祁所纂《新唐书·艺文志》丙部子录下设“类书类”,著录了包括《皇览》《类苑》《修文殿御览》和《艺文类聚》《北堂书钞》《初学记》等17家24部类书,共7 288卷,另有“失名三家”“不著录三十二家一千三百三十八卷”,另外还著录了刘秩的《政典》35卷、杜佑的《通典》200卷等后世归入“政书类”的图书。

  在南宋尤袤的《遂初堂书目》中,设有“类书类”,也收录了《三国蒙求》《本朝蒙求》以及《通典》《续通典》《唐会要》《五代会要》《国朝会要》等。

  在南宋另外两种著名的目录学著作——晁公武的《郡斋读书志》和陈振孙的《直斋书录解题》中,情况也基本相同。

  元初编成的《宋史·艺文志》著录“类事类”图书307部、11 393卷。

  直到清代的《四库全书》中,类书类的收录范围仍然十分模糊,如它收录的第一部类书为《古今同姓名录》,与我们现在理解的“类书”有很大的出入,此书在宋代陈振孙的《直斋书录解题》中则归入“小说家类”。南宋郑樵曾就此专门评论说:

  岁时自一家书,如《岁时广记》百十二卷,《崇文总目》不列于岁时而列于类书,何也?类书者,谓总众类不可分也。若可分之书,当入别类。且如天文有类书,自当列天文类,职官有类书,自当列职官类,岂可以为类书而总入类书类乎!

  像前面提到的宋代将后世所谓“政书”类中的典制、会要一类图书以及其他一些在今天并不符合“类书”定义的图书列入“类书”类,一方面反映了类书“非经非史,非子非集”“无类可归”的特点,另一方面也与其他后来独立成类的图书在当时尚未完全成形有关。例如“政书”类,直到明代《文渊阁书目》才开始设置,但《通典》等书仍置于“类书”类之下,“政书”类目直到清代官修《四库全书总目》才算基本定型。此外,宋代出现的金石类图书也置于“类书”类下④。

  当代学者胡道静将类书分为广义的类书和严格意义的类书。广义的类书有七类,包括姓氏书、政书、职官书、纪事本末、书钞体书、考证性笔记、目录书。严格意义的类书从内容性质上划分,有一般性的类书和专业性的类书;按体裁划分,有征事的,有征事兼诗文的,有词藻的,有编成韵语的,有重视图表的,更有综合数种的;按编录方法划分,有分类的,有韵编的,有以数目字来编录的;按编纂主体划分,有官修的,有私纂的;按用途划分,有供一般检查的,有为诗文取材的,有资科场之用的,有供启蒙之用的,还有备家常日用的。胡道静对于类书类型的划分,是比较全面的。综合起来,类书有两个基本特点:一是按类编排;二是抄录(包括摘抄)文献原文而成。

  类书的产生与流行,有其历史与文化的原因。战国以后,文献的数量和种类大增,除了经学著作之外,诗赋、史学、宗教类文献以及兵书、农书、医书、天文历法等文献大量增加,仅西汉末年刘向、刘歆父子整理出来的文献目录并经东汉班固略加增删而成的《汉书·艺文志》就著录文献38大类,626家,共13 029篇卷⑤,到了西晋初年,荀勖整理中秘藏书,编成《中经新簿》,著录图书“四部合二万九千九百四十五卷”。图书种数、类型大量增加,正如唐代魏徵在《群书治要·序》中所言:“六籍纷纶,百家踳駮,穷理尽性,则劳而少功,周览泛观,则博而寡要。”一方面是知识的急剧增加,一方面是文献数量的增加,为了更方便地发现和利用知识,具有知识工具性质的类书自然便得到了快速发展。

  宋代以后,类书发展很快。一方面,大型类书如篇幅达两万多卷的《永乐大典》和一万卷的《古今图书集成》即产生于这一时期;另一方面,类书的类型更为丰富,为适应商品经济和市民生活的需要,出现了大量的生活日用类书,如《事林广记》《居家必用事类全集》《万宝全书》等,此外,还有图文并茂的《三才图会》。为了让人们能够省时省力,萃取各类文献的精华,更方便地获取知识,同时也为了写诗作赋用典需要,特别是唐宋科举制度大兴以后,社会对类书的需求大增,不少书铺大量刻印类书,甚至请人自编类书售卖:

  宋自神宗罢诗赋,用策论取士,以博综古今、参考典制相尚,而又苦其浩瀚,不可猝穷,于是类事之家,往往排比联贯,荟稡成书,以供场屋采掇之用。其时麻沙书坊刋本最多,大抵出自乡塾陋儒,剿袭陈因,多无足取。

  不过,即使是清代四库馆臣极力贬低,但类书作为一种知识工具,在社会中所产生的重大作用,却是不能低估的。

  关于类书的性质,今日不少学者将其直接称之为中国古代的百科全书。从汇集古代知识这一点来看,似有几分道理。但与近代西方出现的百科全书仔细比较,仍可发现二者的不同。

  1728年西方最早的英文百科全书——《钱伯斯百科全书》问世,从这部书冗长的全称就可以看出它的性质:《百科全书,或艺术与科学通用字典——包含人文艺术、手工艺术、人类科学、神圣科学领域的术语定义及其对应事物,描述一切自然物和人工物的形状、类型、属性、生产方式、制剂方式以及用途,追溯教会、平民、军事以及商业领域不同系统、派系、观念的物品的诞生、发展历程以及现状,综合哲学家、牧师、数学家、医生、古文物研究者、评论者等人的意见,综上,一本尝试概括人类古今知识的书籍》。

  稍后,1751—1772年,狄德罗、达朗贝尔编纂出版了法文版的《百科全书》,其全称是《百科全书,或科学、艺术和工艺详解词典》。这两部西方最具代表性的百科全书有一个共同的特点,它们是编纂者用当代的眼光对人类各方面知识的总结,是全新的著作。这种编纂传统,一直延续到今天。

  中国古代的类书与西方的百科全书不同,几乎全是“编”,即收集、整理既有的文献与知识,强调的是“追本溯源”,即文献与知识形成的“源”和“流”。通常,越早产生的文献越受重视,“引经据典”一词即是最好的概括。

  与之相比,西方近代的百科全书既要归纳、综述已有的文献与知识,但其目的在于厘清学科、知识的发展历程,最终的目的是介绍最新的研究成果、最新的知识,其著作形式主要是“撰”。中国古代类书的宗旨是“存旧”,而西方百科全书的宗旨是“开新”。

  不过,由于中国古代类书的这一特点,正好成为了构建古典知识库最佳的内容来源。

  另外,由于类书主要抄录古代文献原文,有时甚至会抄录不同文献的相同引文,“不仅可以作为了解古代知识全貌的一种工具,而且也是古代文献资料的渊薮”,换言之,它还兼具语料库的功能。例如,《永乐大典》卷3134主要部分为唐代文学家陈子昂的资料,内容包括新旧《唐书》本传全文⑥、《文苑英华》唐卢藏用撰《陈子昂别传》《唐才子传》《潼川志》(今佚)等文献,几乎囊括了明永乐以前有关陈子昂的所有传记资料,稍经结构化处理,可与CBDB相关资料形成互补。

  传统上人们对类书的关注和研究,基本上都着眼于因收录大量后世亡佚的文献而在辑佚学上的价值,很少有学者从知识学⑦的角度来认识类书。其实,无论是编纂的初衷,还是在古代的应用场景和实际功能,类书都主要是作为一种知识总汇、知识工具而存在,而它的辑佚功能不过是无心插柳得来的结果。

  03、中国古代的类书与古典知识库

  古典知识库建设,重点和难点是将散布在浩如烟海的文献中的知识析出,经过整理,将无序的知识有序化、体系化、结构化,变成计算机可以处理的数据。类书作为中国古代主要的、专门的知识工具,它的特点与价值正在于此。

  类书是中国古代最重要的知识工具,类书的编纂过程就是一个从知识发现到知识标引、知识分类与组织,最后汇编成专门或综合性知识工具的过程。类书的性质和它的编纂过程,与古典知识库的性质和建设内容高度一致。下面,本文重点就古代类书的知识标引与名称标目、知识分类与组织等问题进行分析,为古典知识库的建设提供具体的借鉴。

  (1)关于类书的知识标引与标目。类书将古代文献中所蕴含的知识按知识单元抽取出来,然后确定一个名称,同时也是该知识的检索入口词。

  古人编纂类书有一些基本的做法,即前引《三国典略》所谓“观书贵博,博而贵要,省日兼功,期于易简”。广览群书,然后形成一套较为完整的知识体系,亦即类书的基本框架,或者按主题分类排列,或者按韵目排列,在主题分类或者韵目之下罗列知识的名称,然后从古书中抄录相关的文献。或者这个程序反过来,先将读书、实践中得来的知识记录下来,积累到一定程度后,再进行分类编排,明代类书《山堂肆考》的作者彭大翼科场失意,于是“披汲冢之奇文,捜石室之秘典,绎抽坟史,渔猎稗官,开卷有得,辄手裂赫蹏录之,犹之摘翠于鹬羽而取白于狐腋也。攟摭十年,尚未脱稿,后贮之奚囊,宦游西粤又廿年许,而闻见益博。于是考订旧辑,附益新闻,乃得成帙,而颠毛已种种矣。先生于书无所不读,提要钩玄,至老不倦,倘亦冯贽之雅意乎。帙既成,凡若干卷,题曰《山堂肆考》”。从群书中将知识辑出,“以类相聚”,最后编纂成书。宋末进士谢维新曾编有著名类书《古今合璧事类备要》,在其《叙》中也提到了他编书的想法:

  昔人有不善记事,每求一事,为之抽绎搜索,至有终日追思而莫穷其所出者。今而是编,始而天文地理,次而节序人物,以至族属、官职、姓氏之分,儒学、仕进、道释、技艺之等,与夫吉凶庆吊、冠婚丧祭之仪、草木虫鱼器用动什之末,莫不类而得其备,备而得其要。其间别以标题,配以合璧,俾阅是编者,求其一则知其二,观于此则得于彼,既无搜摘之劳而有骈俪之巧,如游元圃而取瑶宝,入武库而缮甲兵,则其有功于后之类书者多矣。

  谢维新的《古今合璧事类备要》类目达155门、2 586类,知识名称达43 300余个。类书除一般的知识工具功能之外,“求其一则知其二,观于此则得于彼”是它更重要的作用,用今天的话来说,就是有助于新知识的发现。

  类书对于知识标引的模式基本相同:在一个主题之下,将一组相同或相关的文献抄录下来,例如“梅”在中国传统文化中,是一类植物的统称,包括红梅、腊梅等(尽管在现代植物学中,红梅与腊梅并非同一物种,红梅属蔷薇科,腊梅属蜡梅科),具有观花、闻香、食用等实用功能,更重要的是,梅为“岁寒四友”之一,具有清洁、高傲、出世的文化品格。《太平御览》卷九百七十“果部七·梅”下共罗列了38组释文:

  《尔雅》曰:梅,柟。(似杏,实酢。)

  《尚书·说命》曰:若作和羹,尔为盐梅。

  《毛诗·鹊巢·摽有梅》曰:《摽有梅》,男女及时也。“摽有梅,其实七兮。(摽,落也。盛极则堕落者,梅也。)求我庶士,迨其吉兮。”

  《诗义疏》曰:梅,杏类也。树及叶,皆如杏而黑。煮而干为苏,置羹臛齑中。又可含以香口。

  ……

  “梅”是这一大类知识的共同名称,38组释文涉及了“梅”的定义、“梅”的实用功能、“梅”的象征意义等,实际上是关于梅的38个知识,但每个知识并没有单独命名。相比较而言,《太平御览》的知识标引是比较粗略的,而《永乐大典》的知识标引就非常精细,“梅”为类名,其下又细分99个知识单元,像《太平御览》引《诗义疏》文中关于“梅”的定义与用途,在《永乐大典》中单列“梅”字韵下“总叙”条下,引用了《周礼》《礼记》《山海经》《镇江志》《悦生随抄》《瓮牖闲评》《字说》《埤雅》《事类蒙求》《事类合璧》《老学庵笔记》《齐民要术》《广志》《诗义疏》《西京杂记》等15种文献对“梅”进行的综合性注释,以下又细分为早梅、古梅、江梅等99项,每一项都有单独的知识名称,抄录的文献既有知识性介绍,也有相关诗文,总字数近11万字。

  (2)关于类书的知识分类与组织。知识分类,是揭示知识的学科属性并根据类别将其组织起来。类书将知识从文献中抽取出来,然后进行分类重组,不仅仅是为了文本编排的需要,更重要的是通过分类,使众多的知识相同者聚,相异者分,揭示知识之间的从属、相同、相近、相似以及关联关系。类书的分类方法反映了古人知识体系的结构、特点,对于古典知识库建立符合中国古代文化特点的框架结构、正确处理古代知识与知识之间的相互关系、准确表达古代知识等,有着直接的参考意义,对于古典知识库发挥语义解析功能,通过逻辑推理,进而实现知识的挖掘、新知识的发现等都具有重要的意义。

  中国古代类书对知识的分类与类书内容的组织、文本的编纂是一致的,类书的分类方法决定了类书的编纂形式。类书主要有以下几种分类方法或者编纂组织方法。

  ①主题分类法。主题分类法是将同一主题的知识集中在一起,这是大多数类书采用的分类方法和编纂组织方法。从北齐的《修文殿御览》⑧、唐代的《北堂书钞》《艺文类聚》到宋代及以后的《太平御览》《玉海》《古今事文类聚》《事林广记》《山堂肆考》《天中记》《三才图会》《渊鉴类函》等都是采用这种分类法。主题分类法将古代的知识分成若干“门”,门下设若干“类”,类下再细分,直到知识单元,每个知识单元之下,罗列相关文献。主题分类法的一个明显的优点就是能够直观地反映知识的学科属性、知识与知识之间的相互关系和类属关系。图3所示为《事林广记》的知识分类。

  

  图3 《事林广记》知识分类

  不同的类书,具体的分类方法、主题分类名称各有不同,如即使是同时代、并且都是由宋代中央政府主持编纂的《册府元龟》和《太平御览》的分类也不相同。如果对古代不同的主题分类名称进行类似现代图书馆学的规范控制(authority control)处理,便可建立古代知识名称对照词表,有非常重要的学术价值与应用价值。

  在类书中还有一个常见的现象,即一些知识可能会对应两个或两个以上的主题,因此古人常常采用互著的方法,如《太平御览》卷387“人事部·涕泪”注:“泪事已多见在‘泣’篇。”而在同书卷488“人事部·泣”中,有不少内容与“泪”有关,如引《诗》“不见复关,泣涕涟涟”。

  ②韵目排序法。类书的另一种编纂方法是“用韵以统字,用字以系事”。虽然采用这种方法进行分类排序的类书并不多,但其特点突出,影响很大,评价不一。从唐代颜真卿编纂《韵海镜源》开始,古人就采用按韵目排序的方式来组织知识,元代类书《韵府群玉》、明代类书《永乐大典》和清代类书《佩文韵府》堪称代表。

  韵目排序法的最大问题是不能直观地反映知识体系,一组意义相同、相近、相关的知识,因为名称韵字不同,而四散在不同的地方。有时还要照顾到知识的特点以及知识之间的相关性,因此在编排时难免会出现体例不统一的问题,《四库全书总目》曾批评《永乐大典》按韵目编排的方法,谓:

  此书以《洪武正韵》为纲,全如《韵府》之体。其每字之下,详列各种书体,亦用颜真卿《韵海镜源》之例。惟其书割裂庞杂,漫无条理。或以一字一句分韵,或析取一篇,以篇名分韵,或全录一书,以书名分韵,与卷首凡例多不相应,殊乖编纂之体。

  《永乐大典》在体例上确有不一致的问题,但仔细分析一下,却是有原因的。

  永乐皇帝命令编纂《永乐大典》,意在搜罗天下知识,而作为篇幅达22 877卷三亿余字、抄成11 095巨册的大型类书,究竟收录了多少知识,其中又包含多少知识元,今日已难统计。笔者根据存世800余卷中的191卷统计,其中共有知识名称4 900余条,按此比例估算,《永乐大典》共有知识名称将近59万条,而在每个知识名称之下,还有不同文献的相关记载,其数实在难以估计。如果按主题分类编排,且不说编纂时的困难,即使是编纂完成后要查阅一个具体的主题,恐怕也不是一件容易的事,永乐皇帝在给解缙等人的谕旨中就说明了其中的缘由:

  天下古今事物,散载诸书,篇帙浩穰,不易检阅。朕欲悉采各书所载事物类聚之,而统之以韵,庶几考察之便,如探囊取物尔。

  由于内容太多、篇幅太长,“统之以韵”就成了一个必然的选择。也是同样的原因,清代类书《佩文韵府》虽然只有444卷,但实际内容远超1 000卷的宋代类书《太平御览》,全书收录韵字10 252字,知识名称达45万条,要从如此浩繁的文献中快速找到所要查阅的知识,“用韵以统字,用字以系事”便成了唯一可行的选择。韵目排序法,与今天的字典、辞典按拼音排序的原理并无二致,而西方的百科全书,也正是采用了这种排序法。

  韵目排序法按韵编排,只是问题的一个方面。在采用韵目排序的同时,“类聚之”也是《永乐大典》这类知识工具的另一个分类与编纂特点。所谓“类聚之”,即根据知识的性质、特点分类编排。《永乐大典》仿元代类书《韵府群玉》“用韵以统字”,而《韵府群玉》的编纂凡例就很明白地说清楚了被统于韵的“字”是什么含义:

  采摘事中紧切字为母,详系于平仄韵之下,一事或数出者,略载注云详某类。

  所谓“紧切字”,即今所谓“关键字”,亦即知识名称中的关键字,这个关键字决定了知识的分类属性。汉语的一个特点就是由一个相同关键字组成的词组往往具有内容上的相关性,通过一个关键字,就可以将若干相关的知识按类聚集在一起,如《永乐大典》“九真”“神”字韵下,罗列了与“神”有关的知识名称418条,如“天神”“祷天神”“金人神”“花月之神”,也有“神将入舍”“神人入梦”“空中神语”,“神”始终是这组知识名称中的关键字,在这418个知识名称中,几乎都是古人心目中具有超自然力量的“神”的同义词、近义词或者相关词,“神”本身就是一个主题。

  《永乐大典》“十八阳”“乡”字下有“乡约”“乡劝”词条,特地注明:“‘乡校’见‘校’字下。‘乡饮’见‘饮’字下。‘乡射’见‘射’字下。”因为“乡约”“乡劝”都是以“乡”为单位的民事活动、习俗,关键字为“乡”,因此置于“乡”字之下。而“乡校”本是周代设在乡的一种学校,也是国人议政的地方,其关键字是“校”;“乡饮”是古代嘉礼之一,由乡大夫主持的一种饮酒礼,后来发展成一种地方官员设宴招待本土应举之士的礼仪,故其关键字是“饮”;“乡射”是古代“射礼”的一种,原载于《周礼·地官·乡大夫》中,其关键字是“射”。

  《永乐大典》“用韵以统字”,全书按韵排出大纲,大纲之下,“用字以系事”,根据关键字,列出具有相同、相近、相关的知识,仍然体现了知识工具汇聚知识、揭示知识之间关系的作用,既方便了查询利用,又兼顾了知识的系统性、关联性。

  值得注意的是,在《永乐大典》中,除了根据知识名称中关键字的韵目编排外,常常还会将与该知识的其他相关知识附上,从而揭示出了知识与知识之间的关联关系(见图4),这一点也突破了《永乐大典》按韵编排的一般规则。

  

  图4 《永乐大典》知识关联

  《永乐大典》“十八阳”“妆”字下,除“总叙”外,罗列了“佛妆”“墨妆”“闺妆”等31个与梳妆、妆容、服饰有关的物品、知识,通过分类,表明这一组词条的内容与性质都与“妆”有关。同时,又在“闺妆”一条下,再罗列“宫制蔷薇油”“香发木犀油”“洁鬓威仙油”“玉女桃花粉”等18种梳妆用品,甚至包括减轻少女缠脚痛苦的“西施脱骨汤”、治疗因缠脚引起伤痛的“金莲稳步膏”“玉屑飞云散”“削刺金刀散”,这些知识全部与“闺妆”有关,而与“妆”字韵完全无关。

  在“二质”“疾”字韵下,罗列了与“疾”有关的疾病、典故如“心疾”“腹疾”“目疾”等170条,其关键字全部为“疾”,而在其中“奇疾”下,又附列“妇人异疾”“呕物如舌”“孕妇腹内钟鸣”等相关疾病32个,除7个带“疾”字外,其余均无“疾”字,但都属于“奇疾”的范畴。

  在《永乐大典》收录的方志中,也有将地方志中所包含的相关专门知识重新按知识分类进行编排,如卷11905、11906、11907“广”字韵下,并不是按照《广州府志》重抄(从文本的体例判断),而是在“广州府”的主题下将所辖各县的相关文献按知识分类如“四至八到”“关津”“坊里”“附廓”“市”“塘”“镇”“土产”“土贡”“坑冶”等知识类别重新编排。

  ③其他分类编纂法。有一些类书,由于体裁的特殊性,其知识分类方法也比较特殊。例如《方舆胜览》以地理为纲,将相关知识按主题分类进行编排。《方舆胜览》为宋代学者祝穆所编,祝穆另外还编有综合性类书《古今事文类聚》。《方舆胜览》名为地志,但实际上为以地系事、以地系文之书,其书前有题记云:

  是编蒐猎名贤记序诗文及史传稗官杂说殆数千篇,若非表而出之,亦几明珠之暗投。今取全篇分类,以便检阅。……盖演而伸之,则为一部郡志;总而会之,则为一部文集,庶几旁通曲畅云。

  所谓“若非表而出之,亦几明珠之暗投”一句,正好说明了类书的意义:如果不是类书将各类知识从浩如烟海的古代文献中辑出,就等于“明珠暗投”了。《四库全书总目》谓是书“盖为登临题咏而设,不为考证而设。名为地记,实则类书也。然采摭颇当,虽无裨于掌故,而有益于文章。摛藻掞华,恒所引用。故自宋、元以来,操觚家不废其书焉。”

  《方舆胜览》的特点在于以地理关系为基础,将各地的风土人情、诗文古迹附载其上,与现代利用GIS地理信息系统作为知识库的基础非常相似。以嘉兴府为例,其内容包括以下大类:建置沿革、郡名、风俗、形胜、土产、山川、堂亭、佛寺、祠墓、古迹、名宦、人物、题咏、外邑、四六,实际上就是一个关于嘉兴府的知识大全。

  清代大型类书《古今图书集成》的分类方法也比较特殊。《古今图书集成》分为历象、方舆、明伦、博物、理学、经济汇编六大部分,其下再分乾象典等32典,32典之下,再分6 117部,部之下,则为知识名称。其知识名称标目方式并不统一,有的以书或书的章节名称标目,然后抄录古书原文;有的则根据内容另行抽取其中关键词或者使用人工语言标目,再抄录古书原文。

  大多数类书的主题名称采用人工语言,具体的知识名称则混用自然语言与人工语言,一些以词藻为主的类书如《佩文韵府》,知识名称(词藻)几乎全部采用自然语言,即从古诗文中抽取二字至四字作为知识名称,只有极少数经过了人工处理,如《佩文韵府:卷一之二:上平声·一东韵二》所载:

  鹤高冲

  《搜神记》:辽东城门有华表柱,忽有一白丨集柱头,时有少年举弓欲射之,鹤乃徘徊空中,而言曰:有鸟有鸟丁令威,去家千年今始归,城郭皆是人民非,何不学仙冡累累。遂丨飞丨天。

  虽然“鹤高冲”三字不相连属,但也都是原文中所有。

  采用人工语言标目,主要问题是一致性较差,会出现同一事物有不同名称的情况,如“二桃杀三士”是《晏子春秋》里记载的一个带有寓言性质的故事,后来成为了古代一个非常有名的典故。这个典故的名称,在不同的古代文献中不尽相同:《古今事文类聚》《永乐大典》《天中记》为“二桃杀三士”,《佩文韵府》为“二桃”,《古今合璧事类备要》两处记录了这个典故,卷三十一为“以桃杀士”,卷四十二则为“二桃杀士”。在进行古典知识库建设时,可以将采用自然语言与人工语言标目的名称一并录入,这样,针对同一条文献,如果有不同的名称,正好可以由此建立起语义层面的联系,对于建立古籍主题词表、古籍名称规范文档都是有意义的。

  直接抄录原文,是类书对于知识内容的表达方式,这在过去是最受学者们重视的部分,因为这是文献辑佚的基础。而今天,我们所关注的是类书这种知识的表达方式与知识库建设之间的关系。类书对于同一知识,常常会抄录若干条与该知识有关的文献,直接通过原文来表达知识的内容,如《永乐大典》“一东”“蓉”字下“木芙蓉”条,引用了159种文献(其中包含的诗文篇数更多),其前两种文献引文如下:

  《格物丛谈》:“芙蓉之名二:出于水者,谓之水芙蓉,荷花是也。出于陆者,谓之木芙蓉,此花是也。此花丛高丈余,叶大盈尺,枝干交加,冬凋夏茂,及秋半始著花,花时枝头蓓蕾,不计其数,朝开暮谢。后陆续颇与牡丹芍药相类。但牡丹芍药之花,不如是之夥且繁也。然此花以色取而无香,有红者,有黄者,有白者,有先红而后白者,又有千叶者,非一种而已。况此花又最耐寒,八九月余,天高气爽,春意自如,故亦有拒霜之名。世俗多于近水栽插而茂,因号曰水莲,审然矣。”

  《古今事通》:“老圃云:芙蓉花根三年不除杀人。李白诗:‘昔为芙蓉花,今为断肠草。’”

  第一条《格物丛谈》不仅有木芙蓉的全面知识介绍,也对木芙蓉与水芙蓉(荷花)进行了区分,尤其是木芙蓉因近水栽插而号曰“水莲”,这段文字经过处理纳入古典知识库后,可以帮助我们理解唐诗“日日芙蓉生夏水,年年杨柳变春湾” “荷叶罗裙一色裁,芙蓉向脸两边开”中之“芙蓉”与《楚辞》“搴芙蓉兮木末”和李白诗“昔为芙蓉花,今为断肠草”之“芙蓉”的不同;也有助于我们理解白居易诗“莫怕秋无伴醉物,水莲花尽木莲开”与屈大均诗“郎如木莲发,妾似水莲开”中“水莲”的不同。这已经具有知识发现的意义,其价值远远超出今日一般工具书对“木芙蓉”的解释。

  近年来在古籍数字化中,古籍原文标点、断句是一个热点,其中最难处理的问题之一是判断一段引文、一句话的起点与终点。以类书为基础建立的古典知识库可以为此提供有力的帮助,这也是由于类书对于知识的表达方式决定的。类书直接抄录古籍原文,一段话或一句话,本身就是一种断句,尤其是像《韵府群玉》《佩文韵府》这类类书,通常只抄录一句诗、一句话,是最有语料价值的。

  类书抄录古书,有全文照录的,也有选抄的。同时,由于依据的版本不同,也会有大量异文。像这类情况,如果在构建知识库时给予考虑,也可以解决传统人文研究中通过异文来比较、发现新知识常常遇到的困难。因为,知识库在处理这类问题时,效率远远超过人的大脑。

  最后一个问题:古代知识工具——类书中所有的知识如何被纳入古典知识库?这当然不是一个简单的问题,需要专门进行研究。因为,众多类书中所包含的知识一方面十分丰富,但另一方面无论是知识标引还是标目,类书与类书之间,存在着不少差异,即使是同一类书中所包含的知识,由于古人并没有今天这样严格的标准、规范观念,在编纂体例、实际操作等方面都或多或少存在着差异,与现代知识库对结构化、标准化数据的要求有相当差距。如何处理这些问题?这是专门的技术问题,本非笔者所敢妄言,姑大胆设想:似可按照现代知识库的要求,首先建立一个符合需要的知识库模型,在知识源层面建立标准的知识名称库,其下将相关类书中对应的知识名称及内容纳入(见图5)。当然,完成这一步,尚需要现代信息处理专家与古代文化研究方面的专家合作。

  

  图5 古典知识库资源拓扑图

  04、结语

  分析确定知识单元与知识元、知识标引与标目、知识分类与组织,处理显性知识与隐性知识等,是古典知识库建设的重点与难点。

  中国古代有着十分丰富的知识,很早就产生了知识工具。知识工具将离散的、片状的知识从古书中析出并组织起来,使得知识更加容易被发现、利用,对于推动文明的进步产生了巨大的作用。

  类书是中国古代最重要的知识工具。中国古代类书从性质、特点到具体的编纂方法,与现代知识库有着高度的一致性,可以为后者提供借鉴和素材。认真分析并充分利用古代类书这一宝贵资源,可以大大推进古典知识库的建设。

  类书中的知识标引与标目、知识分类、知识的表达方式,不仅是对古代知识内容、特点的表述,也是重要的语料资源,特别是这些语料资源是用古代知识名称标注过的,借助类书而建立起来的语料库,其价值将远远超过一般意义上的语料库。

  除综合性的知识工具——类书外,其他具有资料性、工具性的政书、专志等,因其与类书性质相似,也汇集了大量专门知识,同样是古典知识库构建的重要资料来源与参考工具。

  注释

  ①这是英国哲学家罗素对知识的一种分类。参见:罗素. 人类的知识[M]. 张金言,译. 北京:商务印书馆,1983:9-15.

  ②关于《禹贡》的成书年代,目前学术界主流的观点认为其成书于战国时代,主要根据是其中一些地名是战国以后才出现的。不过,也有学者指出,中国古代文献的特点是后人会对前人的著作不断修订补充,因此,今本《禹贡》最后成书于战国时代,并不意味着它所反映的只是战国时代的历史或地理知识,其中有些知识至迟在西周时期便已形成。

  ③许嘉璐先生认为《尔雅》的“释诂”“释言”“释训”三篇内容为释一般语词,后十六篇“无异于现代的专业语词”,并且认为“把一般词语和专业语词分开,这在当时是很了不起的眼光”。参见:许嘉璐. 《尔雅》分卷与分类的再认识——《尔雅》的文化学研究之一[J]. 中国语文,1996(5):321-329.

  ④参见:杨士奇. 文渊阁书目[M]. 国家图书馆藏明内府抄本. 北京:全国图书馆文献缩微中心,1985。另张溥所著《秘阁书目》主要是抄录《文渊阁书目》,其情形亦与之相同。

  ⑤《广弘明集》卷3引《古今书最》云:“《七略》书三十八种,六百三家,一万三千二百一十九卷,五百七十二家亡,三十一家存;《汉书·艺文志》书三十八种,五百九十六家,一万三千三百六十九卷。五百五十二家亡,四十四家存。”(民国上海商务印书馆《四部丛刊》影印明汪道昆刻本)此较今本《汉书·艺文志》多七家、一百卷(篇)。《隋书·经籍志》作三万三千九十卷。

  ⑥《永乐大典》所引新旧《唐书》本传几乎全同,唯《新唐书》部分稍异,特别值得注意的是,《永乐大典》引《新唐书·陈子昂列传》时,还抄录了董冲的《唐书释音》,大概《永乐大典》所据底本,与今日传世的《新唐书》不同(清乾隆四年武英殿刻本《新唐书》最后附有《唐书释音》,然非如《永乐大典》随文附录),颇具版本学意义。

  ⑦所谓“知识学”,来源于德国哲学家费希特的论述。费希特认为,知识学并不研究个别知识的正误问题,因为那是科学的任务。知识学探讨的是知识的一般发生的问题,是弄清楚知识是怎样发生的,知识成立需有什么先决条件,知识有哪些基本要素,它们是怎么来的,它们彼此之间有什么关联等。参见:王玖兴. 译者导言[M]//费希特. 全部知识学的基础. 上海:商务印书馆,1966:5.

  ⑧今敦煌文献中尚存残叶,参见:法国国家图书馆藏敦煌文献:第15册[M]. 上海:上海古籍出版社,1995:133-138。或谓为更早的《华林遍略》,详见:刘安志. 《华林遍略》乎?《修文殿御览》乎?——敦煌写本P_2526号新探[M]//刘安志. 新资料与中古文史论稿. 上海:上海古籍出版社,2020:227-266.

  陈力 四川大学历史文化学院教授

  (来源:中国图书馆学报2023年第3期)



【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

    专题文章
      CopyRight 2018-2019 实验室设备网 版权所有