文化遗产领域知识的有效组织与管理,核心是对领域知识及知识间关联的描述与揭示。 语义网环境系,本体作为领域对象及其关系的概念化、形式化的统一表示,可以实现对主观知识的客观表达以及隐形知识的显性表达,在文化遗产领域知识组织过程中发挥着重要的作用。本体通过对概念、术语及其相互关系的规范化描述,勾画出某一领域的基本知识体系。 因此,通过对领域本体的分析与计算,能够反映出该领域宏观的知识结构与知识体系。 文化遗产领域核心共享概念及其存在的多层次、多类型、多刻面的知识关联关系构成了文化遗产领域的知识纲要。 研究提出领域知识纲要的概念,指从领域知识抽象出的概要性的概念体系,是某一领域内的核心概念以及概念之间的相互关系的集合,其反映了领域知识更高语义层面上的基本知识体系与结构。 研究通过对领域本体的分析与计算,解析文化遗产领域核心概念以及知识关联关系,在此基础上构建文化遗产领域知识纲要。
本研究首先在对文献调研与专家咨询的基础上,确定项目的具体研究对象,收集领域本体与词表。其次,根据本体映射的思想,设计基于词汇语义相似度的概念相似度计算方法,形成领域的共享概念类簇。 在此基础上,结合对领域本体结构与内容的人工编码与分析,梳理领域本体的对象属性及其定义域与值域,归纳领域核心概念之间的知识关联关系,最终建构出文化遗产领域的知识纲要。
项目采用Python语言,使用RDFLib解析本体,fastText模型进行词向量表示,使用Gephi工具对共享概念进行聚合与可视化。
文化遗产领域核心共享概念可以为划分为领域对象与实体、类型与概念、时间与空间、事件与活动、文献与作品、代理者等六个主要方面; 文化遗产领域知识关联关系较为丰富多样,主要包括人物关系、责任关系、时间关系、时空关系、类型关系、书目关系等,以揭示文化遗产领域知识之间复杂的语义关系,但也为域本体复用和语义互操作带来挑战。