领域核心共享概念计算

Common Shared Concepts of Cultural Heritage Domain

领域共享概念计算方法:

领域概念是知识纲要的基础要素。领域共享概念可以理解为领域本体建模时通常会考虑或涉及的维度和术语, 本文主要通过跨本体之间的实体相似度计算来提取领域本体共享概念。通过本体类名称标签的语义相似度计算和聚类,发现文化遗产领域本体之间共同的核心概念。 主要过程包括本体解析、语义相似度计算、概念聚合与可视化等。

使用Python语言利用RDFLib库对本体编码文件进行解析,获取本体包含的类、对象属性、约束与公理等。然后,判断类之间是否存在等价关系、父子关系、独立关系,结算出类之间语义相似度矩阵。 最后,借助Gephi工具进行概念聚类与可视化。

领域共享概念计算方法:

由于本体间存在类复用与继承的情况,因此在计算不同本体之间类的相似度时,区分类之间的相等关系、父子关系和独立关系三种类型。
本体的类的相似度计算公式:

(1)相等关系。(Ci,owl:equivalentClass, Cj)。通过类的资源标识符IRI和owl:equivalentClass陈述声明,判断两个类之间是否存在相等关系。

(2)父子关系。( Ci, rdfs:subClassOf,Cj)。 对于复用外部本体的类并将其作为直接父类的情况,定义二者存在较高的相似度。

(3)独立关系。类之间不存在相等或父子关系。利用基于Word2Vec词向量模型获取类名称短语的向量化表示,通过计算向量的余弦距离作为类之间的相似度。 Word2Vec作为非监督学习技术,考虑上下文的语义关系,将本文内容的处理转化向量空间中的向量运算,向量空间中的相似度来表示文本语义的相似度。 使用fastText工具加载预训练模型进行词向量的表示。

领域核心共享概念:

通过计算本体间类的相似度矩阵,将结果导入Gephi工具进行可视化聚合,利用k-core进行剪枝,结果如下图所示。图中节点大小采用平均加权度,并利用模块度社区发现算法进行聚类。通过可视化可以直观的发现文化遗产领域的核心共享概念及语义建模维度。

从图中的类簇可以看出文化遗产领域的核心概念主要包括领域对象与实体(object and entiy)、类型(type)、地点(place)、事件与活动(event and activity)、文献(document)、概念(concept)等。其中,人、事、时、地、物是文化领域本体建模的必备要素和基本建模维度,而文化遗产涉及的各类对象和实体成为语义建模时重点关注的内容。本文将文化遗产领域核心共享概念归纳为以下五个方面: