领域概念是知识纲要的基础要素。领域共享概念可以理解为领域本体建模时通常会考虑或涉及的维度和术语, 本文主要通过跨本体之间的实体相似度计算来提取领域本体共享概念。通过本体类名称标签的语义相似度计算和聚类,发现文化遗产领域本体之间共同的核心概念。 主要过程包括本体解析、语义相似度计算、概念聚合与可视化等。
使用Python语言利用RDFLib库对本体编码文件进行解析,获取本体包含的类、对象属性、约束与公理等。然后,判断类之间是否存在等价关系、父子关系、独立关系,结算出类之间语义相似度矩阵。 最后,借助Gephi工具进行概念聚类与可视化。
由于本体间存在类复用与继承的情况,因此在计算不同本体之间类的相似度时,区分类之间的相等关系、父子关系和独立关系三种类型。
本体的类的相似度计算公式:
(1)相等关系。(Ci,owl:equivalentClass, Cj)。通过类的资源标识符IRI和owl:equivalentClass陈述声明,判断两个类之间是否存在相等关系。
(2)父子关系。( Ci, rdfs:subClassOf,Cj)。
对于复用外部本体的类并将其作为直接父类的情况,定义二者存在较高的相似度。
(3)独立关系。类之间不存在相等或父子关系。利用基于Word2Vec词向量模型获取类名称短语的向量化表示,通过计算向量的余弦距离作为类之间的相似度。
Word2Vec作为非监督学习技术,考虑上下文的语义关系,将本文内容的处理转化向量空间中的向量运算,向量空间中的相似度来表示文本语义的相似度。
使用fastText工具加载预训练模型进行词向量的表示。
通过计算本体间类的相似度矩阵,将结果导入Gephi工具进行可视化聚合,利用k-core进行剪枝,结果如下图所示。图中节点大小采用平均加权度,并利用模块度社区发现算法进行聚类。通过可视化可以直观的发现文化遗产领域的核心共享概念及语义建模维度。
从图中的类簇可以看出文化遗产领域的核心概念主要包括领域对象与实体(object and entiy)、类型(type)、地点(place)、事件与活动(event and activity)、文献(document)、概念(concept)等。其中,人、事、时、地、物是文化领域本体建模的必备要素和基本建模维度,而文化遗产涉及的各类对象和实体成为语义建模时重点关注的内容。本文将文化遗产领域核心共享概念归纳为以下五个方面:
对象和实体是文化遗产领域本体建模的核心内容。对象与实体是图中最密集的区域,主要包括“概念对象”、“物质对象”、“信息对象”及“陈述性对象”等概念术语。由于文化遗产的内容表达与载体表现丰富,包含着众多复杂的对象类型,既包括具体的物质实体对象,也包括抽象的观念或思想的概念对象。
crm:E19_Physical_Object crm:E22_Man-Made_Object cis:CulturalHeritageObject crm:E73_Information_Object drammar:Object arco:Objcet drmmar:DramaEntity crm:E1_CRM_Entity cis:CulturalEntity cis:ImageObject ArchivalResource bibo:Collection cis:Collection crm:E70_Thing edm:PhysicalThing edm:WebResource edm:EuropeanaObject edm:InformationResource
与文化遗产领域对象与实体紧密相连的是“类型与概念”。由于文化遗产对象的复杂性和多样性,需要明确指定不同事物所属的类型,比如,遗产类型、对象类型、用户类型以及事件类型等,其术语一般来自于分类表、主题词表、受控词表等知识组织系统。
crm:E55_Type cis:UserType arco:Type bf:FileType rico:Type rico:ContentType rico:RoleType skos:Concept arco:Concept gvp:Concept gvp:GroupConcept frbr:Concept frbr:Subject arco:classification
文化遗产往往具有明显的时间特征和空间特征。时间与空间成为文化遗产领域本体建模的基本构成要素,空间信息的表示较多的复用Geo地理位置词表、GeoNames地名本体、Getty研究中心的地名词表(TGN)等,时间信息的表示一般采用时间本体、事件本体等。
crm:E53_place crm:E48_Place_Name edm:Place frbr:Place oad:Place rico:PhysicalLocation cis:Address crm:E4_Period bibo:Periodical edm:PeriodOfTime edm:TimeSpan crm:E50_Date crm:E52_Time-Span bf:Temporal crm:E2_Temporal_Entity cis:TimeInterval
文化遗产领域中的人物、实物、思想等物质对象或非物质对象都能够通过事件产生关联,事件之间的逻辑关系对理解文化遗产的历史起到重要的作用。事件与活动是文化遗产特别是非物质文化遗产知识表示与语义建模的基本参考对象。
crm:E5_Event edm:Event frbr:Event cim:CulturalEvent bibo:Event bf:Event rico:Event rico:Activity crm:E7_Activity crm:E12_Production crm:E65_Creation
文化遗产领域涵盖的古籍、档案、绘画、音乐、舞蹈等文学作品和艺术作品,往往以文献资源的形态存在,通常使用图书馆领域的书目元数据或模型对其进行语义描述和书目控制。
crm:E31_Document bibo:Document bibo:AudioVisualDocument bibo:AudioDocument bf:Item bf:Instance frbr:Expression frbr:Work frbr:Item bf:Work cis:CreativeWork crm:E32_Authority_Document bibo:Book
Agent一般译为“代理者”或“代理”,表示发生作用(或产生某种结果)的人(或物)。对代理者的规范化描述使用比较广泛的是FOAF词表,其定义了一套RDF词汇来描述用户、用户兴趣、用户关系和活动,对人物信息的描述较为全面。人物作为文化的行为主体,是领域本体建模的核心要素,文化遗产领域人物实体在家族关系、社会关系、所属组织或工作角色、权利等方面表现出独特特征。
edm:Agent cis:Agent arco:Agent foaf:Agent drmmar:Agent bf:Agent rico:AgentName crm:E21_Person crm:E39_Actor foaf:Person foaf:Organization foaf:Group bf:Family crm:E40_Legal_Body arco:AgentRole vir:IC16_Character frbr:CorporateBody