敦煌壁画主题词表

Dunhuang Mural Thesaurus

About the Project

项目介绍

敦煌壁画主题词(Dunhuang Mural Thesaurus)项目旨在构建一个规范、全面的敦煌壁画领域主题词表,为敦煌壁画数字资源的深度语义标注、语义检索、知识组织、信息关联与共享等提供一套受控词表。敦煌壁画主题词表汇集敦煌学、艺术史、图像志等多学科研究内容,使用人机协同的词表编制与构建方法,利用自然语言处理与机器学习技术,从敦煌壁画研究语料库中自动提取领域主题词,并通过人工的主题词归类、概念间关系的定义以及质量校对,实现人机协同的词表主题词不断充实与完善。敦煌壁画叙词表的构建具有重要的意义,其作为知识组织的框架体系和概念集,将提供自动标引、信息抽取、自动分类等信息加工自动化的支撑,也是智能化知识检索、知识挖掘、知识发现的基础工具。

敦煌壁画叙词表的构建促进了人文学者的研究与敦煌壁画数字人文应用的开发,也为我国文化遗产领域相关受控词表与主题词表的构建提供参考借鉴。该项目由武汉大学数字人文研究中心与敦煌研究院共同合作完成。

Context

背景

敦煌壁画在敦煌文化以及在研究历史、美术、乐舞、宗教等方面具有重大的利用价值。然而,目前对敦煌壁画数字资源的标注与描述,由于缺少一套专门围绕敦煌壁画而设计的词表,以至于在对敦煌壁画数字资源对象描述时无法以一致性的控制词汇作为标准,也无法进一步对数字资源整合与语义互操作的工作,限制了敦煌壁画的研究与壁画价值的挖掘。

基于图像志理论,对敦煌壁画研究文献进行内容分析和网络分析,梳理并提出敦煌壁画涉及的主题及其层级结构。在此基础上,项目广泛参考《敦煌学大辞典》、《敦煌石窟内容总录》、《敦煌人物志》等敦煌学相关辞典,借鉴AAT的分面与层级划分关系,在敦煌学专家的指导下,设计敦煌壁画主题词表的结构。然后,利用自然语言处理和机器学习技术,从敦煌壁画相关辞典与研究文献中,提取壁画涉及的概念与术语,并建立概念之间的语义关系,构建一个全面的涵盖各类敦煌壁画特定概念、术语乃至完整的知识体系。在语义网环境下,敦煌壁画主题词表将成为一个有力的敦煌壁画数字语义组织、语义关联、信息获取与共享的语义工具。

Outcomes

主要成果

敦煌壁画主题词表

分面主题词统计

代理者分面 911
时间分面 131
活动分面 494
物件分面 2075
物理特质分面 242