网路空间知识表示模型及管理是指对网路空间中的知识进行表示和管理。网路空间知识获取通常需要经历网路空间数据获取、数据清洗、知识抽取、知识交叉验证等过程,对获取的知识再进行表示与管理。
基本介绍
- 中文名:网路空间知识表示模型及管理
- 外文名:Knowledge Representation and Management in Cyberspace
知识是大搜寻的基础,知识的表示与推演是智慧化搜寻的核心问题。对知识表示和管理的研究已经有很长的历史。迄今为止,知识表示和管理的模型可以分为基于逻辑的表示模型、基于框架的表示模型、基于语义网的表示模型、基于本体的表示模型和面向机器学习的表示模型。知识表示的研究有很长的历史,发展出了多个分支,每一种知识表示方法都有其优缺点。
基于逻辑的表示模型
专家系统已经有很多年的历史,逻辑规则和模糊规则是专家系统中常见的知识表示模型。美国加利福尼亚人工智慧研究中心的Moore在1982年的AAAI上首先提出了基于逻辑的知识表示。早期的逻辑规则靠专家构建,后来研究者们一直探索自动构建逻辑规则的方法。美国路易斯安那大学的Minkoo等2000年採用自动化的方法提取逻辑规则,但只能支持特定的数据集。德国不莱梅大学的Tenorth等2013年採用半自动化的方法从多种数据集中提取逻辑规则,取得了比较好的效果。在基于模糊规则的系统中,知识是通过模糊集来表示的。和逻辑规则相比,模糊规则能够更好地表示不确定性和连续变数。早期的模糊规则构建是通过专家的方式。后来人们不断提出新的方法来从数据中提取模糊规则,如波兰哥白尼大学的Duch等2001年提出的特徵空间映射和C4.5分类树方法、加州大学伯克利的Nurnberger等2004年提出的基于遗传算法的方法、西班牙詹恩大学的Prado等2010年提出的基于粒子群最佳化的方法等。基于逻辑的知识表示方法的特点是善于表达因果关係,具备很好的推理能力,但在知识表示的灵活性方面有很大不足。
基于框架的知识表示
麻省理工的明斯基于1975年首先提出了基于框架的知识表示方法。框架模型能够把知识的内部结构关係以及知识之间的特殊关係表示出来,并把与某个实体或实体集的相关特性都集中在一起。1970年代中期,加州大学伯克利的Fillmore等人开始研究架构语义的理论,后来发展成了计算资源FrameNet。框架知识表示语言的一个重大进展是Brachman等在1978年提出的KL-ONE框架语言。后来的很多其他框架语言都是从KL-ONE发展而来的。当前在框架知识表示方面仍然有很多研究工作,如加拿大蒙特娄大学的Azoulay在2017年AAAI上发表的面向大规模专门语料库的基于框架的知识表示方法。基于框架的知识表示最突出的特点是善于表示结构性知识,框架系统的数据结构和问题求解过程也与人类的思维和问题求解过程相似。但框架知识表示缺乏形式理论,没有明确的推理机制保证问题求解的可行性和推理过程的严密性。同时由于许多实际情况与原型存在较大的差异,因此适应能力不强。
基于语义网的知识表示
剑桥大学语言研究中心的Richens在1956年首先提出了语义网的概念。语义网利用节点和带标记的边结构的有向图描述事件、概念、状况、动作及客体之间的关係。带标记的有向图能十分自然的描述客体之间的关係。加利福尼亚SDC公司的Simmons等1960年代在SYNTHEX项目中单独进行了语义网方面的开发。1980年代,荷兰的格罗宁根大学和特温特大学联合开发了知识图项目,是谷歌在2012年提出的知识图谱的雏形。WordNet由普林斯顿大学从1985年开始开发,当前的最新版本是3.1。在WordNet中,词及其含义之间基于语义和词法相似性进行连线。研究者们对WordNet进行了持续的改进,如2011年义大利特兰托大学的Verdezoto等採取半自动化的方法来最佳化WordNet。FrameNet由加州大学伯克利的Fillmore等人在1997开始开发,是多层次的框架构成的网路。爱丁堡大学的McConville等2008年提出基于继承和同心集的方法来改进FrameNet。韩国延世大学的Park等人2016年提出了面向FrameNet的概念语义化方法。语义网具有广泛的表示範围和强大的表示能力,用其他形式的表示方法能表达的知识几乎都可以用语义网路来表示。但基于语义网的知识表示也有一些缺陷,其推理规则不十分明了,不能充分保证网路操作所得推论的严格性和有效性。一旦节点个数太多,网路结构複杂,推理就比较困难。同时语义网页不便于表达判断性知识与深层知识。
基于本体的知识表示
本体概念的产生可以追溯到古希腊时代。本体模型把知识表示为一个概念的分类系统,其中概念包含属性、值和关係。本体知识表示模型的主要目标是提供一个知识共享与重用的平台。一个本体至少包括三个部分:类(领域概念)、关係及实例。本体的常用描述工具是Web本体语言(OWL)和资源定义框架(RDF)。加拿大蒙特娄大学的Ebrahimipour等2015年提出了融合OWL和RDF来描述本体的方法。套用本体是面向特定套用的,往往描述的是面向特定任务的概念关係。早期的套用本体依靠人工构建,或採取一些半自动化的方法。西班牙穆尔西亚大学的Minarro-Gimenez等在2012年提出了一种自动化的套用本体构建方法,支持对多种已有本体的重用。领域本体是面向一个特定领域的,如加拿大多伦多大学的El-Diraby等2011年开发的製造业领域本体。通用本体一般是指顶层的本体,已经在很多领域中体现出了有效性。通用本体中的概念一般是状态、事件、过程、动作等抽象的通用概念。Su等2003年把通用本体套用于多Agent系统中,支持Agent间基于通用本体进行互动和协作。Czarnecki等2010年提出了通用本体TOGAF,包括面向商业、数据、套用和技术四大领域的通用知识。通用本体的构建很难实现完全自动化,一般都是半自动化的方法。通用本体当前面临的挑战是构建困难和难以验证效果。表示本体不面向特定领域,这种本体里面的实体并不有确切地说明应该表示什幺,主要套用于语义网。韩国庆熙大学的Khanet等2015年提出MBO(Mediation Bridge Ontology)表示本体来支持语义网上的互动。表示本体的构建大都採用人工的方法。基于本体的知识表示方法有很强的表达能力,但本体的构建代价比较大,并且本体表示的複杂性导致基于本体的知识表示在产业界套用的比较少。
基于机器学习的知识表示
和前面的知识表示不同,面向机器学习的知识表示侧重于如何通过机器学习的方法从数据中自动获取知识。在前面提到的几种知识表示方法中,也都或多或少用到了基于机器学习的知识获取。近年来,随着大数据的发展,知识图谱及相关的基于图的知识表示模型得到广泛套用。知识图谱这一概念2012年被Google公司提出,而后诞生了很多其它的类似模型。这类基于图的模型可以说是语义网的一种,但更侧重实用、大规模和自动化。2013年,法国UTC大学Bordes等提出了基于翻译模型TransE的知识表示学习,主要用来解决知识表示问题。随后,产生了一系列模型对TransE模型进行改进和补充。知识图谱中知识推理方法主要基于神经网路模型或路径排序算法,例如史丹福大学Socher等提出了神经张量网路模型藉助神经网路模型进行知识推理。卡耐基梅隆大学的Gardner等提出了一种结合语义向量和随机游走的关係路径推理方式,首次尝试採用语义向量结合路径特徵的方式来建立推理模型,获得了比较好的效果。基于图的知识表示需要基于图资料库的管理。目前最具代表性的图数据管理系统(如Neo4j、GraphX等)通常定义了一些运算元,并基于这些运算元来实现图数据的管理与分析。现有系统所定义的运算元大部分基于图遍历运算和叠代操作,对于图上结构操作(如子图匹配运算)的管理与分析效率不高。此外,这些常用的图数据管理系统都是主要面向一些静态图上的运算。对于不断更新的动态图,现有系统的查询处理的效率不高,尤其是针对大搜寻套用中对于异构数据的处理和基于智慧型体的灵活配置服务还需要进一步深入研究。