一种基于知识库的语义检索系统模型的研究

时间：2011-08-29

　　目前检索系统主要是基于关键字的全文匹配或者是按主题进行分类。但是，前者仅仅是进行字符串的匹配，不能对信息的语义进行揭示；而主题分类对信息资源揭示的效率较低、深度有限。根据对信息资源中不同对象和层次揭示上的需要，文献目录、索引、机读数据库、网络搜索引擎等信息资源检索工具构成的以不同检索需要为目标的、形式多样的、完备的系统。所谓检索系统，是指图书情报档案工作者和其他学者按某种方式方法建立起来的供读者查检图书情报档案资料等信息的某种有层次的体系，它们是客观存在的设施和设备。

　　根据处理网络文档方式的不同，基于本体的语义检索分为基于知识库的语义检索和基于语义网文档的语义检索。前一种指尽可能维持现有文档的内容形式，利用知识表示的强大功能来建立庞大的知识库。而后一种基于语义网，语义网文档是包含语义信息的文档，能被软件代理直接访问，这种检索方式代表着互联网的发展方向。

　　1 本体论概述

　　1.1 本体的起源和定义

　　本体原本是哲学领域的一个概念，后来该概念被信息系统、知识系统等所借用，并迅速成为人们的研究热点。定义包含了4层含义：“概念模型”指通过抽象出客观世界中一些现象的相关概念而得到的模型；“明确”指所使用的概念及其约束都有明确的定义；“形式化”指能被计算机所处理；“共享”指本体中体现的是共同认可的知识。

　　1.2 本体的描述语言

　　为了让计算机能够对信息的语义进行处理，需要一定的编码语言（例如RDF等）来表达本体的体系结构。资源描述框架RDF（Resource Description Framework）定义了一个基本的数据模型，该模型包括了三种对象类型：资源（resources）、属性（properties）、声明（statements）。资源可以是网页、多媒体等，通常用URI来命名；属性用来描述资源的一个特定方面、特征等；一个RDF的声明就是一个资源和一个属性加上这个属性的取值所形成的集合。一个声明由以下三部分组成：主语（subject）、谓语（predicate）、宾语（object）。

　　1.3 本体在语义检索中的作用

　　本体在语义检索中的作用可概括为以下几点：

　　（1）本体为语义标注和扩展提供了标准的词汇库；

　　（2）检索中所进行的推理工作必须在本体中进行；

　　（3）本体可以明确领域假设，使领域公理得到明确描述而达成共识。

　　2 系统的基本框架结构

　　本文提出的模型其基本设计思想如下：首先在领域的参与下建立相应领域的本体，然后把收集的数据信息参照已建立的本体，按规定的格式存储在知识库中，当用户检索时，按照本体把查询请求转换成规定的格式，并从知识库中匹配出符合条件的文档集，排序后返回给用户。该模型的主要组成部分有用户界面、领域本体、文档集、知识库等。其结构关系如图1所示。

　　2.1 知识库

　　在现有网络下实现真正意义上的语义检索，建立知识库是必需的。知识库是搜索代理进行推理和知识积累的关键。通常某个领域的本体提供了该领域相应的术语和概念，而知识库就是利用这些术语和概念来表达现实或者虚拟世界的正确知识。例如一个医学本体可能包含有“高血压”、“糖尿病”等术语的定义，但它并不包含某一个具体病人的诊断结果，而这正好是知识库所要表达的内容。

　　2.2 基于本体的信息提取和语义标注

　　在信息检索中为了提高检索效率，必须对网络上所存在的资源进行预处理。信息提取就是首先对文档集中的每篇文档进行词汇分析，利用禁用词表去掉文献中的虚词以及对检索作用不大的词、数字、字母、标点符号等，仅保留具有实际意义的名词、动词等，然后确定索引元素，并在本体中获得能够正确表达文档内容的概念性词或词组。信息检索（Information Retrieval）是指信息按一定的方式组织起来，并根据信息用户的需要找出有关的信息的过程和技术。狭义的信息检索就是信息检索过程的后半部分，即从信息集合中找出所需要的信息的过程，也就是我们常说的信息查寻（Information Search 或Information Seek）。

　　信息检索起源于图书馆的参考咨询和文摘索引工作，从19世纪下半叶首先开始发展，至20世纪40年代，索引和检索成已为图书馆独立的工具和用户服务项目。随着1946年世界上台电子计算机问世，计算机技术逐步走进信息检索领域，并与信息检索理论紧密结合起来；脱机批量情报检索系统、联机实时情报检索系统相继研制成功并商业化，20世纪60年代到80年代，在信息处理技术、通讯技术、计算机和数据库技术的推动下，信息检索在教育、军事和商业等各领域高速发展，得到了广泛的应用。Dialog国际联机情报检索系统是这一时期的信息检索领域的代表，至今仍是世界上着名的系统之一。

　　语义检索是指搜索引擎的工作不再拘泥于用户所输入请求语句的字面本身，而是透过现象看本质，准确地捕捉到用户所输入语句后面的真正意图，并以此来进行搜索，从而更准确地向用户返回其需求的搜索结果。该部分的流程图如图2所示。

　　为了量化实例（instance）与文档之间相关性的大小，有时还需要确定标注的权重。现在通用的算法是TF-IDF算法，其计算公式为：

　　其中wij表示实例Ii在文档Dj中的权重。Ｄ是全部文档数，Dw则是包含特征词的文档数。freqij表示实例Ii对应的标签在文档Dj中出现的频率，max freqij表示在文档Dj中出现次数多的实例的频率。

　　2.3 基于知识库的查询请求处理和信息检索模块

　　当用户输入检索词后，查询请求处理模块对查询语句进行分析，从中提取出能正确表达查询语义的概念性词或词组。然后将其带到本体中查找相应的概念，并对概念进行语义化处理，得到一个检索式集合，再由检索代理从知识库中匹配出符合条件的元组集[1]。该部分主要包括三方面工作：（1）基于本体的语义查询扩展；（2）查询语句的规范与重构；（3）信息检索。

　　2.3.1 基于本体的语义查询扩展

　　据统计，在信息检索中，人们使用相同的词来表达同一概念的概率不到20%，这就要求必须在用户原查询词的基础上添加与之相关的词，以解决一义多词的问题。基于本体的语义查询扩展就是借助本体的语义关系、层次结构和推理机制对用户的查询实现语义上的扩展。

　　本文综合了基于路径和基于注释两种方法的优点，通过分析影响语义的因素，实现了一种基于语义相似度的查询扩展。其模型如图3所示。

　　语义相似度的值通常与概念间的距离、概念间的链接类型等有关。当然不同类型的连接关系，如上位、下位、同义等，对概念语义关联程度的贡献也不同[3-4]。但在实际应用中如果考虑大量的关系类型将会影响系统的性能，本模型采用的关系类型及其权重分配方案如表1所示。

　　2.3.2 查询语句的规范与重构

　　根据图3，扩展后的用户查询仍需进一步地规范，以判断扩展后的查询词属于三元组哪一部分并将其分别储存于相应的集合中。得到三个集合，分别为本体概念集S-set、个体实例集I-set和属性集P-set。这三个集合分别对应于三元组的Subject、Object和Predicate，随后分析概念之间以及概念与个体之间的关系，将所有可能产生的概念关联都构建成三元组模式的查询语句提交检索模块。

　　2.3.3 信息检索

　　经过以上处理，信息检索模块接受的是具有一定检索规范的结构化查询。为了提高查全率，本模块首先根据用户提供的检索要求，基于知识库进行推理，这种推理是基于类层次和规则的，系统设计者可以根据具体需要创建适合的推理规则。之后仅需与知识库中的信息进行匹配，将满足条件的元组选出。例如，有一个服装领域的本体，对概念“服装”存在一个标签名为“价格”的属性。可以创建这样一条规则，如果价格大于5 000元，就认为该衣服为服装。所以当用户查询服装时，就可以根据这条规则，将知识库中满足条件的实例返回。

　　2.4 排序模块

　　通过索引库从文档集中把文档检索出来之后，得到的是一系列无序文档，在递交给用户之前需对文档进行排序。这就需要计算查询与文档之间的相关度。在语义标注时曾讲过，为了量化实例与文档之间的关联程度，通过TF-IDF算法来确定实例的标注权重，这样文档Dj就能被简化为实例的集合。令wij为实例Ii在文档中的权重，则dj=（wi1…wim）。而查询也可在同一空间里表示成查询向量的形式（即q=（q1…qm）），利用余弦定理就可以计算得到文档与查询的相关性：sim（Di，Q）=di×q/（|di|×|q|）。

　　检索模块将结构化检索条件与知识库中RDF三元组进行匹配，并返回匹配的所有元组，通过查找实例-文档的索引库，返回无序文档集。排序模块对文档排序后返回。其实验性能如图4所示。

　　性能分析：

　　（1）查准率。由于查询扩展和语义标注等都是基于本体进行的，这样就明确了术语的选择范围，限制了对术语可能的解释，可以很好地解决一词多义的现象。

　　（2）查全率。在该系统模型中，由于增加了查询语义扩展，系统可以根据用户提交的检索词推理出与原查询相近或相关的词加入查询系统，以提高检索质量。

　　通过实验可以看出，相对于传统的检索模型，该模型在查准率方面有较明显改善，查全率也几乎相当。但同时也应该注意，系统的检索性能直接取决于知识库中信息的质量及数量。当用户要查询的内容在知识库中比较丰富、完善的时候，能得到较好的检索效果。反之，该模型的检索性能便比不上基于关键字的全文检索性能，为了克服这种缺点，有时需要把基于关键字的检索整合进来，作为该模型的补充。

上一篇：分析RFID标记技术设计与应用

下一篇：基于芯片SR331 巡检系统设计与应用