一种基于P2P-Grid环境下的新的资源组织方法

时间：2023-06-26

　根据资源在网络上的分布特性，在混合式P2P结构的基础上设计了P2P-Grid物理结构模型。实验证明，基于这种资源组织模式的资源查找所消耗的时间相对单一资源目录树而言，查找时间明显缩短。

近几十年来，网络技术的飞速发展，使得网络成为我们生活中不可缺少的部分。网络中的海董资源随着网络规模的膨胀为传统网络应用带来了新的挑战。在一个网络环境中，CPU、存储能力、带宽、缓存，文件、服务等都统称为网络环境中的资源。网络资源的组织、寻获、管理、推荐、使用成为了信息榆索新的研究内容。传统网络计算模墅冈为其潜在的缺陷（集中组织、集中投制等）使得～种新的网络计算模型的出现成为必然。P2P网络克服了传统网络模型的瓶颈，因为其：自组织性，对称性和其adhoc特性成为了在网络技术中的主流趋势。也正冈为上述三个特征，使得P2P环境中的资源组织、寻获、管理和使用无法用传统技术来实现，如何幂|j用P2P网络的优势，实现上述目标，是广大学者重点关注的内容。

目前，对网格和P2P环境下资源发现进行研究的论文很多，也提出了一些有效的解决办法。而对真正决定资源查找效率的资源组织方法的研究则很少，结合P2P与Grid两种新型网络结构的P2P-Grid方面的研究更少。P2P-Grid结构是作者在考虑到现阶段不同地区网络之间的通信速度远远低于集群或局域网内部的通信速度以及网络环境下资源分布不均匀而在混合式P2P结构的基础上提出来的。虽然两者都涉及到对虚拟社区内共享资源的组织，且都采用较为先进的技术，但二者有明显不同。网格强调结构健壮性，而P2P则恰好相反；网格系统整合的资源功能更加强大，而P2P更能够有效地提高互联网边缘普通PC的利用率，这也恰恰是网格的终目标；网格动态性的本质需要容错机制，在执行高度分布的程序时，需要一种可靠性和容错机制保证程序的正确运行，而P2P系统具有广泛分布性，可能会避免一些关键性的失败。在局部范围内把地理位置彼此相近的资源构造成规模适当的网格系统。全局上把这些网格系统看作是P2P-Grid的Grid-Peer（相当于混合式P2P结构中的Super-Peer），并使用P2P技术组织这些Grid-Peer资源，从而充分体现两者的优点。在局部网格系统集中的高效率搜索和Grid-Peer之间健壮的分布式搜索之间达成一种平衡机制，且可有效地避免单一网格系统的瓶颈产生。

　　1 相关工作

1.1研究现状

Gondor的匹配器[1]使用集中式组织方式组织资源，负责资源提供者和资源请求者之间需求的匹配。Adriana Iamnitchi等人使用P2P模式分布式组织资源[2]，并使用请求向前搜索的策略发现资源。中科院的织女星网格项目研究了基于路由转发模型的资源发现方法[3]和面向资源发现的VEGA体系结构[4]。

在过去的几年中，P2P模型由于其高度动态性、分散性、强容错性以及低维护成本性成为了一个在111temet规模内进行资源（文件、服务、CPU，内存，存储空间，网络带宽）共享的一个极具吸引力的模型。所有P2P领域的研究都遵循4条线索：搜索，存储，安全和应用。很明显P2P更灵活的对象分布与安全隐患是成止比的，它使得P2P的可靠性成为替代常规技术的一个障碍。即使如此，犬部分的P2P研究者主要还是将重点集中在了资源搜索、存储和应用上。

　1.2 P2P技术的特点体现在以下几个方面：

非中心化（Decentralization）：网络中的资源和服务分散在所有结点上，信息的传输和服务的实现都直接在结点之间进行，可以无需中间环节和服务器的介入，避免了可能的瓶颈。P2P的非中心化基本特点，带来了其在可扩展性、健壮性等方面的优势。

可扩展性：在P2P网络中，随着用户的加入，不仅服务的需求增加了，系统整体的资源和服务能力也在同步地扩充，始终能较容易地满足用户的需要。整个体系是全分布的，不存在瓶颈。理论上其可扩展性几乎可以认为是无限的。

健壮性：P2P架构天生具有耐攻击、高容错的优点。由于服务是分散在各个结点之间进行的，部分结点或网络遭到破坏对其它部分的影响很小。P2P网络一般在部分结点失效时能够自动调整整体拓扑，保持其它结点的连通性。P2P网络通常都是以自组织的方式建立起来的，并允许结点自由地加入和离开。P2P网络还能够根据网络带宽、结点数、负载等变化不断地做自适应式的调整。

高性能/价格比：性能优势是P2P被广泛关注的一个重要原因。随着硬件技术的发展，个人计算机的计算和存储能力以及网络带宽等性能依照摩尔定理高速增长。采用P2P架构可以有效地利用互联网中散布的大量普通结点，将计算任务或存储资料分布到所有结点上。利用其中闲置的计算能力或存储空间，达到高性能计算和海量存储的目的。通过利用网络中的大量空闲资源，可以用更低的成本提供更高的计算和存储能力。

隐私保护：在P2P网络中，由于信息的传输分散在各节点之间进行而无需经过某个集中环节，用户的隐私信息被窃听和泄漏的可能性大大缩小。此外，目前解决Internet隐私问题主要采用中继转发的技术方法，从而将通信的参与者隐藏在众多的网络实体之中。在传统的一些匿名通信系统中，实现这一机制依赖于某些中继服务器节点。而在P2P中，所有参与者都可以提供中继转发的功能，因而大大提高了匿名通讯的灵活性和可靠性，能够为用户提供更好的隐私保护。

负载均衡： P2P 网络环境下由于每个节点既是服务器又是客户机，减少了对传统C/S结构服务器计算能力、存储能力的要求，同时因为资源分布在多个节点，更好的实现了整个网络的负载均衡。

　2 P2P-Grid模型研究与设计

　　2.1 P2P-Grid模型研究

根据网络环境下资源的广泛分布性及其终面向普通计算机用户提供计算机能力的目标，为避免单一网格系统上产生瓶颈，基于P2P和Grid的互补性，采用P2P-Grid模型[7]来组织网络环境下的资源。根据银行系统的运作模式，采用“分而治之”的思想，把“单一网格系统”分割成若干个处于对等地位的“小规模网格”系统，本文称为Grid-Peer。这些Grid-Peer可以采用不同的网格技术来组织本系统内部的资源，其交互方式采用分布式P2P技术。整个Grid-Peer具备较强的处理能力，可以完成本系统中绝大部分任务的资源需求。若任务在某个Grid-Peer中不能完成，则可以通过P2P技术转移到可完成该任务的Grid-Peer中。

　2.2 Grid-Peer系统地理位置的选择

网络环境下的资源种类众多，数量庞大。相对于要调度的任务而言，需要对这些资源进行有序的组织，并采取合理的措施进行管理，根据任务需求对它们进行调度。为提高资源的利用率，可采用类似于银行系统建立或新增分行的模式，在资源密集的地方优先建立Grid-Peer。本文的Grid-Peer实际上是一个网格系统。但是相对于P2P系统而言，只是其中的一个Peer。在P2P-Grid系统中，有超级处理能力的Super-Peer管理一定数目的资源。例如，银行系统优先在人流量比较集中的地方建立分行，既能有效聚集闲散资金，提高其业务处理能力，又可方便附近的居民。这种思想同样可应用于P2P-Grid系统。P2P-Grid系统中的Grid-Peer优先建立在网络资源密集的地方，可以在本地范围内合理地整合资源，减少共同处理一个任务的资源之间通信所消耗的时间。同时本地用户也可用更短的时间完成任务提交。当系统返回结果时，其平均通信时间也比较短。

　　2.3 Grid-Peer系统层次功能模型研究

Grid-Peer相对于单独的网格系统而言，需要一个和其他Grid-Peer进行交互的接口，代理被用来充当这个角色。实际上，代理可以作为本地Grid-Peer的代理，其功能是接受用户提交的任务，与其他Grid-Peer系统中的代理交互，实现不同Grid-Peer之间的资源共享，负责任务在Grid-Peer系统之间的迁移，从而达到多个Grid-Peer系统之间的负载均衡。Grid-Peer系统功能模型（PC：个人计算机，HPC：高性能计算机，LAN：局域网）。

网格用户可以向任何一个代理提出资源请求。代理接受网格用户的抽象任务信息包后，查看其所需的资源信息，把它交给相应的资源管理器处理。资源管理器查询某资源组队列，发现了多个资源后，选择适合的资源分配给任务。若没有在资源组中查到任务需求的资源，则查找性能较高的资源组或向代理返回“查找失败”消息。代理收到“查找失败”消息后，向其他的代理传送该任务的需求信息，直到找到相应的资源，或经过一段的时间后，以失败结束这次资源查找过程。

　　3 Grid-Peer中的资源组织

　　3.1 Grid-Peer与单一网格系统的区别

Grid-Peer与单一网格系统在规模和系统资源的组成上有很大区别。Grid-Peer的规模比单一网格系统小。其主要特点是在系统的部分很少出现瓶颈现象，它管理的资源在性能上很普通，可能是许许多多的PC机。另外一个显着的区别就是具有和其他Grid-Peer进行交互的接口。Grid-Peer整合的资源地理位置之间的平均距离也比单一网格系统中的短，它组织的资源可以是高校中的某幢楼层里或整个校园中并包括其附近地区里的计算机，或其他设备。

　　3.2 基本概念

定义1 资源属性值域R为某资源任一属性值所有可能取值为实数的集合，R上的值域定义为VA＝{x|r1≤x≤r2，x∈R，r1∈R，r2∈R}，则令VA＝[r1，r2]，VA为R的子集，表示VA由所有介于r1（可以等于r1）和r2之间的实数组成。

定义2 资源组：资源属性值在某个资源属性值域范围内的资源集合。

定义3 计算能力：计算资源在单位时间内运算的次数。

定义4 CPU==[1G，2G]，CPU的主频取值在1GB～2GB的范围内。

定义5 Mem（内存）＝＝[64M，128M]内存容量取值在64MB～128MB之间。

性质1 同一资源组中的资源具有的计算能力属于规定该资源组CPU属性值域的集合。

性质2 同一资源组中的资源具有的存储容量属于规定该资源组的内存属性值域的集合。

　　3.3 资源组目录树

资源的组织方式决定资源发现、资源匹配和资源调度等其他资源管理技术。而资源管理器为用户选择资源、匹配资源请求与具体资源的方法有很多种，不同方法会影响资源的利用率和系统开销。P2P-Grid环境下的资源组织会影响到Grid-Peer的资源管理系统内部模块之间以及Grid-Peer系统之间的通信模式，也会决定P2P-Grid资源管理系统是否可扩充。通常有集中式和分布式两种资源组织方式。由于P2P-Grid系统本身是P2P技术与Grid技术的融合，整体上可看做是一种分布的集中式系统。本文采用分布式与层次式结合的资源组织方式组织P2P-Grid环境下的资源。为了共享接入Grid-Peer中的资源，应注意资源接入到互联网中的不同方式和不同种类：有的计算机通过其所在的局域网接入互联网，而另外一些则直接接入互联网；有的是普通工作站，另外的计算资源则是一些高性能计算机，资源使用方式很不相同。按照资源被接入到互联网的方式，把主要执行计算的计算资源分为高性能计算机、PC和LAN中的计算机三个大类，分别用三个不同的服务器对这些资源进行管理。局部网格中还包括对这三大类资源属性信息进行管理的高性能计算资源管理器、PC资源管理器和LAN资源管理器。Grid-Peer系统中使用分类的层次式资源组目录树记录资源属性信息。资源组由计算能力相当的资源聚集而成。

分类层次式资源组目录树的逻辑组织是根据物理资源实际拓扑结构由资源向Grid-Peer注册建立起来的。资源组目录树层主干节点充当三种不同类别的资源信息管理器。

资源的组织形式。用户作业请求计算资源时，一般会指定所需资源的CPU、内存和OS（操作　　系统）的具体的属性值所在的范围，在对计算资源分类时（如图2中的PC、LAN和HPC），可再细分多个子目录，分别由CPU、内存和操作系统的属性值范围确定。资源组目录树的叶子节点是属于某资源组的资源，其某些属性值都在指定的范围内。查找资源时可快速准确地找到某一属性值范围内的资源集合，从而减少资源搜索的时间。

Grid-Peer系统中的资源分为PC资源（一般是通过宽带技术直接访问互联网）、LAN资源（作为一个小型的局域网络实体通过局域网访问互联网）和HPC资源。LAN 管理器的资源子树。由于HPC 管理器的资源子树和LAN管理器的资源子树大同小异，本文不再加以描述。

显着的区别是把LAN当作一个整体，并且每个LAN拥有工作站的数目不同，具有相同数量工作站的LAN都属于同一个LAN资源组。由于LAN中工作站之间可能出现的异构性，确定了某个LAN中具体的工作站数目后，继续采用PC资源管理器中的PC资源组的组织方法。其优点是：一旦PC资源管理器太过忙碌，LAN资源管理器中工作站同样可以当作PC资源来运行任务。

　　4 资源发现

把单一网格系统分割成许多Grid-Peer，组成P2P-Grid系统。每个Grid-Peer系统管理资源的数目变少，可以避免单一网格系统中出现的瓶颈现象。当某个Grid-Peer系统规模大到一定程度时，可以把该Grid-Peer系统分割成两个Grid-Peer系统。P2P-Grid系统中的许多Grid-Peer不仅可以同时工作，而且，由于Grid-Peer规模适中，在任务处理、资源发现、资源调度等方面能够缩短处理时间，可进一步提高整个P2P-Grid系统的效率。

采用分类的层次式资源组目录树模式组织Grid-Peer系统中的资源时，资源首先被分为三类：PC资源、LAN资源和HPC资源。在每类资源构成的子树中，把计算能力相当的资源聚集起来保存在同一个资源组中，彼此之间可互为备份资源。一旦运行任务的资源出错，备份资源马上可以接收迁移过来的任务并进行工作，以保证用户的QoS需求。系统进行资源查找时，其时间复杂度主要体现在对资源树进行层次遍历上。由于资源各个属性值的变化范围不大（操作系统类型种类有限，硬件中组件属性取值一般都是相对应的，例如CPU主频高，内存容量也比较大），所以在资源树的某一层进行遍历时，比较次数较少，资源查找范围相对于单一的资源树而言缩小了。

对Grid-Peer系统中的PC资源和LAN资源的发现也进行了研究。试验环境采用Globus Toolkit 3.2建立了小型网格平台，其中有3台IBM品牌机， CPU为2.66GHz，内存为256MB，1台兼容机，CPU为266MHz，内存160MB。每台计算机模拟成一个管理Grid-Peer系统中资源信息的服务器，即资源管理器。该资源管理器中保存有记录资源属性信息的资源组目录树，对Grid-Peer系统中的资源信息进行管理，主要就是对该资源组目录树进行操作。在这个模拟平台上，对在资源组目录树和单一资源目录树中资源查找所消耗的时间进行了研究。分别为查找单个资源和多个资源所消耗的时间。

针对资源组目录树和资源目录树（就是资源没有进行分类聚合）两种不同模式的资源组织方式查找单个PC资源所消耗的时间。从中可以看出，资源组目录树这种资源组织方式在Grid-Peer系统中的资源比较多的情况下，其资源查找所消耗的时间相对资源目录树而言比较短。但是，两种资源组织方式随着系统中注册的资源数量的增加、系统规模的变大，其资源查找时间也明显增加。

查找资源组目录树中含有5个工作站的LAN资源所消耗的时间与在单一资源目录树中查找5个资源所消耗时间的比较。随着Grid-Peer系统规模的变大，发现5个资源所消耗的时间也随着增加，这与发现单个资源的情况是相同的。在增加相同资源数目的情况下，资源组目录树中资源发现时间的增加量要小于在单一资源目录树中资源发现时间的增加量。这是由于LAN资源被当作一个整体时，LAN资源的数目增加相对单一资源目录树中把LAN中的每个工作站作为一个资源时资源数目增加得要少。

　　5 结论

随着网格技术和P2P技术的成熟，结合P2P和Grid的P2P-Grid也将成为高性能计算研究中的一个热点。在研究了P2P-Grid的资源组织模型后发现，采取层次式资源组模式的资源组目录树组织资源时，由于资源发现时间查找范围缩小了，其查找时间大大缩短，这无疑将会提高整个P2P-Grid的性能。

上一篇：基于FPGA的数字示波器设计

下一篇：浅谈XML异构数据访问中间件的设计方案