格线作为一种能带来巨大处理、存储能力和其他IT资源的新型网路,可以应付临时之用。
格线计算通过共享网路将不同地点的大量计算机相联,从而形成虚拟的超级计算机,将各处计算机的多余处理器能力合在一起,可为研究和其他数据集中套用提供巨大的处理能力。有了格线计算,那些没有能力购买价值数百万美元的超级计算机的机构,也能利用其巨大的计算能力。
基本介绍
- 中文名:格线技术
- 简介:能带来巨大存储能力的新型网路
- 核心技术:高性能调度技术
- 技术:控制权
简介
Gartner公司的Rob Batchelder认为,格线的构想一直是计算领域的“乌托邦”,在科技套用上虽有巨大前景,但最大的缺陷是缺乏明显的商业套用。自20世纪90年代在欧美出现以来,格线主要被用于帮助分散的大学研究人员分析粒子加速器和巨型望远镜的数据。但在过去的两年中,格线的概念和GlobusToolkit已在研究和教育领域得到广泛套用,数十项全球性的大项目採用这些技术,以挑战科学计算中的海量计算问题。
格线技术虽主要为学术机构所控制,但企业也在陆续跟进。事实上,全球格线论坛(GlobalGridForum)的主要赞助企业就包括Unilever——一家以经销肥皂、冰淇淋着称的企业。与许多正在研究和评估格线技术的企业一样,Unilever自己对于如何利用此技术仍秘而不宣。而Johnson&Johnson与Merck等製药公司、BMW与波音等製造企业却已利用这一技术的处理能力和存储空间进行仿真试验,例如药品能否保护细胞免受病毒侵袭?飞机机翼是否会在暴风雨中折断?
基因研究是格线技术的自然套用,这一领域所需的投资很难由一家企业来承担,生物科技企业可用格线技术来分析基因数据;医生可以用格线技术製作出病人器官的三维模型,作为诊断疾病的辅助手段;格线可以处理来自商店现金记录或金融市场的数据流。其他行业,如航空、保险、运输和国防,也会从中受益。如此看来,格线计算并非是可望不可及的乌托邦,其商业套用的广阔前景就在眼前。

核心技术
为解决不同领域複杂科学计算与海量数据服务问题,人们以网路互连为基础构造了不同的格线,有代表性的如计算格线、拾遗格线、数据格线等,它们在体系结构和需要解决的问题类型等方面不尽相同,但都需要共同的关键技术,主要有如下几种:
高性能调度技术在格线系统中,大量的套用共享格线的各种资源,如何使得这些套用获得最大的性能,这就是调度所要解决的问题。格线调度技术比传统高性能计算中的调度技术更複杂,这主要是因为格线具有一些独有的特徵,例如,格线资源的动态变化性、资源的类型异构性和多样性、调度器的局部管理性等。所以格线的调度需要建立随时间变化的性能预测模型,充分利用格线的动态信息来表示格线性能的波动。在格线调度中,还需要考虑移植性、扩展性、效率、可重複性以及格线调度和本地调度的结合等一系列问题。
资源管理技术资源管理的关键问题是为用户有效地分配资源。高效分配涉及到资源分配和调度两个问题,一般通过一个包含系统模型的调度模型来体现,而系统模型则是潜在资源的一个抽象,系统模型为分配器及时地提供所有节点上可见的资源信息,分配器获得信息后将资源合理地分配给任务,从而最佳化系统性能。
格线安全技术格线计算环境对安全的要求比 Internet的安全要求更为複杂。格线计算环境中的用户数量、资源数量都很大且动态可变,一个计算过程中的多个进程间存在不同的通信机制,资源支持不同的认证和授权机制且可以属于多个组织。正是由于这些格线独有的特徵,使得它的安全要求性更高,具体包括支持在格线计算环境中主体之间的安全通信,防止主体假冒和数据泄密;支持跨虚拟组织的安全;支持格线计算环境中用户的单点登录,包括跨多个资源和地点的信任委託和信任转移等。
格线研究最初的目标是希望能够将超级计算机连线成为一个可远程控制的元计算机系统(MetaComputers),这一目标已经深化为建立大规模计算和数据处理的通用基础支撑结构,将网路上的各种高性能计算机、伺服器、PC、信息系统、海量数据存储和处理系统、套用模拟系统、虚拟现实系统、仪器设备和信息获取设备(例如感测器)集成在一起,为各种套用开发提供底层技术支撑,将Internet变为一个功能强大、无处不在的计算设施,最终实现资源共享和分布协同工作。格线的这种概念可以清晰地指导行业和企业中各个部门的资源进行行业或企业整体上的统一规划、部署、整合和共享,而不仅仅是行业或大企业中的各个部门自己规划、占有和使用资源。这种思想的沟通和认同对行业和企业是至关重要的,将提升或改变整个行业或企业信息系统的规划部署、运行和管理机制。
控制权
格线计算被誉为继Internet和Web之后的“第三个信息技术浪潮”,有望提供下一代分散式套用和服务,对研究和信息系统发展有着深远的影响。主要IT厂商早就为获得格线计算的控制权展开了竞争。
Sun公司日前发布了“格线引擎”企业版5.3的测试版,使企业内部的计算机格线更容易联接,提供更好的管理和资源分配。格线引擎软体提供了开放原始码版本,自2000年发布到目前为止,共被下载了1.2万次,共有11.8万个CPU利用该软体进行管理。Sun公司技术产品行销经理PeterJeffcock认为,格线计算有明显的三个阶段:群集格线、校园格线和全球格线,发布的GridEngine企业版5.3使Sun向功能校园格线迈进了一步。Sun还与竞争对手一起支持AVAKI与Globus等行业组织,积极参与格线计算开放标準的建立。
Microsoft的研究部门也参与了各项分散式计算研究项目,包括容错远程档案系统Farsite,以及建设分散式系统的Millenium;HP也表示将提供Coolbase软体,使用户可以通过Internet共享各种计算设备;Compaq宣布正在制定一个全球性的格线计算解决方案计画,向寻求格线计算系统的客户提供软硬体和技术支持。为此,Compaq与加拿大PlatformComputing结盟,充分利用该技术,以及CompaqTru64UnixAlpha伺服器系统和运行Linux的CompaqProLiant伺服器,为用户提供完整的、集成的、开放的格线解决方案。Compaq还建立了格线计算高级研究中心,继续对该技术进行研究。日本的企业在格线计算方面也跃跃欲试。NTT宣布将于2002年中期开展为期6个月的格线计算试验,参与者包括了Intel、SGI等。
2001年8月,IBM宣布在格线计算领域投资40亿美元,在全球建设40家数据中心,正式进入格线计算领域。IBM被英国政府选中,负责NationalGrid(国家格线)项目,这项预算达2500万美元的格线会把8所大学的计算机相连。IBM正与美国的宾夕法尼亚大学合作,将数家医院联接,构建一个複杂的计算格线。
参与的医院可快速利用远方的医疗数据,并共享分析程式。日前,IBM还宣布了一项名为北卡罗来纳生物信息科学格线的项目,涉及60家企业、大学和生物医学研究公司,这是全球第一个主要由私营行业参与的格线项目。而此时距IBM进入格线计算领域仅仅3个月。看来IBM是要立志做格线技术的“领头羊”。
那幺,这一项目的实施是否标誌格线计算已开始进入商业套用呢?
成功关键
就像TCP/IP协定是Internet的核心一样,构建格线计算也需要对标準协定和服务进行定义。包括Global Grid Forum、研究模型驱动体系结构(Model Driven Architecture)的对象管理组织(OMG)、致力于网路服务与语义WWW研究的W3C,以及标準化团体蠢蠢欲动。
OMG、W3C、Grid Forum等标準化组织与来自学术、商业领域的人士出席了“软体服务格线研讨会”,加快全球大格线(GGG)标準的制定。接着,另一开放原始码格线标準组织——Globus也集会研究通过广域网联接的高性能计算的基础设施问题。Globus正致力于开发标準的格线架构和其他技术。
迄今为止,格线计算还没有正式的标準,但在核心技术上,相关机构与企业已达成一致:由美国Argonne国家实验室与南加州大学信息科学学院(ISI)合作开发的Globus Toolkit已成为格线计算事实上的标準,包括Entropia、IBM、Microsoft、Compaq、Cray、SGI、Sun、Veridian、Fujitsu、Hitachi、NEC在内的12家计算机和软体厂商已宣布将採用Globus Toolkit。作为一种开放架构和开放标準基础设施,Globus Toolkit提供了构建格线套用所需的很多基本服务,如安全、资源发现、资源管理、数据访问等。所有重大的格线项都是基于Globus Tookit提供的协定与服务建设的。
除了标準以外,安全和可管理性、IT人才的缺乏也是格线计算亟待解决的一个问题,否则将无法成为企业的商业架构。在内部系统环境中常常视而不见的问题,如安全、认证和可靠性,在任何分散式环境下都必须得到解决。研究谘询公司StencilGroup的合伙人Brent Sleeper认为:“这要求具有高层次的架构技能,而不是简历上列出的程式语言。”如果把全球的格线都联在一起,那幺就能借用彼此未用的资源,格线就会更强大和灵活。虽然这也是格线的最终目标,但把格线联在一起也会带来政治问题。IBM为大学建设格线或Unilever建设内部的格线都只是单纯的IT决策,而将私有格线联接,形成能力更大的共享格线,其中的风险却大得多。在客户需要时,相互竞争的格线提供商是否愿意出售彼此多余的资源?此外,格线套用常涉及大量的数据和计算,需要在各组织间共享安全资源,这不是当前的Internet和网路基础设施所能做到的。看来在格线计算实现商业套用之前,还有很多的问题需要解决。
然而,构想一下运用前所未闻的计算能力所能完成的工作,我们都会明白,构建全球格线的前景几乎是无法抗拒的。美国Argonne国家实验室的科学家Rick Stevens指出:“就像最初的Arpanet成为Internet的中心一样,就把Teragrid看做是形成全球格线中心的雏形吧!”
套用
生物医学:格线可提供药品开发人员所需的计算能力,用以研究药物和蛋白质分子的形态与运动。
工程:波音、福特、bmw公司都在尝试用格线计算进行複杂的仿真与设计。
数据蒐集/分析:製造、石油加工、货物运输、甚至零售企业都要维护昂贵的设备,时常会出现问题,造成不好的结果。同无线感测器一样,格线能够存储和处理所有交易。
娱乐产业:界面设计
格线作为一个集成的计算与资源环境,能够吸收各种计算资源,将它们转化成一种随处可得的、可靠的、标準的且相对经济的计算能力,其吸收的计算资源包括各种类型的计算机、网路通信能力、数据资料、仪器设备甚至有操作能力的人等各种相关资源等。
格线是借鉴电力网的概念提出的,格线的最终目的是希望用户在使用格线计算能力解决问题时像使用电力一样方便,用户不用去考虑得到的服务来自于哪个地理位置,由什幺样的计算设施提供。也就是说,格线给最终的使用者提供的是一种通用的计算能力。
电力网
电力网需要有大量的变电站等设施对电网进行调控,相应的格线中也需要大量的管理站点来维护格线的正常运行。格线的结构及资源的调控将更複杂,需要解决的问题也更多。因为格线所关心的问题不再是档案交换,而是直接访问计算机、软体、数据和其他资源。这就要求格线具备解决资源与任务的分配和调度、安全传输与通信实时性保障、人与系统以及人与人之间的互动等能力。
格线提供的资源是随时间动态变化的,原来拥有的资源或者功能,在下一时刻可能就会出现故障或者拒绝被使用,而原来没有的资源,可能随着时间的进展会不断加入进来。
计算领域
分散式超级计算。格线计算可以把分散式的超级计算机集中起来,协同解决複杂的大规模的问题。使大量闲置的计算机资源得到有效的组织,提高了资源的利用效率,节省了大量的重複投资,使用户的需求能够得到及时满足。
高吞吐率计算。格线技术能够十分有效地提高计算的吞吐率,它利用CPU的周期窃取技术,将大量空闲的计算机的计算资源集中起来,提供给对时间不太敏感的问题,作为计算资源的重要来源。
数据密集型计算。数据密集型的问题的求解往往同时产生很大的通讯和计算需求,需要格线能力才可以解决。格线可以药物分子设计、计算力学、计算材料、电子学、生物学、核物理反应、航空航天等众多的领域得到广泛的需求。
基于广泛信息共享的人与人互动。格线的出现更加突破了人与人之间地理界线的限制,使得科技工作者之间的交流更加的方便,从某种程度上可以说实现人与人之间的智慧共享。
更广泛的资源贸易。随着大型机的性能的提高和微机的更加普及,及其资源的闲置的问题也越来越突出,格线技术能够有效地组织这些闲置的资源,使得有大量的计算需求的用户能够获得这些资源,资源的提供者的套用也不会受到太大的干扰。需要计算能力的人可以不必购买大的计算机,只要根据自己的任务的需求,向格线购买计算能力就可以满足计算需求。
体系结构
格线技术不断地发展使人们逐渐地意识到了格线体系结构的重要性。格线体系结构用来划分系统的基本组件,指定系统组件的目的和功能,说明组件之间如何相互作用,规定了格线各部分相互的关係与集成的方法。可以说,格线体系结构是格线的骨架和灵魂,是格线技术中最核心的部分。
五层沙漏
五层沙漏结构是一种早期的抽象层次结构,以“协定”为中心,强调协定在格线的资源共享和互操作中的地位。通过协定实现一种机制,使得虚拟组织的用户与资源之间可以进行资源使用的协商、建立共享关係,并且可以进一步管理和开发新的共享关係。这一标準化的开放结构对格线的扩展性、互操作性、一致性以及代码共享都很有好处。图1为五层沙漏结构的典型结构图。 五层结构之所以形如沙漏,是由各部分协定数量的分布不均匀引起的。考虑到核心的移植、升级的方便性,核心部分的协定数量相对比较少 (例如Internet上的TCP和HTTP),对于其最核心的部分,要实现上层协定(沙漏的顶层)向核心协定的映射,同时实现核心协定向下层协定(沙漏的底层)的映射。按照定义,核心协定的数量不能太多,这样核心协定就成了一个协定层次结构的瓶颈。在五层结构中,资源层和连线层共同组成这一核心的瓶颈部分,它促进了单独的资源共享。
开放格线
开放格线服务结构OGSA是Global Grid Forum4的重要标準建议,是目前最新也最有影响力的一种格线体系结构,被称为是下一代的格线结构。
OGSA的目的就是要将Grid的一些功能,更确切的说是Globus的一些功能融合到Web Service这个框架中。与前期格线不同的是,OGSA是面向服务的结构,将所有事务都表示成一个Grid服务,计算资源、存储资源、网路、程式、数据等都是服务,所有的服务都联繫对应的接口,所以,OGSA被称为是以服务为中心的“服务结构”,通过标準的接口和协定支持创建、终止、管理和开发透明的服务,其发展象徵着Web Service的一个进步,结合Web Service技术,支持透明安全的服务实例,OGSA有效地扩展了Web Service架构的功能。
五层模型与OGSA都相当重视互操作性,但OGSA更强调服务的观点,将互操作性问题转化为定义服务的接口和识别激活特定接口的协定。这一面向服务模型具有很多优点,环境中的所有组件都是虚拟化的,通过提供一个所有Grid服务实现基础的一致接口的核心集,可以使得分级的、更高级别的服务的构建能够跨多个抽象层以一种统一的方式进行处理。虚拟化还促使从多个逻辑资源实例到同一物理资源的映射,不考虑实现的服务组合,以及一个VO内的基于低级资源组合的资源管理。正是Grid服务的虚拟化加强了通用服务语义行为无缝地映射到本地平台设施的能力。
工具包
由于网际网路结构并不是针对格线计算设计的,为了使格线计算和现有的结构兼容,一个可扩展的中间件是必需的,也就是基于作业系统之上的格线管理软体。在网路化套用成为主流的时代,单机作业系统如NT、Windows等的地位已经降低,格线管理软体实际上是更高层次的格线作业系统,其核心技术主要是一体化的信息平台、语义网站、智慧型代理和知识本体技术等。建立格线服务的协定与标準是格线发展的重点和难点。Globus项目是目前国际上最有影响力的与格线计算相关的项目之一,是来自世界各地关注格线技术的研究人员和开发人员共同努力的成果。它是围绕四种主要活动来组织的:研究、软体工具、实验台和应用程式。
Globus对资源管理安全、信息服务及数据管理等格线计算的关键技术进行研究,开发能在各种平台上运行的格线计算工具软体,帮助规划和组建大型的格线实验平台,开发适合大型格线系统运行的大型应用程式。Globus工具包是Globus最重要的实践成果,它是一个开放源码的关键Grid协定的参考实现,支持大量的主要的电子科学项目。该工具包基于开放结构、开放服务资源和软体库并支持格线和格线套用,致力于安全、信息发现、资源管理、数据管理、通信错误诊断等问题。
Globus的格线计算协定是建立在网际网路协定之上的,以网际网路协定中的通信、路由、名字解析等功能为基础。Globus的协定分为5层:构造层、连线层、资源层、汇聚层和套用层。上层协定可调用下层协定的服务。格线内的全局套用都通过协定提供的服务来调用作业系统。Globus工具包包括格线安全、格线信息获取与分布、格线资源管理及格线远程传输等内容,这些都是格线开发中的关键技术和必须解决的重要问题。
计算方法
可能大家首先会问的是什幺是云计算。
云计算
云计算(CloudComputing)是分散式处理(DistributedComputing)、并行处 理(ParallelComputing)和格线计算(GridComputing)的发展,或者说是这些计算机科学概念的商业实现。
云计算的基本原理是,通过使计算分布在大量的分散式计算机上,而非本地计算机或远程伺服器中,企业数据中心的运行将更与网际网路相似。这使得企业能够将资源切换到需要的套用上,根据需求访问计算机和存储系统。
PC是我们日常工作生活中的核心工具:我们用PC处理文档、存储资料,通过电子邮件或随身碟与他人分享信息。如果PC硬碟坏了,我们会因为资 料丢失而束手无策。而在“云计算”时代,“云”会替我们做存储和计算的工作。“云”就是计算机群,每一群包括了几十万台、甚至上百万台计算机。“云”的好 处还在于,其中的计算机可以随时更新,保证“云”长生不老。
云计算的基本原理是,通过使计算分布在大量的分散式计算机上,而非本地计算机或远程伺服器中,企业数据中心的运行将更与网际网路相似。这使得企业能够将资源切换到需要的套用上,根据需求访问计算机和存储系统。
PC是我们日常工作生活中的核心工具:我们用PC处理文档、存储资料,通过电子邮件或随身碟与他人分享信息。如果PC硬碟坏了,我们会因为资 料丢失而束手无策。而在“云计算”时代,“云”会替我们做存储和计算的工作。“云”就是计算机群,每一群包括了几十万台、甚至上百万台计算机。“云”的好 处还在于,其中的计算机可以随时更新,保证“云”长生不老。
格线计算
但另一方面,我们不能不提及目前正在使用的格线计算技术,格线是通过区域网路或广域网提供的一系列分散式计算资源,而对终端用户或套用来讲,好像是一台 大型虚拟计算机。这种构想是通过在个人、组织和资源之间实现安全、协调的资源共享,来创建虚拟动态的组织。格线计算是分散式运算的一种方法,不仅包括使 置,而且还涵盏组织、硬体和软体,以提供无限的能力,使连线到格线的每个人都可以进行合作和访问信息。格线计算同样也是套用于分散式运算的一种方法,但是 可以说从很多方面比较,云计算都是格线计算技术的一次飞跃。
二者比较
首先,我们可以从格线计算的作业调度方面来进行比较。作业调度是格线技术的核心价值,格线的目标,是想要儘可能地利用各种资源。它通过特定的格线软 件,将一个庞大的项目分解为无数个相互独立的、不太相关的子任务,然后交由各个计算节点进行计算。即便某个节点出现问题,没有能够及时返回结果,也不影响 整个项目的进程,甚至即便某一个计算节点突然崩溃,其所承担的计算任务也能够被任务调度系统分配给其他的节点继续完成。
而云计算也像格线汁算一样将所有的资源构筑成一个庞大的资源池,但是云计算向外提供的某个资源,是为了完成某个特定的任务。比如,某个用户可能需要从 资源池中申请一定量的资源来部署其套用,而不会将自己的任务提交给整个格线来完成。从这一点来看,格线的构建大多为完成某一个特定的任务需要,这也是会有 生物格线、地理格线、国家教育格线等各种不同的格线项目出现的原因。而云计算一般来说都是为了通用套用而设计的,没有专门的以某种套用命名的格线。
其次,云计算将在三大方面产生影响:对网际网路套用的影响、对产品套用模式的影响、对lT产品开发方向的影响。当然,所谓的改变并不是彻底的颠覆,而是 增加了新的特点。这一优势,是对格线技术提出的挑战。格线计算产生时同样具有以下优势:通过任何一台计算机都可以提供无限的计算能力,可以接人浩如烟海的 信息。这种环境将能够使各企业解决以前难以处理的问题,最有效地使用他们的系统,满足客户要求并降低他们计算机资源的拥有和管理总成本。
但对于云计算来说,是对这些优势的更大扩展。今后通过云计算,更多地套用能够以网际网路服务的方式进行。云计算将扩大软硬体套用的外延并改变软硬体产品 的套用模式。通过云计算,用户可以不必购买新的伺服器和部署软体,就能得到套用环境或者套用本身。对于用户来说,软硬体不必是部署在自己身边的、专属于自 己的产品,而是可以变身为可利用的、虚拟的一种资源。而且,可以利用的软硬体资源也不仅限子自己企业内部的设备和软体,而是可以通过网路得到扩展的软硬体 资源。IT产品的开发方向也将发生变化,以适应上述两种情况。
其次,云计算将在三大方面产生影响:对网际网路套用的影响、对产品套用模式的影响、对lT产品开发方向的影响。当然,所谓的改变并不是彻底的颠覆,而是 增加了新的特点。这一优势,是对格线技术提出的挑战。格线计算产生时同样具有以下优势:通过任何一台计算机都可以提供无限的计算能力,可以接人浩如烟海的 信息。这种环境将能够使各企业解决以前难以处理的问题,最有效地使用他们的系统,满足客户要求并降低他们计算机资源的拥有和管理总成本。
但对于云计算来说,是对这些优势的更大扩展。今后通过云计算,更多地套用能够以网际网路服务的方式进行。云计算将扩大软硬体套用的外延并改变软硬体产品 的套用模式。通过云计算,用户可以不必购买新的伺服器和部署软体,就能得到套用环境或者套用本身。对于用户来说,软硬体不必是部署在自己身边的、专属于自 己的产品,而是可以变身为可利用的、虚拟的一种资源。而且,可以利用的软硬体资源也不仅限子自己企业内部的设备和软体,而是可以通过网路得到扩展的软硬体 资源。IT产品的开发方向也将发生变化,以适应上述两种情况。