IBM Platform Computing工作负载管理解析
IBM Platform LSF管理批量和高度并行的工作负载,提供了灵活的以策略为驱动的调度功能,确保共享计算资源自动分配给用户、群组以及作业,并你的与服务等级协议保持一致,从而改善资源使用情况和用户生产效率。
Platform LSF架构 Platform LSF是一个位于异构企业资源之上的软件服务层。下表显示了这种分层的服务模式,它接受并且调用工作负载为批量或者非批量处理应用、管理资源和监控所有活动。 Platform LSF分层的服务模式 上图中显示了工作负载资源管理层的三个核心组件,分别是LSF Base、LSF Batch和LSF Libraries。这三个组件一起帮助创建一个共享的、可扩展的、容错的基础设施,交付更快速更可靠的工作负载性能。 LSF Base为分布式系统提供了基础的负载均衡服务,例如资源使用情况信息、主机选择、作业安置决策、透明远程运行作业以及远程文件选项。这些服务是通过以下组件提供的: 负载信息管理器(LIM)。每台主机上的LIM监控主机的负载,并向运行在主机节点上的LIM报告负载性能。主LIM手机来自运行在集群中的所有从属主机的信息,并向应用提供相同的信息。 进程信息管理器(PIM)。这是LIM发起的,运行在集群中的每个节点上。它收集运行在主机上的作业流程信息,例如作业消耗的CPU和内存,并将这些信息报告给sbatchd。 远程执行服务器(RES)。每台服务器主机上的RES接收远程运行请求,提供高速、透明和安全的远程任务运行。 有多个工具例如lstools、lstcsh和lsmake可用于管理工作负载。 LSFBatch将Platform LSF基础服务扩展至能够为批量作业处理系统提供负载均衡和基于策略的资源分配控制。为了提供这种功能,LSF Batch使用以下一些平台LSF的基础服务: 来自LIM的资源和负载信息,以便做负载均衡 来自LIM的集群配置信息 由LIM提供的主LIM选择服务 RES用于交互式批量作业运行 由RES提供的远程文件操作服务用于文件传输 Platform LSF Batch的核心组件是基于Master Batch Scheduler守护进程(mbschd)的调度框架,与多个插件进行结合。所有调度策略都是在插件中实现的。针对每个调度周期,触发调度,然后控制负载通过每个调度策略插件,并按照调度策略选择和派发到执行节点。 在不同的调度阶段,这个插件都可以拦截作业负载并影响最终决策。这意味着为了做出调度决策,Platform LSF采用多个调度方法,可以并发运行以及用于任何组合中,包括用户定义的定制调度方法。这种独特的模块化架构让调度器框架可扩展增加新策略例如新的亲和插件。 LSF Batch服务是有两个守护进程提供的。Master Batch守护进程(mbatchd)运行在主主机上,负责系统中整体作业状态。它接收作业提交和信息查询请求。守护进程管理队列中的作业,迅速将作业调遣至由mbatchd决定的主机。Slave Batch守护进程(sbatchd)运行在每个从属主机上。守护进程接收请求运行来自mbatchd的作业,并管理作业的本地运行。它负责执行本地策略并维持主机上的作业状态。守护进程创建一个子sbatchd以应对每个作业运行。这个子sbatchd将作业发送到RES,后者创建作业运行的环境。 LSF库为分布式计算应用开发者提供API,以访问作业调度和资源管理功能,提供以下一些平台LSF库: LSLIB:这是一个LSF库,为跨异构计算机网络的应用提供Platform LSF基础服务。Platform LSF基础API是Platform LSF基础系统的直接用户界面,为Platform LSF服务器的服务提供轻松的访问。一台Platform LSF主机服务器运行负载共享作业。一个LIM和RES运行在每个Platform LSF服务器主机上。他们与主机操作系统连接,为用户提供一个统一的、独立于主机的环境。 LSBLIB:LSF批量处理库为应用编程者提供了对作业队列处理服务的访问,这些服务是由平台LSF批量服务器提供的。所有平台LSF批量用户界面工具都是构建在LSBLIB之上的。通过LSBLIB提供的服务包括平台批量系统信息服务、作业操纵服务、日志文件处理服务以及Platform LSF批量管理服务。
责编:孟芳
微信扫一扫实时了解行业动态
微信扫一扫分享本文给好友
著作权声明:kaiyun体育官方人口 文章著作权分属kaiyun体育官方人口 、网友和合作伙伴,部分非原创文章作者信息可能有所缺失,如需补充或修改请与我们联系,工作人员会在1个工作日内配合处理。
|
最新文章
|