“云版本文档”的版本间的差异

来自Lustre文件系统
跳转至: 导航搜索
(创建页面,内容为“= 概述 = 本页面将介绍在亚马逊网络服务(Amazon Web Services)上运行Lustre云版本的相关概念和技术。这部分内容无法替代一般云计…”)
(没有差异)

2020年6月28日 (日) 19:42的版本

概述

本页面将介绍在亚马逊网络服务(Amazon Web Services)上运行Lustre云版本的相关概念和技术。这部分内容无法替代一般云计算概念方面的经验或培训。

亚马逊云概念

在本节中,将对AWS概念进行大致介绍,为讨论Lustre如何在AWS中运行奠定基础。

实例

AWS通过其弹性计算云(EC2)服务提供可租用的计算能力。EC2以不同的价位提供基于Xen的不同功能和容量的虚拟机。这些虚拟机实例的工作方式与任何其他环境中的虚拟机非常相似。它们可以被停止、重启和重装。当它们被终止时,意味着它们将永久停止,其资源返回到资源分配池中。

实例类型

由于AWS几乎处于持续升级的状态,EC2中当前的实例类型集变化相当频繁。应参考EC2实例类型列表以获取最新信息。截至2015年5月,推荐以下实例类型用于运行Lustre。

  • OSS:c4.8xlarge
  • MDS:c4.8xlarge
  • MGS:m3.xlarge

这些建议可以为不太熟悉Lustre或EC2的潜在用户提供指导。与任何Lustre部署一样,首要考虑的是网络性能(c3/c4实例(c3/c4实例类型支持增强网络),其次考虑存储性能和服务器规格(RAM/CPU)。随着规格的提高,每小时的实例成本也会增加。与任何解决方案设计一样,要想在成本和性能之间找到最佳平衡点,需要仔细了解解决方案的要求。

存储

实例存储(Instance Store)

EC2实例可以访问两种不同类型的块存储。基本的存储选项与每个实例一起分配,称为实例存储。这些卷在启动时立即作为常规linux块设备可用,并在高性能实例类型上使用SSD支持。实例存储提供高带宽和低延迟,但不提供任何高可用性(HA)保证。如果实例变得不可用或被终止,其存储也会消失。因此,实例存储不适合大多数Lustre部署。

弹性块存储

EC2实例可用的另一种块存储选项称为亚马逊弹性块存储(Amazon Elastic Block Storage, EBS)。EBS卷独立于特定实例而存在,并且可以无限期地存在。可以将EBS卷连接到实例,在卷上存储数据,终止实例后,可将卷连接到新的实例。EBS卷一次只能附加到一个实例上。当EBS卷连接到Linux实例时,它作为一个普通的块设备出现,通常从/dev/sdf开始,并在其后增加。

亚马逊没有给出EBS背后的实现细节,但它似乎涉及到在"真正的"块存储(SSD或磁性)和S3上进行数据剥离。总体结果是,给定的EBS卷可能比同等大小的物理驱动器更可靠,但亚马逊没有公布MTBF统计数据,因此我们无法确认这一点。故障还是会发生的,所以任何高可用的解决方案都需要对其进行规划。

截至2015年5月,gp2/io1卷类型的大小范围可以从1GiB到16TiB。目前还没有公布每个实例附加卷的数量的最大限制。

卷类型

可以创建的EBS卷有三种不同类型。对于Lustre来说,通用类型(gp2)是最具成本效益和实用性的类型。AWS关于EBS卷类型的文档能提供更多信息,下面内容仅为一个参考。

  • 标准型: 磁性(Magnetic,例"spinning rust")。这种类型基本上已被废弃,至少对于高性能工作负载来说是如此。最便宜,但最慢。
  • gp2:通用型固态硬盘。这种类型有3 IOPS/GIB的基准性能保证(即每配置一个GiB,保证3 IOPS)。
  • IO1: 规定的IOPS。更高的带宽,更低的延迟。保证IOPS性能,但也最昂贵。

简单存储服务

亚马逊简单存储服务(Simple Storage Service ,S3)提供了安全、可持续的、高度可扩展的对象存储。它是一个巨大的键/值存储,块状的bit被存储为值,可以通过用户提供的键进行检索。如果需要的话,还可以使用一些元数据来采用类似目录的层次结构。S3组织的基本单位是桶(bucket)。一个桶对应一个名称,这个名称在一个账户中必须是唯一的,并反过来提供对存储在桶中的对象的访问。可以设置桶的ACL,以确保对桶内容的适当访问。

云版本目前并没有使用S3进行存储,但在讨论用户需求时,了解一下S3是很有帮助的。从1.0.1版本开始,CE支持在创建文件系统后自动导入桶内容。在用户想要处理通过S3共享的大型公共数据集的情况下,这个功能会很有用。

网络

EC2实例有两种不同的网络选项。最初的网络选项现在被称为EC2 Classic(您的实例在与其他客户共享的网络中启动),并且正在被废弃。实例的首选网络选项是亚马逊虚拟私有云(Amazon Virtual Private Cloud,VPC),这也是CE推荐的选项。

VPC选项允许实例独立于其他用户,在AWS的逻辑隔离部分启动。每个亚马逊账户都默认创建了自己的VPC,用户可以选择创建额外的VPC来满足个人需求。

正如前面一节提到的,每种实例类型都有特定的计算能力(vCPU数量)、系统RAM和网络性能规格。对于生产型Lustre部署,建议不要使用没有增强网络功能的实例类型。

部署注意事项

除了选择正确的实例类型外,开发解决方案的另一个重要步骤是了解所需的网络拓扑结构。默认情况下,部署在VPC中的实例具有私有IP地址,并且没有VPC之外的网络访问。这意味着无法对AWS服务端点的访问--这一细节会给一些客户部署带来问题。为了让CE配置Lustre集群,软件必须能够访问AWS端点(ec2、s3等)。通过使用NAT实例或代理服务器,可以方便从VPC的实例进行访问。还可以选择为每个实例分配一个公共IP地址,但这种解决方案可能成本过高,而且出于安全原因,这种方案并不可取。

放置组(Placement Groups)

为了在实例之间确保10Gbps的带宽,用户必须定义一个放置组(PG),并将实例启动到该PG中。使用PG的缺点是,EC2难以共同放置足够的实例来满足请求,在这种情况下,将返回容量错误。