云计算 您所在的位置:网站首页 GFS文件系统 云计算

云计算

2023-07-21 23:47| 来源: 网络整理| 查看: 265

目录

1.Google文件系统GFS

2.系统架构

3.GFS的特点

4.容错机制

5.系统管理技术

1.Google文件系统GFS Google文件系统(Google File System,GFS)是一种大型的分布式文件系统。它为Google云计算提供海量存储,并与Chubby、MapReduce及Bigtable等技术结合十分紧密,处于所有核心技术的底层。GFS不是开源系统。GFS采用廉价的商业机器构建分布式系统,同时将GFS的设计与Google应用的特点紧密结合。GFS将容错的任务交给文件系统完成,利用软件的方法解决系统可靠性问题,使存储的成本成倍下降。GFS将服务器故障视为正常现象,并采用多种方法,从多种角度,使用不同的容错措施,确保数据存储的安全,保证不间断的数据存储服务。 2.系统架构

GFS将整个系统的节点分为三类角色:Client(客户端)、Master(主服务器)和Chunk Server(数据块服务器)。

Client是GFS提供给应用程序的访问接口,它是一组专用接口,不遵守POSIX规范,以库文件的形式提供。应用程序直接调用这些库函数,并与该库连接在一起。Master是GFS的管理节点,在逻辑上只有一个,它保存系统的元数据,负责整个文件系统的管理,是GFS文件系统中的”大脑“。Chunk Server负责具体的存储工作。数据以文件的形式存储在Chunk Server上,Chunk Server的个数可以有多个,它的数目直接决定了GFS的规模。GFS将文件按照固定大小进行分块,默认为64MB,每一块称为一个Chunk(数据块),每个Chunk都有一个对应的索引号(index)。

运行过程:

Client在访问GFS时,首先访问Master节点,获取与之进行交互的Chunk Server信息,然后直接访问这些Chunk Server,完成数据存取工作。GFS的这种设计方法实现了控制流和数据流的分离。Client与Master之间只有控制流,而无数据流,极大地降低了Master的负载。Client与Chunk Server之间直接传输数据流,同时由于文件被分成多个Chunk进行分布式存储,Client可以同时访问多个Chunk Server,从而使得整个系统的I/O高度并行,系统整体性能得到提升。 3.GFS的特点

 (1)采用中心服务器模式

GFS采用中心服务器模式管理整个文件系统,简化了设计,降低了实现难度。Master管理分布式文件系统中所有的元数据。文件被划分为Chunk进行存储,对于Master来说,每个Chunk Server只有一个存储空间。Client发起的所有操作都需要先通过Master才能执行。优点:

         ① 增加新的Chunk Server 比较容易,Chunk Server只需要注册到Master上即可,Chunk Server之间无任何关系。

          (如果采用完全对等的,无中心的模式,那么如何将Chunk Server的更新信息通知到每一个Chunk Server,会是一个设计难点,而且也将在一定程度上影像系统的扩展性) 

        ② Master维护了一个统一的命名空间,同时掌握整个系统内Chunk Server的情况,据此可以实现整个系统范围内数据存储的负载均衡。

        ③ 由于只有一个中心服务器,元数据的一致性问题自然得到了解决。

缺点:极易成为整个系统的瓶颈等

               (GFS采用多种机制来避免Master成为系统性能和可靠性上的瓶颈,如尽量控制元数据的规模、对Master进行远程备份、控制信息和系统分流等)

 (2)不缓存数据

(缓存(Cache)机制是提升文件系统性能的一个重要手段,通用文件系统为了提高性能一般需要实现复杂的缓存机制)  GFS文件系统根据应用的特点,没有实现缓存,是从两个方面考虑的:                                                                                                                                                             

         ① 必要性:客户端大部分是流式顺序读写,并不存在大量的重复读写,缓存这部分数据对提高系统整体性能的作用不大;对于Chunk Server,由于GFS在Chunk Server上以文件的形式存储,如果对某块数据读取频繁,本地的文件系统自然会将其缓存。

         ② 可行性:如何维护缓存与实际数据之间的一致性是一个极其复杂的问题,在GFS中各个Chunk Server的稳定性都无法确保,加之网络等多种不确定因素,一致性问题更为复杂;另外由于读取的数据量巨大,以当前的内存容量无法完全缓存。

对于存储在Master中的元数据,GFS采取了缓存策略。

       ① 一方面,Master需要频繁操作元数据,把元数据直接保存在内存中,提高了操作效率。

       ②另一方面,采用相应的压缩机制降低元数据占用空间的大小,提高内存的利用率。

 (3)在用户态下实现

(文件系统是操作系统的重要组成部分,通常位于操作系统的底层(内核态)。在内核态实现文件系统,可以更好地和操作系统本身结合,向上提供兼容的POSIX接口。)

    GFS选择在用户态下实现,主要基于以下几点考虑:

在用户态下实现,直接利用操作系统提供的POSIX编程接口就可以存取数据,无需了解操作系统的内在实现机制和接口,降低了实现的难度,提高了通用性。POSIX接口提供的功能更为丰富,在实现过程中可以利用更多的特性,而不像内核编程那样受限。用户态下有多种调试工具,而在内核态中调试相对比较困难。用户态下,Master和Chunk Server 都以进程的方式运行,单个进程不会运行整个操作系统,从而可以对其进行充分优化。在内核态下,如果不能很好地掌握其特性,效率不但不会高,甚至还会影响到整个系统运行的稳定性。用户态下,GFS和操作系统运行在不同的空间,两者耦合度降低,方便GFS自身和内核的单独升级。

(4)只提供专用接口

通常的分布式文件系统一般都会提供一组与POSIX规范兼容的接口,使应用程序可以通过操作系统的统一接口透明的访问文件系统,而不需要重新编译程序。GFS在设计之初,是完全面向Google的应用的,采用了专门的文件系统访问接口。接口以库函数的形式提供,应用程序与库函数一起编译,Google应用程序在代码中通过调用这些库函数的API,完成对GFS文件系统的访问。

    采用专用接口的好处:

降低了实现的难度。通常与POSIX兼容的接口需要在操作系统内核一级实现,而GFS是在应用层实现的。采用专用接口可以根据应用的特点对应用提供一些特殊支持,如支持多个文件并发追加的接口等。专用接口直接和Client、Master、Chunk Server交互,减少了操作系统之间上下文的切换,降低了复杂度,提高了效率。 4.容错机制

  Master容错

  Master上保存了GFS文件系统的三种元数据:

          (1) 命名空间(Name Space),即整个文件系统的目录结构。

       (2)Chunk与文件名的映射表。

       (3)Chunk副本的位置信息,每一个Chunk默认有三个副本。

 容错方案:

        (1)就单个Master来说,对于前两种元数据,GFS通过操作日志来提供容错功能。

        (2)第三种元数据信息则直接保存在各个Chunk Server上,当Master启动或Chunk Server向Master注册时自动完成。

        (3)当Master发生故障时,在磁盘数据保存完好的情况下,可以迅速恢复以上的元数据。

        (4)为了防止master彻底死机的情况,GFS还提供了Master远程的实时备份,这样在当前的GFS Master出现故障无法工作时,另外一个GFS Master可以迅速接替其工作。

Chunk Server容错

GFS采用副本的方式实现Chunk Server的容错

        (1)每个Chunk有多个存储副本(默认为三个),分布存储在不同的Chunk Server上。

        (2)副本的分布车略需要考虑多种因素,如网络的拓扑、机架的分布、磁盘的利用率等。、

        (3)对于每一个Chunk,必须将所有的副本全部写入成功,才视为写入成功。之后,如果相关的副本出现丢失或不可恢复等情况,Master自动将该副本复制到其他Chunk Server,从而确保副本保持一定的个数。

        (4)虽然一份数据需要存储三份,看起来好像磁盘空间的利用率不高,但综合比较多种因素,加之磁盘的成本不断下降,采用副本无疑是最简单、可靠、有效和实现难度最小的一种方法。

GFS中的每一个文件被划分为多个Chunk,Chunk的默认大小是64MB,这是因为Google应用中处理的文件都比较大,以64MB为单位进行划分,是一个较为合理的选择。Chunk Server存储的是Chunk的副本,副本以文件的形式进行存储。每一个Chunk以Block为单位进行划分,大小为64kB,每一个Block对应一个32bit的校验和。当读取一个Chunk副本时,Chunk Server会将读取的数据和校验和进行比较,如果不匹配,就会犯回错误,使Client选择其他Chunk Server上的副本。 5.系统管理技术

    GFS是一个分布式文件系统,包含从硬件到软件的整套解决方案。除了上面提到的一些GFS的关键技术外,还有相应的系统管理技术来支持整个GFS的应用,这些技术可能不一定为GFS独有。

大规模集群安装技术故障检测技术节点动态加入技术节能技术

       

 本文学习总结自刘鹏教授主编的教材《云计算(第三版)》

 

 

 

 



【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

    专题文章
      CopyRight 2018-2019 实验室设备网 版权所有