1.什么是Google File System?
Google File System(GFS)是面向集群,大数据的分布式文件系统,它的运行配置较为普通,但是其性能较为优异。
2.Google File System架构
一个GFS集群,包含一个Master节点,以及多台Chunk服务器,每个多台Chunk在Master节点上都对应这一个不重复的标识。正因为有多台Chunk服务器,因此“组件失效是常态事件”。
在Master中主要存储了三种数据,文件和Chunk的命名空间、文件和Chunk的对应关系、每个Chunk副本的存放地点,而以上这些数据被称为元数据。
每台Chunk服务器的大小为64MB,这个大小出于读写速度和存储容量的考虑,在将文件存入Chunk中,那么一旦出现组件失效怎么办呢?在存入文件的时候,将存入的文件的副本也保存了起来,这就使得我们存过的文件不容易丢失。
3.Master与Chunk工作机制
谈到工作机制,其实是的MapReduce,这里不再分开讨论, 简单来说就是客户端的文件从Master转入到Map的工作空间中,由Map定义的函数将文件分成若干个数据片段,从该片段中解析出key-value,再通过分区函数生成R个区域,返回给Master,Master将其发送给Reduce worker,Reduce worker先排序,再进行遍历,将所有key相同的数据整合到一起,再传给用户自己定义的Reduce函数,Reduce函数的输出被追加到所属分区的输出文件。当这些都完成之后,master唤醒用户程序。在这个时候,在用户程序里的对MapReduce调用才返回。特别地,当所有的Map工作做完之后,发送到Master之后,才会执行Reduce。其中涉及到更多的MapReduce工作原理,以及更多集群配置的知识,对于初学者来说,笔者在此就不一一赘述。
相关推荐
The Google File System中文版,google分布式文件系统中文翻译
The Google File SystemThe Google File SystemThe Google File System
The Google File System中文翻译
Google File System论文的中文翻译版,是学习分布式文件系统的很好的资料!
The Google File System Final
The Google file system,Hive、Spark等的理论奠基论文
The Google File System 中文翻译
The Google File System中文版.docx
北航云计算课程课件(连续更新) 云计算研究与实践 剖析google file system
谷歌三大论文,bigtable,File-system, mapreduce的中文版论文
这个文档是介绍谷歌早期的GFS文件系统的中文介绍,GFS是hadoop的HDFS的前身
google 文件系统的系统架构和设计。
Google File System、Lustre File System、Global File System三种分步式文件系统研究,其描述很详尽,细读必有收获
谷歌三大核心技术(一)Google File System中文版 谷歌三大核心技术(二)Google MapReduce中文版 谷歌三大核心技术(三)Google_BigTable中文版
The Google File System
The Windows file system is large and complex, featuring not only a huge number of essential files and folders for the Windows OS, your software and hardware, but also several different underlying file...
google分布式三大奠基文章之一
Global File System GFS_培训资料
经典论文:A Fast File System值得每个人浏览一下