分布式文件系统的HDFS是什么-电子发烧友网

一、HDFS介绍

上篇文章已经讲到了，随着数据量越来越大，在一台机器上已经无法存储所有的数据了，那我们会将这些数据分配到不同的机器来进行存储，但是这就带来一个问题：不方便管理和维护

所以，我们就希望有一个系统可以将这些分布在不同操作服务器上的数据进行统一管理，这就有了分布式文件系统

HDFS是分布式文件系统的其中一种（目前用得最广泛的一种）

在使用HDFS的时候是非常简单的：虽然HDFS是将文件存储到不同的机器上，但是我去使用的时候是把这些文件当做是存储在一台机器的方式去使用（背后却是多台机器在执行）：

好比：我调用了一个RPC接口，我给他参数，他返回一个response给我。RPC接口做了什么事其实我都不知道的（可能这个RPC接口又调了其他的RPC接口）-----屏蔽掉实现细节，对用户友好

分布式文件系统的HDFS是什么

明确一下：HDFS就是一个分布式文件系统，一个文件系统，我们用它来做什么？存数据呀。

下面，我们来了解一下HDFS的一些知识，能够帮我们更好地去「使用」HDFS

二、HDFS学习

从上面我们已经提到了，HDFS作为一个分布式文件系统，那么它的数据是保存在多个系统上的。例如，下面的图：一个1GB的文件，会被切分成几个小的文件，每个服务器都会存放一部分。

分布式文件系统的HDFS是什么

那肯定会有人会问：那会切分多少个小文件呢？默认以128MB的大小来切分，每个128MB的文件，在HDFS叫做块(block)

显然，这个128MB大小是可配的。如果设置为太小或者太大都不好。如果切分的文件太小，那一份数据可能分布到多台的机器上（寻址时间就很慢）。如果切分的文件太大，那数据传输时间的时间就很慢。

PS：老版本默认是64MB

一个用户发出了一个1GB的文件请求给HDFS客户端，HDFS客户端会根据配置(现在默认是128MB)，对这个文件进行切分，所以HDFS客户端会切分为8个文件(也叫做block)，然后每个服务器都会存储这些切分后的文件(block)。现在我们假设每个服务器都存储两份。

分布式文件系统的HDFS是什么

这些存放真实数据的服务器，在HDFS领域叫做DataNode

分布式文件系统的HDFS是什么

现在问题来了，HDFS客户端按照配置切分完以后，怎么知道往哪个服务器（DataNode）放数据呢？这个时候，就需要另一个角色了，管理者（NameNode）。

NameNode实际上就是管理文件的各种信息（这种信息专业点我们叫做MetaData「元数据」），其中包括：文文件路径名，每个Block的ID和存放的位置等等。

所以，无论是读还是写，HDFS客户端都会先去找NameNode，通过NameNode得知相应的信息，再去找DataNode

如果是写操作，HDFS切分完文件以后，会询问NameNode应该将这些切分好的block往哪几台DataNode上写。

如果是读操作，HDFS拿到文件名，也会去询问NameNode应该往哪几台DataNode上读数据。

分布式文件系统的HDFS是什么

2.1 HDFS备份

作为一个分布式系统（把大文件切分为多个小文件，存储到不同的机器上），如果没有备份的话，只要有其中的一台机器挂了，那就会导致「数据」是不可用状态的。

写到这里，如果看过我的Kafka和ElasticSearch的文章可能就懂了。其实思想都是一样的。

Kafka对partition备份，ElasticSearch对分片进行备份，而到HDFS就是对Block进行备份。

尽可能将数据备份到不同的机器上，即便某台机器挂了，那就可以将备份数据拉出来用。

对Kafka和ElasticSearch不了解的同学，可以关注我的GitHub，搜索关键字即可查询（我觉得还算写得比较通俗易懂的）

注：这里的备份并不需要HDFS客户端去写，只要DataNode之间互相传递数据就好了。

分布式文件系统的HDFS是什么

2.2 NameNode的一些事

从上面我们可以看到，NameNode是需要处理hdfs客户端请求的。（因为它是存储元数据的地方，无论读写都需要经过它）。

现在问题就来了，NameNode是怎么存放元数据的呢？

如果NameNode只是把元数据放到内存中，那如果NameNode这台机器重启了，那元数据就没了。

如果NameNode将每次写入的数据都存储到硬盘中，那如果只针对磁盘查找和修改又会很慢（因为这个是纯IO的操作）

说到这里，又想起了Kafka。Kafka也是将partition写到磁盘里边的，但人家是怎么写的？顺序IO

NameNode同样也是做了这个事：修改内存中的元数据，然后把修改的信息append（追加）到一个名为editlog的文件上。

由于append是顺序IO，所以效率也不会低。现在我们增删改查都是走内存，只不过增删改的时候往磁盘文件editlog里边追加一条。这样我们即便重启了NameNode，还是可以通过editlog文件将元数据恢复。

分布式文件系统的HDFS是什么

现在也有个问题：如果NameNode一直长期运行的话，那editlog文件应该会越来越大（因为所有的修改元数据信息都需要在这追加一条）。重启的时候需要依赖editlog文件来恢复数据，如果文件特别大，那启动的时候不就特别慢了吗？

的确是如此的，那HDFS是怎么做的呢？为了防止editlog过大，导致在重启的时候需要较长的时间恢复数据，所以NameNode会有一个内存快照，叫做fsimage

说到快照，有没有想起Redis的RDB!!

这样一来，重启的时候只需要加载内存快照fsimage+部分的editlog就可以了。

想法很美好，现实还需要解决一些事：我什么时候生成一个内存快照fsimage？我怎么知道加载哪一部分的editlog？

问题看起来好像复杂，其实我们就只需要一个定时任务。

如果让我自己做的话，我可能会想：我们加一份配置，设置个时间就OK了

如果editlog大到什么程度或者隔了多长时间，我们就把editlog文件的数据跟内存快照fsiamge给合并起来。然后生成一个新的fsimage，把editlog给清空，覆盖旧的fsimage内存快照这样一来，NameNode每次重启的时候，拿到的都是最新的fsimage文件，editlog里边的都是没合并到fsimage的。根据这两个文件就可以恢复最新的元数据信息了。

HDFS也是类似上面这样干的，只不过它不是在NameNode起个定时的任务跑，而是用了一个新的角色：SecondNameNode。至于为什么？可能HDFS觉得合并所耗费的资源太大了，不同的工作交由不同的服务器来完成，也符合分布式的理念。

分布式文件系统的HDFS是什么

现在问题还是来了，此时的架构NameNode是单机的。SecondNameNode的作用只是给NameNode合并editlog和fsimage文件，如果NameNode挂了，那client就请求不到了，而所有的请求都需要走NameNode，这导致整个HDFS集群都不可用了。

于是我们需要保证NameNode是高可用的。一般现在我们会通过Zookeeper来实现。架构图如下：

分布式文件系统的HDFS是什么

主NameNode和从NameNode需要保持元数据的信息一致（因为如果主NameNode挂了，那从NameNode需要顶上，这时从NameNode需要有主NameNode的信息）。

所以，引入了Shared Edits来实现主从NameNode之间的同步，Shared Edits也叫做JournalNode。实际上就是主NameNode如果有更新元数据的信息，它的editlog会写到JournalNode，然后从NameNode会在JournalNode读取到变化信息，然后同步。从NameNode也实现了上面所说的SecondNameNode功能（合并editlog和fsimage）

分布式文件系统的HDFS是什么

稍微总结一下：

NameNode需要处理client请求，它是存储元数据的地方

NameNode的元数据操作都在内存中，会把增删改以editlog持续化到硬盘中（因为是顺序io，所以不会太慢）

由于editlog可能存在过大的问题，导致重新启动NameNode过慢（因为要依赖editlog来恢复数据），引出了fsimage内存快照。需要跑一个定时任务来合并fsimage和editlog，引出了SecondNameNode

又因为NameNode是单机的，可能存在单机故障的问题。所以我们可以通过Zookeeper来维护主从NameNode，通过JournalNode(Share Edits)来实现主从NameNode元数据的一致性。最终实现NameNode的高可用。

2.3 学点DataNode

从上面我们就知道，我们的数据是存放在DataNode上的（还会备份）。

如果某个DataNode掉线了，那HDFS是怎么知道的呢？

DataNode启动的时候会去NameNode上注册，他俩会维持心跳，如果超过时间阈值没有收到DataNode的心跳，那HDFS就认为这个DataNode挂了。

还有一个问题就是：我们将Block存到DataNode上，那还是有可能这个DataNode的磁盘损坏了部分，而我们DataNode没有下线，但我们也不知道损坏了。

一个Block除了存放数据的本身，还会存放一份元数据（包括数据块的长度，块数据的校验和，以及时间戳）。DataNode还是会定期向NameNode上报所有当前所有Block的信息，通过元数据就可校验当前的Block是不是正常状态。

最后

其实在学习HDFS的时候，你会发现很多的思想跟之前学过的都类似。就比如提到的Kafka、Elasticsearch这些常用的分布式组件。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

接口

接口

+关注

关注
33

文章
8588

浏览量
151106
服务器

服务器

+关注

关注
12

文章
9143

浏览量
85387
HDFS

HDFS

+关注

关注
1

文章
30

浏览量
9591

服务器数据恢复—Lustre分布式文件系统数据恢复案例

5台节点服务器，每台节点服务器上有一组RAID5阵列。每组RAID5阵列上有6块硬盘（其中1块硬盘设置为热备盘，其他5块硬盘为数据盘）。上层系统环境为Lustre分布式文件系统。机房天花板漏水

发表于 12-25 11:39 •78次阅读

服务器数据恢复—Lustre<b class='flag-5'>分布式</b><b class='flag-5'>文件系统</b>数据恢复案例

HarmonyOS Next 应用元服务开发-分布式数据对象迁移数据文件资产迁移

使用分布式数据对象迁移数据，当需要迁移的数据较大（100KB以上）或需要迁移文件时，可以使用分布式数据对象。原理与接口说明详见分布式数据对象跨设备数据同步。说明：自API 12起，由

发表于 12-24 10:11

HarmonyOS Next 应用元服务开发-分布式数据对象迁移数据权限与基础数据

发表于 12-24 09:40

Linux根文件系统的挂载过程

Linux根文件系统（rootfs）是Linux系统中所有其他文件系统和目录的起点，它是内核启动时挂载的第一个文件系统。

发表于 10-05 16:50 •412次阅读

如何修改buildroot和debian文件系统

本文档主要介绍在没有编译环境的情况下，如何修改buildroot和debian文件系统方法，如在buildroot文件系统中添加文件、修改目录等文件操作，在debian

发表于 07-22 17:46 •463次阅读

如何修改buildroot和debian<b class='flag-5'>文件系统</b>

分布式SCADA系统的特点的组成

在工业自动化和能源管理领域，SCADA（Supervisory Control And Data Acquisition）系统扮演着至关重要的角色。其中，分布式SCADA系统凭借其独特的结构和功能

发表于 06-07 14:43 •541次阅读

华为分布式存储连续三年荣膺2024年Gartner“客户之选”

近日，全球权威咨询与分析机构Gartner发布《2024年Gartner Peer InsightsTM 分布式文件系统与对象存储“客户之声”》报告，华为凭借其OceanStor分布式存储解决方案再次荣获“客户之选”殊荣，这已是

发表于 05-24 10:12 •716次阅读

浪潮信息发布AS13000G7-N系列分布式全闪存储

浪潮信息近日推出了专为大型AI模型优化的AS13000G7-N系列分布式全闪存储。该系列基于浪潮信息自研的分布式文件系统，结合新一代数据加速引擎DataTurbo，为用户提供卓越的存储解决方案。

发表于 05-14 10:03 •565次阅读

浪潮信息发布为大模型专门优化的分布式全闪存储AS13000G7-N系列

近日，浪潮信息发布为大模型专门优化的分布式全闪存储AS13000G7-N系列。该系列依托浪潮信息自研分布式文件系统，搭载新一代数据加速引擎DataTurbo，

发表于 05-08 09:38 •560次阅读

浪潮信息发布为大模型专门优化的<b class='flag-5'>分布式</b>全闪存储AS13000G7-N系列

分布式光伏监控系统解决方案

分布式光伏发电系统的发电量，提高分布式光伏发电系统的利用率。发展分布式光伏发电对优化能源结构、实现“双碳目标”、推动节能减排、实现经济可持续

发表于 04-22 15:56 •978次阅读

<b class='flag-5'>分布式</b>光伏监控<b class='flag-5'>系统</b>解决方案

HarmonyOS实战案例：【分布式账本】

Demo基于Open Harmony系统使用ETS语言进行编写，本Demo主要通过设备认证、分布式拉起、分布式数据管理等功能来实现。

发表于 04-12 16:40 •1326次阅读

HarmonyOS实战案例：【<b class='flag-5'>分布式</b>账本】

分布式大屏控制系统对网络环境的要求

分布式大屏控制系统对网络环境的要求较高，主要是因为该系统需要实时传输大量的视频信号数据，以保证多个显示屏幕的同步显示。以下是几个关键的网络环境要求：高带宽：分布式大屏控制

发表于 01-29 14:52 •577次阅读

分布式大屏控制系统的工作原理

分布式大屏控制系统是一种基于分布式计算、云计算和大数据技术的控制系统，具有高效、稳定、灵活的特点。该系统通过将各个子

发表于 01-29 14:24 •755次阅读

什么是分布式架构?

分布式架构是指将一个系统或应用拆分成多个独立的节点，这些节点通过网络连接进行通信和协作，以实现共同完成任务的一种架构模式。这种架构模式旨在提高系统的可扩展性、可靠性和性能表现。一、分布式

发表于 01-12 15:04 •1235次阅读

【Vsan数据恢复】Vsan分布式存储虚拟磁盘文件丢失的数据恢复案例

一套vsan分布式存储架构有数台服务器节点，该vsan分布式存储架构配置了固态硬盘和机械硬盘，固态硬盘作为缓存盘使用，机械硬盘作为容量盘使用。机房供电异常导致服务器异常关机，工作人员重启服务器后发现vsan分布式存储逻辑架构

发表于 01-03 16:39 •619次阅读

搜索历史

分布式文件系统的HDFS是什么

评论

服务器数据恢复—Lustre分布式文件系统数据恢复案例

HarmonyOS Next 应用元服务开发-分布式数据对象迁移数据文件资产迁移

HarmonyOS Next 应用元服务开发-分布式数据对象迁移数据权限与基础数据

Linux根文件系统的挂载过程

如何修改buildroot和debian文件系统

分布式SCADA系统的特点的组成

华为分布式存储连续三年荣膺2024年Gartner“客户之选”

浪潮信息发布AS13000G7-N系列分布式全闪存储

浪潮信息发布为大模型专门优化的分布式全闪存储AS13000G7-N系列

分布式光伏监控系统解决方案

HarmonyOS实战案例：【分布式账本】

分布式大屏控制系统对网络环境的要求

分布式大屏控制系统的工作原理

什么是分布式架构?

【Vsan数据恢复】Vsan分布式存储虚拟磁盘文件丢失的数据恢复案例