图文详解 hdfs 的工作机制及其原理视频(图文详解 hdfs 的工作机制及其原理是什么)

本文主要介绍视频详细讲解hdfs的工作机制和原理(hdfs的工作机制和原理详细是什么)，下面一起看看视频详细讲解hdfs的工作机制和原理(hdfs的工作机制和原理详细是什么)相关资讯。
大家好，我 m大d。
今天，我我要和大家分享的是关于大数据引入的学习内容，技术栈——hadoop。
为了解决大数据中海量数据的存储和计算问题，hadoop提供了一套分布式系统基础设施，其核心内容包括hdfs (hadoop分布式文件系统)、mapreduce计算引擎和yarn(另一种资源协商器)统一资源管理和调度。
随着大数据技术的更新迭代，hadoop不再是单独的技术，而是大数据处理的生态系统，如下图所示。
除了上面提到的hadoop的三大核心组件，还有数据采集工具sqoop和flume，可以将海量数据提取到hadoop平台进行后续的大数据分析；zookeeper可以保证hadoop集群在部分节点宕机的情况下依然可靠运行(干货总结！获得动物园管理员在一篇文章中，你不面试不用背八股(文末发pdf基于hadoop计算平台的大数据技术框架，如数据仓库hive、流计算风暴、数据挖掘工具mahout、分布式数据库hbase等。
hdfshdfs (hadoop分布式文件系统)是google公司gfs论文思想的实现，也作为hadoop的存储系统，包括客户端、元数据节点、备份节点和数据存储节点。
cli:元数据是管理和维护hdfs的命名空间，以fsimage和editlog的形式存储在本地磁盘上，可以记录客户端在hdfs上的各种操作，如修改时间、访问时间、块信息等。监控和管理datanode:负责监控集群中datanode的健康状态。一旦发现某个datanode出现故障，就会将其从hdfs集群中删除，并且该datanode的数据会再次备份到其他datanode上(此过程称为数据重新平衡，即重新平衡)，以确保数据副本的完整性和集群的高可用性。secondarynamenode是namenode元数据的备份。namenode关闭后，辅助namenode将接管namenode 的工作，并负责整个集群的管理。而且为了可靠，secondarynamenode和namenode运行在不同的机器上，secondarynamenode的内存和namenode一样大。
同时，为了减轻namenode的压力，namenode不会自动合并hdfs的元数据图像文件(fsimage)和编辑日志(editlog)，而是将任务留给secondarynamenode，合并后将结果发送给namenode，然后将合并后的结果存储到本地磁盘。
存储在hdfs上的datanode文件由数据块组成，所有这些数据块都存储在datanode节点上。datanode负责具体的数据存储，定期向namenode上报数据的元信息，并在namenode的指导下完成数据的i/o操作。
其实在datanode上，一个数据块就是一个普通的文件，可以在datanode存储块对应的目录下看到(默认在$(dfs.data.dir)/current的子目录下)。块名为blk_id，大小可以通过dfs.blocksize设置，默认为128mb。
初始化时，集群中的每个datanode都会以block report的形式向namenode报告当前存储在该节点中的block信息。当集群正常工作时，datanode仍然会定期向namenode报告最新的block信息，同时进行连接。接受namenode的指令，例如在本地磁盘上创建、移动或删除数据块。
hdfs数据副本hdfs文件系统在设计之初就充分考虑了容错的问题，将同一个数据块对应的数据副本(副本数量可以设置，默认为3个)存储在几个不同的datanode上。一个datanode节点关闭后，hdfs将从备份节点读取数据。这种容错机制可以很好地实现即使节点失效，数据也不会丢失。
hdfs namenode工作机制namenode工作机制缩写为nn。
nn启动时，会将镜像文件(fsimage)和编辑日志(editlog)加载到内存中；客户端发送添加、删除、修改、查询等操作请求；nn将记录操作，滚动日志，然后在内存中处理操作。secondarynamenode的工作机理简称为2nn。
当编辑的日志数据达到一定量或每隔一定时间，就会触发2nn向nn发送检查点请求；如果发送的请求有响应，2nn会请求执行检查点请求；2nn会引导nn滚动更新编辑日志，并将编辑日志复制到2nn中；像编辑日志一样将镜像文件复制到2nn的本地检查点目录；2nn将图像文件导入内存，回放编辑日志并合并到新的fsimage.ckpt中；；压缩fsimage.ckpt并写入本地磁盘；2nn向nn发送fsimage.ckptnn会用新的fsimage.ckpt文件替换原来的fsimage，然后直接加载并启用该文件。在hdfs文件的读取过程中，客户端调用filesystem对象的open方法，实际获得一个distributedfilesystem实例；向namenode发送读取文件的请求，然后namenode返回文件数据块所在的datanode列表(按照客户端到datanode网络拓扑的距离排序)，还返回一个文件系统fsdatainputstream对象；客户端调用read方法时，会找出最近的datanode并连接；数据不断从datanode流向客户端。hdfs文件写入过程客户端通过调用distributedfilesystem的create方法创建一个新文件。文件；distributedfilesystem向namenode发送文件写请求，此时namenode会做各种检查，比如文件是否存在，客户端是否有权限创建等等。如果验证失败，将引发i/o异常。如果验证通过，namenode会将操作写入编辑日志并返回一个可写的datanode列表，同时还会返回文件系统fsdataoutputstream的对象；收到可写列表后，客户端会调用write方法将文件分成固定大小的数据包，并排列在数据队列中。数据队列中的数据包被写入第一个datanode，然后第一个datanode将数据包发送到第二个datanode，依此类推。datanode收到数据后会返回确认信息，收到datanode的所有确认信息后写操作完成。最后，更多图解大数据技术的干货文章，关注官方账号:数据节拍，回复:图文系列。另外，非常欢迎大家扫描下方二维码，加我vx: abox _ 0226，并备注加入团体。关于大数据技术的问题将在小组中一起讨论。
标签:
数据节点
了解更多视频详细讲解hdfs的工作机制和原理(hdfs的工作机制和原理详细是什么)相关内容请关注本站点。

图文详解 hdfs 的工作机制及其原理视频(图文详解 hdfs 的工作机制及其原理是什么)_1

推荐信息