您好,欢迎访问一九零五行业门户网

图文详解 hdfs 的工作机制及其原理视频(图文详解 hdfs 的工作机制及其原理是什么)_1

本文主要介绍视频详细讲解hdfs的工作机制和原理(hdfs的工作机制和原理详细是什么),下面一起看看视频详细讲解hdfs的工作机制和原理(hdfs的工作机制和原理详细是什么)相关资讯。
大家好,我 m大d。
今天,我 我要和大家分享的是关于大数据引入的学习内容,技术栈——hadoop。
为了解决大数据中海量数据的存储和计算问题,hadoop提供了一套分布式系统基础设施,其核心内容包括hdfs (hadoop分布式文件系统)、mapreduce计算引擎和yarn(另一种资源协商器)统一资源管理和调度。
随着大数据技术的更新迭代,hadoop不再是单独的技术,而是大数据处理的生态系统,如下图所示。
除了上面提到的hadoop的三大核心组件,还有数据采集工具sqoop和flume,可以将海量数据提取到hadoop平台进行后续的大数据分析;zookeeper可以保证hadoop集群在部分节点宕机的情况下依然可靠运行(干货总结!获得动物园管理员在一篇文章中,你不 面试不用背八股(文末发pdf基于hadoop计算平台的大数据技术框架,如数据仓库hive、流计算风暴、数据挖掘工具mahout、分布式数据库hbase等。
hdfshdfs (hadoop分布式文件系统)是google公司gfs论文思想的实现,也作为hadoop的存储系统,包括客户端、元数据节点、备份节点和数据存储节点。
cli:元数据是管理和维护hdfs的命名空间,以fsimage和editlog的形式存储在本地磁盘上,可以记录客户端在hdfs上的各种操作,如修改时间、访问时间、块信息等。监控和管理datanode:负责监控集群中datanode的健康状态。一旦发现某个datanode出现故障,就会将其从hdfs集群中删除,并且该datanode的数据会再次备份到其他datanode上(此过程称为数据重新平衡,即重新平衡),以确保数据副本的完整性和集群的高可用性。secondarynamenode是namenode元数据的备份。namenode关闭后,辅助namenode将接管namenode 的工作,并负责整个集群的管理。而且为了可靠,secondarynamenode和namenode运行在不同的机器上,secondarynamenode的内存和namenode一样大。
同时,为了减轻namenode的压力,namenode不会自动合并hdfs的元数据图像文件(fsimage)和编辑日志(editlog),而是将任务留给secondarynamenode,合并后将结果发送给namenode,然后将合并后的结果存储到本地磁盘。
存储在hdfs上的datanode文件由数据块组成,所有这些数据块都存储在datanode节点上。datanode负责具体的数据存储,定期向namenode上报数据的元信息,并在namenode的指导下完成数据的i/o操作。
其实在datanode上,一个数据块就是一个普通的文件,可以在datanode存储块对应的目录下看到(默认在$(dfs.data.dir)/current的子目录下)。块名为blk_id,大小可以通过dfs.blocksize设置,默认为128mb。
初始化时,集群中的每个datanode都会以block report的形式向namenode报告当前存储在该节点中的block信息。当集群正常工作时,datanode仍然会定期向namenode报告最新的block信息,同时进行连接。接受namenode的指令,例如在本地磁盘上创建、移动或删除数据块。
hdfs数据副本hdfs文件系统在设计之初就充分考虑了容错的问题,将同一个数据块对应的数据副本(副本数量可以设置,默认为3个)存储在几个不同的datanode上。一个datanode节点关闭后,hdfs将从备份节点读取数据。这种容错机制可以很好地实现即使节点失效,数据也不会丢失。
hdfs namenode工作机制namenode工作机制缩写为nn。
nn启动时,会将镜像文件(fsimage)和编辑日志(editlog)加载到内存中;客户端发送添加、删除、修改、查询等操作请求;nn将记录操作,滚动日志,然后在内存中处理操作。secondarynamenode的工作机理简称为2nn。
当编辑的日志数据达到一定量或每隔一定时间,就会触发2nn向nn发送检查点请求;如果发送的请求有响应,2nn会请求执行检查点请求;2nn会引导nn滚动更新编辑日志,并将编辑日志复制到2nn中;像编辑日志一样将镜像文件复制到2nn的本地检查点目录;2nn将图像文件导入内存,回放编辑日志并合并到新的fsimage.ckpt中;;压缩fsimage.ckpt并写入本地磁盘;2nn向nn发送fsimage.ckptnn会用新的fsimage.ckpt文件替换原来的fsimage,然后直接加载并启用该文件。在hdfs文件的读取过程中,客户端调用filesystem对象的open方法,实际获得一个distributedfilesystem实例;向namenode发送读取文件的请求,然后namenode返回文件数据块所在的datanode列表(按照客户端到datanode网络拓扑的距离排序),还返回一个文件系统fsdatainputstream对象;客户端调用read方法时,会找出最近的datanode并连接;数据不断从datanode流向客户端。hdfs文件写入过程客户端通过调用distributedfilesystem的create方法创建一个新文件。文件;distributedfilesystem向namenode发送文件写请求,此时namenode会做各种检查,比如文件是否存在,客户端是否有权限创建等等。如果验证失败,将引发i/o异常。如果验证通过,namenode会将操作写入编辑日志并返回一个可写的datanode列表,同时还会返回文件系统fsdataoutputstream的对象;收到可写列表后,客户端会调用write方法将文件分成固定大小的数据包,并排列在数据队列中。数据队列中的数据包被写入第一个datanode,然后第一个datanode将数据包发送到第二个datanode,依此类推。datanode收到数据后会返回确认信息,收到datanode的所有确认信息后写操作完成。最后,更多图解大数据技术的干货文章,关注官方账号:数据节拍,回复:图文系列。另外,非常欢迎大家扫描下方二维码,加我vx: abox _ 0226,并备注 加入团体 。关于大数据技术的问题将在小组中一起讨论。
标签:
数据节点
了解更多视频详细讲解hdfs的工作机制和原理(hdfs的工作机制和原理详细是什么)相关内容请关注本站点。
其它类似信息

推荐信息