Hadoop ResourceManger Restart

 

本文固定链接:https://www.askmac.cn/archives/hadoop-resourcemanger-restart.html

原文地址:http://hadoop.apache.org/docs/current/hadoop-yarn/hadoop-yarn-site/ResourceManagerRestart.html

 

 

 

1.概述

 

 

资源管理器是在YARN中管资源和调度应用程序的运行的中央管理者。所以这再YARN集群中是一个潜在的单点故障点。这个文档为资源管理器重启提供了一个概述,一个资源管理的增强功能,可以让其在重启中保持功能,使得最终用户感觉不到资源管理器的停止时间。

 

ResourceManager Restart 特性分为2个阶段:

1.阶段1(非工作保留 RM 重启):增强RM何以保留应用程序/试图 的状态和其他在可拔插存储的凭证信息。RM将从这些存储的地方重新加载信息,在重启和重新启动之前运行的应用程序时。用户不需要重新提交应用程序(www.askmac.cn)。

2.阶段2(保留工作重启):集中重新构建RM运行状态,通过联合NodeMangagers个容器状态和ApplicationMasters在重启时的容器请求。和阶段1的主要区别是,之前运行的应用程序在RM重启后不会被杀掉,所以应用程序不会由于RM重启而丢失其工作。

[Read more…]

Hadoop fair Scheduler(公平调度)

本文固定链接:https://www.askmac.cn/archives/hadoop-fair-scheduler.html

原文地址:http://hadoop.apache.org/docs/current/hadoop-yarn/hadoop-yarn-site/FairScheduler.html

 

 

1.目的

这个文档是描述 FairScheduler,一个Hadoop中可拔插的调度,允许YARN应用程序在大型的集群中公平的共享资源。

 

2.介绍

公平调度是给应用程序分配资源的方法,这样随着时间的推移,所有的应用程序都会得到一个相同的共享资源。Hadoop NextGen 能够调度多个资源类型。默认情况下,Fair Scheduler基于内存进行公平调度。其也可以被配置调度内存和CPU,使用Ghodsi等人开发的Dominant Resource Fairness概念。当只有一个应用程序运行时,那个应用程序使用整个集群。当其他应用程序被提交,空闲的资源被分配给新的应用程序,这样每个应用程序最终获得大致相同的资源量。不用于默认的Hadoop调度,默认的调度是一个应用程序的队列,这可以让短因此程序在合理的时间内完成,而不是饥饿的长期应用程序。其也是一个合理的方式来在一些用户之间共享集群。最后,公平共享也可以以应用程序优先级工作-优先级被作为权重来确定每个应用程序应该获得的资源分数。

[Read more…]

Hadoop Capacity Scheduler

本文固定链接:https://www.askmac.cn/archives/hadoop-capacity-scheduler.html

原文地址:http://hadoop.apache.org/docs/current/hadoop-yarn/hadoop-yarn-site/CapacityScheduler.html

 

1.目的

 

这个文档描述CapacityScheduler,在hadoop中一个可拔插的调度,允许多个租户安全的共享一个大的集群,这样他们的应用程序可以在分配能力的约束下,及时分配资源。

 

 

2.概述

 

CapacityScheduler 被设计用来共享的运行Hadoop 应用程序,以友好操作方式进行多租户集群,同时最大化吞吐量和集群的利用率。(www.askmac.cn)

传统的,每个组织有其私有的计算资源集,有足够的能力满足在峰值或者接近峰值条件下的SLA。这通常会导致较差的平均利用率和管理多个独立的集群,每一个组织管理开销。在组织之间共享集群时一个有效的运行大hadoop的方式。因为这个可以让它们获得更好的规模效益而不用创建私人的集群。但是,这些组织关系共享集群的使用,因为它们担心它们的SLAs的重要资源。

CapacityScheduler 被设计用来允许共享一个大的集群,同时给予各组织能力保证。其中的中心思想是,Hadoop集群中的可用资源被多个组织共享,基于它们的需求计算。这里有一个额外的好处是,一个组织可以访问任何多余的不被其他人使用的容量。这为组织提供了具有成本效益的弹性方式。 [Read more…]

Apache Hadoop YARN

本文固定链接:https://www.askmac.cn/archives/hadoop-yarn.html

原文地址:http://hadoop.apache.org/docs/current/hadoop-yarn/hadoop-yarn-site/YARN.html

 

Apache Hadoop YARN

 

 

YARN的基本思想是将基础的资源管理器和job 调度/监控分割为独立的进程。这个思想是有一个全局的资源管理(RM)和每一个进程的ApplicationMaster(AM)。一个应用进程既是一个单独的job也是一个job的DAG。
ResourceManager和NodeManager是从数据计算框架中而来。ResourceManager是最终的权威,用来仲裁在系统中应用程序的资源。NodeManager是每个机器的框架,代理负责容器,监控它们的资源使用(CPU、内存、磁盘、网络)并且报告给相同的ResourceManager/Scheduler。

[Read more…]

Hadoop HDFS中的传输加密

本文固定链接:https://www.askmac.cn/archives/hdfs-transparent-encryption.html

原文地址:http://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-hdfs/TransparentEncryption.html

 

1 简介

 

HDFS 实现透明的,端到端的加密。一旦配置,从指定的HDFS读取和写入数据都会透明的进行加密和解密,不需要用户应用程序代码的变更。这个加密是端到端的,也就意味着数据只能被客户端加密和解密。HDFS从来不会存储或访问未加密的数据或者为加密的加密key。这满足了2个典型的加密要求:静态加密(意思是数据在永久存储上,例如磁盘)以及在传输加密(例如当数据在网络中传输时)。

 

[Read more…]

Hadoop HDFS中的拓展属性

本文固定链接:https://www.askmac.cn/archives/hdfs-extended-attributes.html

原文地址:http://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-hdfs/ExtendedAttributes.html

 

 

1 简介

拓展属性(缩写为 xattrs)是一个文件系统特性,允许用户应用程序管理额外的元数据到文件和目录。不同于系统级别的inode元数据例如文件权限或修改时间,拓展属性不会被系统解析,并被应用程序用来存储关于inode的额外信息。例如,可以对实例使用拓展属性,来指定一个纯文文档的字符编码(www.askmac.cn)。

[Read more…]

hadoop hdfs 滚动升级

本文固定链接:https://www.askmac.cn/archives/hadoop-hdfs-rolling-upgrade.html

原文地址:http://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-hdfs/HdfsRollingUpgrade.html#namenode_-rollingUpgrade

 

1介绍

HDFS 滚动升级允许对单独的HDFS进程升级。例如,datanodes可以被单独的升级而不依赖Namenodes。一个namenode可以被升级而不依赖其他的namenodes。Namenodes可以被升级而不依赖datanodes和journal 节点

2升级

在 hadoop v2,HDFS支持高可用的namenode服务和写兼用。这些功能可以让HDFS再升级的时候不需要停机、为了使HDFS集群无停机时间,集群必须设置为HA

如果在任何新版本中启用了任何新特性,升级后可能无法在旧版本上使用。在这种情况下(www.askmac.cn),升级应遵循下列步骤:

1.禁用新功能

2.升级集群

3.启用新功能

注意:滚动升级只能从hadoop-2.4.0之后

[Read more…]

Hadoop hdfs nfs 网关

本文固定链接:https://www.askmac.cn/archives/hdfs-nfs-gateway.html

原文地址:http://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-hdfs/HdfsNfsGateway.html

 

1概述

 

NFS 网关支持NFSv3和允许HDFS 作为客户端文件系统的一部分被挂载。当前NFS 网关支持和以下列默认启用:

1.用户可以通过操作系统兼容的本地NFSv3客户端来阅览HDFS文件系统

2.用户可以从HDFS文件系统下载文档到本地文件系统

3.用户可以通过挂载点直接流化数据。支持文件附加,但是不支持随机写(www.askmac.cn)

 

NFS网关机器需要相同的HDFS客户端 例如Hadoop JAR 文件,HADOOP_CONF目录。NFS网关可以和任何主机在一起,例如:DataNode,NameNode.

[Read more…]

Hadoop hdfs 集中内存管理

本文固定链接:https://www.askmac.cn/archives/hdfs-cache-management.html

原文地址:http://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-hdfs/CentralizedCacheManagement.html

 

1介绍

 

在HDFS中的集中内存管理是一种显式的内存机制,允许用户指定HDFS的内存路径。

NameNode将于DataNode通信来获得磁盘上所需的块,并引导它们在堆缓存中缓存这些块。

集中缓存管理有许多明显的优点(www.askmac.cn)

1.显式的防止那些常用的块从内存中清除。这个对于当工作集的大小超过内存的时候非常重要,HDFS的工作量超过内存的情况很常见。

2.因为DataNode的内存被NameNode管理,应用程序在确定任务目标位置时可以查询到内存块位置。通过缓存块联合定位任务可以提高读性能。

3.当块已经被DataNode缓存时,客户端可以使用一个新的,更有效的零拷贝读API。一旦DataNode上的缓存数据校验完成,客户端在使用这个新API的时候基本上是零开销。

[Read more…]

Hadoop HDFS Short-Circuit Local Reads

本文固定链接:https://www.askmac.cn/archives/hdfs-short-circuit-local-reads.html

原文地址:http://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-hdfs/ShortCircuitLocalReads.html

 

1.本地读

1.1背景

在HDFS,读一般是通过DataNode。因此,当客户端请求DataNode来读取一个文件时,DataNode从磁盘读取文件,然后通过TCP socket发送给客户端。所谓的本地读(短路读),是通过DataNode ,允许客户端直接去读取文件。短路读为很多应用提供了优秀的性能。

 

[Read more…]

沪ICP备14014813号-2

沪公网安备 31010802001379号