Hadoop简介

我们之前已经解释过了分布式存储,分布式存储有很多的解决方案,其中有个开源程序叫做HDFS,HDFS+MAPREDUCE=hadoop。

hadoop不算是单存的分布式存储,我们之前提到的Mogilefs和Fastdfs都是分布式存储。hadoop属于分布式计算,MAPREDUCE是一个编程的框架,使得程序可以并行计算。

HDFS适用于存储单个大文件,在存储中内置块大小为64M,会将大文件分片存储,同时也支持存储海量的文件。

MAPREDUCE就是基于上面存储的文件进行处理,分析。


上面提到了hadoop是由mapreduce+hdfs组成,因此他也是两个集群,hdfs分成了一个主节点和N个从节点,从节点主要用于存储数据,主节点存储从节点的元数据信息,有点类似于之前介绍的fastdfs由从节点向主节点汇报自己的状态,存储的文件等等。mapreduce(hadoop2.0以后)也分为了两块,一块称为RM(resource manager)一般运行与单个主机上,一块称为NM(node manager)运行在每个存储节点之上,RM负责接收用户的任务,并将任务发往NM之上,在NM之上又会生成一个AM(application manager),再由AM管理具体任务的执行。


接下来就来简单配置一个伪分布式的hadoop(因为上述所有进程都运行在一个主机上,因此命名为伪分布式)

下载官网的tar包。

hadoop运行与java虚拟机之上,所以先得去配置java环境

[root@localhost ~]# yum -y install java-1.8.0-openjdk-devel    java-1.8.0-openjdk   

[root@localhost ~]# vi /etc/profile.d/java.sh 
[root@localhost ~]# cat /etc/profile.d/java.sh
export JAVA_HOME=/usr                        #此处指明java目录即可,hadoop在运行时会自动找java目录下bin/java
export HADOOP_PREFIX=/usr/local/hadoop-2.7.1 

export PATH=$PATH:${HADOOP_PREFIX}/bin:${HADOOP_PREFIX}/sbin
export HADOOP_YARN_HOME=${HADOOP_PREFIX}
export HADOOP_MAPPERD_HOME=${HADOOP_PREFIX}
export HADOOP_COMMON_HOME=${HADOOP_PREFIX}
export HADOOP_HDFS_HOME=${HADOOP_PREFIX}

配置java以及hadoop配置环境

编辑hadoop目录中etc/hadoop/core-site.xml文件,添加一下内容。

    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://localhost:8020</value>
       <final>true</final>
    </property>

hadoop的配置文件格式name相当于一个指令,value就是指令值。

同目录下yarn.site.xml添加此段

    <property>
        <name>yarn.resourcemanager.address</name>
        <value>localhost:8032</value>
    </property>
    <property>
        <name>yarn.resourcemanager.scheduler.address</name>
        <value>localhost:8030</value>
    </property>
    <property>
        <name>yarn.resourcemanager.resource-tracker.address</name>
        <value>localhost:8031</value>
    </property>
    <property>
        <name>yarn.resourcemanager.admin.address</name>
       <value>localhost:8033</value>
    </property>
    <property>
        <name>yarn.resourcemanager.webapp.address</name>
        <value>192.168.20.105:8088</value>
    </property>
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>
    <property>
        <name>yarn.nodemanager.auxservices.mapreduce_shuffle.class</name>
        <value>org.apache.hadoop.mapred.ShuffleHandler</value>
    </property>
    <property>
        <name>yarn.resourcemanager.scheduler.class</name>
        <value>org.apache.hadoop.yarn.server.resourcemanager.scheduler.capacity.CapacityScheduler</value>
    </property>

同目录下hdfs.site.xml添加此段

    <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>
    <property>
        <name>dfs.namenode.name.dir</name>
        <value>file:///data/hdfs/nn</value>
    </property>
    <property>
        <name>dfs.datanode.data.dir</name>
        <value>file:///data/hdfs/dn</value>
    </property>
    <property>
        <name>fs.checkpoint.dir</name>
        <value>file:///data/hdfs/snn</value>
    </property>
    <property>
        <name>fs.checkpoint.edits.dir</name>
        <value>file:///data/hdfs/snn</value>
    </property>

[root@localhost hadoop-2.7.1]# cp etc/hadoop/mapred-site.xml.template etc/hadoop/mapred-site.xml
[root@localhost hadoop-2.7.1]# vi etc/hadoop/mapred-site.xml

复制此模板文件,并编辑此文件,添加如下内容

   <property>
       <name>mapreduce.framework.name</name>
       <value>yarn</value>
   </property>

所有配置文件就准备好了,每个配置文件中都有很多参数,具体参数详情查看以下官方文档。(网上也有很多别人翻译好的)

http://hadoop.apache.org/docs/r2.7.3/hadoop-project-dist/hadoop-common/core-default.xml

http://hadoop.apache.org/docs/r2.7.3/hadoop-project-dist/hadoop-hdfs/hdfs-default.xml

http://hadoop.apache.org/docs/r2.7.3/hadoop-mapreduce-client/hadoop-mapreduce-client-core/mapred-default.xml

http://hadoop.apache.org/docs/r2.7.3/hadoop-yarn/hadoop-yarn-common/yarn-default.xml

创建配置文件中指定的目录

[root@localhost sbin]# mkdir /data/hdfs/{nn,sn,dn} -pv

[root@localhost hadoop-2.7.1]# mkdir logs                    #创建日志目录,日志会保存到这里

[root@localhost hadoop-2.7.1]# hdfs namenode -format            #格式化NN

Hadoop简介

看到箭头那行证明格式化成功,接着启动所有服务

[root@localhost hadoop-2.7.1]# hadoop-daemons.sh  start datanode

[root@localhost hadoop-2.7.1]# hadoop-daemons.sh  start secondarynode

[root@localhost hadoop-2.7.1]# hadoop-daemons.sh  start name

[root@localhost hadoop-2.7.1]# yarn-daemon.sh start resourcemanager
[root@localhost hadoop-2.7.1]# yarn-daemon.sh start nodemanager

启动服务时回要求输入密码,因为默认是通过ssh协议链接到个节点的主机上启动,另外启动secondary时会报错提示找不到secondary节点,这里我们不用管它

[root@localhost hadoop-2.7.1]# vi etc/hadoop/hadoop-env.sh              #启动服务时提示找不到JAVAHOME ,我核实了多遍,发现没有问题,结果发现这个文件里面定义了一个JAVA_HOME,把他改一下即可

接着可以看到起来了一大堆端口,其中关注最多的应该是

50070:监控存储节点的web接口

8088:监控运行任务的web接口

其他80的基本是程序员写程序调用的接口

其他50的基本是hdfs通讯所用到的接口

Hadoop简介

存储的状态界面

Hadoop简介

运行任务的状态界面

实际应用中出于安全考虑应该以普通用户的身份启动各服务。

有一点没需求,就当是学习完整理下思路。

原创文章,作者:N24_Ghost,如若转载,请注明出处:http://www.178linux.com/71067

(1)
N24_GhostN24_Ghost
上一篇 2017-03-13 21:01
下一篇 2017-03-13 22:27

相关推荐

  • Python from entry to abandon 3

        第十章的内容是解决问题————编写一个Python脚本。在我的电脑上因为Zip命令不能正常工作所以无法给出演示。该章给出了很有意义的编程思路,对以后学习和工作都有不错的参考意义,这部分有兴趣的同学还是自己去看原版教程吧。    这篇博客结合个人笔记整理了《简明Python教程》第十一章到第十…

    Linux干货 2017-04-07
  • linux系统上的特殊权限SUID,SGID,STICKY

    特殊权限:SUID SGID STICKY     linux的安全上下文:     1.进程以用户的身份运行,进程是发起此用户的代理,因此以此用户的身份和权限完成所有的操作。     2.权限匹配模型:     1)判断进程的属主,是否以被访问的文件属主。如果是,则应用属主权限…

    Linux干货 2016-08-05
  • haproxy 动静分离负载均衡、​stats页面实现​。

    实验环境:一台主机提供haproxy、nfs、mariadb,后端2台apache部署wordpress。 实验目的:haproxy使得动静分离、以及开启stats页面。 haproxy简单介绍 负载均衡的解决方案,支持4、7层,特点是单进程模型(可配置为多进程模型)单进程能支持非常大的并发链接数量(相比较其他软件)。 到今天,马哥课程中的负载均衡方案(lv…

    Linux干货 2017-02-18
  • 用户和组的相关配置文件

      用户,是计算机识别使用者身份的一种唯一使用标识。 而现实生活中为了方便人类记忆使用等,用户名往往是用便于人类识别的语言来记录的。但事实上计算机并不对人类语言敏感,所以有必要把人类语言跟机器语言对应上。于是,linux给每一个创建用户提供了一个UID。当使用用户名登录时,系统换自动对应UID来识别该用户身份。 而用户名与UID的对应信息就储存在一…

    Linux干货 2016-10-23
  • Linux文件查找命令

      Linux系统文件查找     使用linux系统难免会忘记文件所在的位置,可以使用以下命令对系统中的文件进行搜索。 locate命令:     locate命令其实是“find -name”的另一种写法,但是要比后者快得多,原因在于它不搜索具体目录,而是搜索一个数据库(/var/lib/locatedb),这个数据库中含有本地所有文件信息。L…

    Linux干货 2016-11-28
  • 第一周作业

    一、计算机的组成及功能(参照书籍:《计算机的组成原理》)  按照冯•诺伊曼结构,计算机的硬件由运算器、控制器、存储器、输入设备和输出设备五部分组成。  CPU   :由运算器与控制器组成。主要功能就是控制各部件协调工作。         运…

    Linux干货 2017-02-06

评论列表(1条)

  • 马哥教育
    马哥教育 2017-03-30 13:57

    对hadoop的基础配置描述的非常详细清晰,继续加油。