三：Hadoop伪分布式配置-白红宇

三：Hadoop伪分布式配置

阅读量：5825 次

发布时间：2019-06-18

本文共 3832 字，大约阅读时间需要 12 分钟。

一：Hadoop伪分布式配置：

1.core-site.xml 
    
         
     
               
      
       fs.defaultFS
               
      
       hdfs://master:9000
           
          
     
               
      
       hadoop.tmp.dir
               
      
       file:/mysoftware/hadoop-2.6.4/tmp
          
         
     
              
      
       hadoop.native.lib
              
      
       false
          
      
     2.hdfs-site.xml
    
         
     
               
      
       dfs.replication
               
      
       1
           
          
     
              
      
       dfs.namenode.name.dir
              
      
       file:/mysoftware/hadoop-2.6.4/dfs/name
          
         
     
              
      
       dfs.datanode.data.dir
              
      
       file:/mysoftware/hadoop-2.6.4/dfs/data
          
         
     
              
      
       dfs.permissions
              
      
       false
          
      
     3.mapred-site.xml
    
         
     
              
      
       mapreduce.framework.name
              
      
       yarn
          
     
    4.yarn-site.xml
    
         
     
              
      
       The hostname of the RM.
               
      
       yarn.resourcemanager.hostname
               
      
       master
           
          
     
               
      
       yarn.nodemanager.aux-services
               
      
       mapreduce.shuffle

1. 在conf/hadoop-env.sh文件中增加：

export JAVA_HOME=/mysoftware/jdk1.7.0_80 （这是我的JDk的安装路径）

2. 在core-site.xml文件中增加如下内容：

<property>

<name>fs.defaultFS</name>

<value>hdfs://master:9000</value>

</property>

【这里的值指的是默认的HDFS路径。当有多个HDFS集群同时工作时，用户如果不写集群名称，那么默认使用哪个哪？在这里指定！该值来自于hdfs-site.xml中的配置】

<!—hadoop.tmp.dir 是hadoop文件系统依赖的基础配置，很多路径都依赖它。如果hdfs-site.xml中不配置namenode和datanode的存放位置，默认就放在这个路径中-->

<property>

<name>hadoop.tmp.dir</name>

<value>file:/mysoftware/hadoop-2.6.4/tmp</value>

</property>

3. 在hdfs-site.xml中增加如下内容：

<property>

<name>dfs.replication</name>

<value>1</value>

</property>

<!-- dfs.data.dir - 这是DataNode结点被指定要存储数据的本地文件系统路径。DataNode结点上的这个路径没有必要完全相同，因为每台机器的环境很可能是不一样的。但如果每台机器上的这个路径都是统一配置的话，会使工作变得简单一些。默认的情况下，它的值hadoop.tmp.dir, 这个路径只能用于测试的目的，因为，它很可能会丢失掉一些数据。所以，这个值最好还是被覆盖。

dfs.name.dir - 这是NameNode结点存储hadoop文件系统信息的本地系统路径。这个值只对NameNode有效，DataNode并不需要使用到它。上面对于/temp类型的警告，同样也适用于这里。在实际应用中，它最好被覆盖掉。-->

<property>

<name>dfs.namenode.name.dir</name>

<value>file:/mysoftware/hadoop-2.6.4/dfs/name</value>

</property>

<property>

<name>dfs.datanode.data.dir</name>

<value>file:/mysoftware/hadoop-2.6.4/dfs/data</value>

</property>

<!—解决：org.apache.hadoop.security.AccessControlException:Permission denied:user=Administrator,access=WRITE,inode="tmp":root:supergroup:rwxr-xr-x 。

因为Eclipse使用hadoop插件提交作业时，会默认以 DrWho 身份去将作业写入hdfs文件系统中，对应的也就是 HDFS 上的/user/hadoop , 由于 DrWho 用户对hadoop目录并没有写入权限，所以导致异常的发生。解决方法为：

放开 hadoop 目录的权限，命令如下：$ hadoop fs -chmod 777 /user/hadoop -->