`
qianshangding
  • 浏览: 124664 次
  • 性别: Icon_minigender_1
  • 来自: 深圳
社区版块
存档分类
最新评论

Hadoop之MapReduce命令

 
阅读更多

概述

所有的Hadoop命令都通过bin/mapred脚本调用。在没有任何参数的情况下,运行mapred脚本将打印该命令描述。

使用:mapred [--config confdir] COMMAND

[hadoop@hadoopcluster78 bin]$ mapred
Usage: mapred [--config confdir] COMMAND
       where COMMAND is one of:
  pipes                run a Pipes job
  job                  manipulate MapReduce jobs
  queue                get information regarding JobQueues
  classpath            prints the class path needed for running
                       mapreduce subcommands
  historyserver        run job history servers as a standalone daemon
  distcp <srcurl> <desturl> copy file or directories recursively
  archive -archiveName NAME -p <parent path> <src>* <dest> create a hadoop archive
  hsadmin              job history server admin interface

Most commands print help when invoked w/o parameters.

用户命令

对于Hadoop集群用户很有用的命令:

archive

查看:Hadoop之命令指南


classpath

打印需要得到Hadoop的jar和所需要的lib包路径,hdfs,yarn脚本都有这个命令。

使用: mapred classpath


distcp

递归的拷贝文件或者目录,查看该篇中的示例:Hadoop之命令指南


job

通过job命令和MapReduce任务交互。

使用:mapred job | [GENERIC_OPTIONS] | [-submit <job-file>] | [-status <job-id>] | [-counter <job-id> <group-name> <counter-name>] | [-kill <job-id>] | [-events <job-id> <from-event-#> <#-of-events>] | [-history [all] <jobOutputDir>] | [-list [all]] | [-kill-task <task-id>] | [-fail-task <task-id>] | [-set-priority <job-id> <priority>]

参数选项 描述
-submitjob-file 提交一个job.
-statusjob-id 打印map任务和reduce任务完成百分比和所有JOB的计数器。
-counterjob-id group-name counter-name 打印计数器的值。
-killjob-id 根据job-id杀掉指定job.
-eventsjob-id from-event-# #-of-events 打印给力访问内jobtracker接受到的事件细节。(使用方法见示例)
-history [all]jobOutputDir 打印JOB的细节,失败和杀掉原因的细节。更多的关于一个作业的细节比如:成功的任务和每个任务尝试等信息可以通过指定[all]选项查看。
-list [all] 打印当前正在运行的JOB,如果加了all,则打印所有的JOB。
-kill-tasktask-id Kill任务,杀掉的任务不记录失败重试的数量。
-fail-tasktask-id Fail任务,杀掉的任务不记录失败重试的数量。
默认任务的尝试次数是4次超过四次则不尝试。那么如果使用fail-task命令fail同一个任务四次,这个任务将不会继续尝试,而且会导致整个JOB失败。
-set-priorityjob-id priority 改变JOB的优先级。允许的优先级有:VERY_HIGH, HIGH, NORMAL, LOW, VERY_LOW

示例:

[hadoop@hadoopcluster78 bin]$ mapred job -events job_1437364567082_0109 0 100
15/08/13 15:10:53 INFO client.RMProxy: Connecting to ResourceManager at hadoopcluster79/10.0.1.79:8032
Task completion events for job_1437364567082_0109
Number of events (from 0) are: 1
SUCCEEDED attempt_1437364567082_0109_m_000016_0 http://hadoopcluster83:13562/tasklog?plaintext=true&attemptid=attempt_1437364567082_0109_m_000016_0

[hadoop@hadoopcluster78 bin]$ mapred job -kill-task attempt_1437364567082_0111_m_000000_4
15/08/13 15:51:25 INFO client.RMProxy: Connecting to ResourceManager at hadoopcluster79/10.0.1.79:8032
Killed task attempt_1437364567082_0111_m_000000_4


pipes

运行pipes JOB。关于pipe,查看:Hadoop pipes编程

Hadoop pipes允许C++程序员编写mapreduce程序。它允许用户混用C++和Java的RecordReader, Mapper, Partitioner,Rducer和RecordWriter等五个组件。

Usage: mapred pipes [-conf <path>] [-jobconf <key=value>, <key=value>, ...] [-input <path>] [-output <path>] [-jar <jar file>] [-inputformat <class>] [-map <class>] [-partitioner <class>] [-reduce <class>] [-writer <class>] [-program <executable>] [-reduces <num>]

参数选项 描述
-confpath Job的配置文件路径。
-jobconfkey=value,key=value, … 增加/重载 JOB的配置。
-inputpath 输入路径
-outputpath 输出路径
-jarjar file JAR文件名
-inputformatclass InputFormat类
-mapclass Java Map 类
-partitionerclass Java Partitioner
-reduceclass Java Reduce 类
-writerclass Java RecordWriter
-programexecutable 可执行的URI
-reducesnum reduce的数量



queue

该命令用于交互和查看Job Queue信息。

使用: mapred queue [-list] | [-info <job-queue-name> [-showJobs]] | [-showacls]

参数选项 描述
-list 获取在系统配置的Job Queues列表。已经Job Queues的调度信息。
-infojob-queue-name[-showJobs] 显示一个指定Job Queue的信息和它的调度信息。如果使用-showJobs选项,则显示当前正在运行的JOB列表。
-showacls 显示队列名和允许当前用户对队列的相关操作。这个命令打印的命令是当前用户可以访问的。
示例:

[hadoop@hadoopcluster78 bin]$ mapred queue -list
15/08/13 14:25:30 INFO client.RMProxy: Connecting to ResourceManager at hadoopcluster79/10.0.1.79:8032
======================
Queue Name : default 
Queue State : running 
Scheduling Info : Capacity: 100.0, MaximumCapacity: 100.0, CurrentCapacity: 47.5

[hadoop@hadoopcluster78 bin]$ mapred queue -info default
15/08/13 14:28:45 INFO client.RMProxy: Connecting to ResourceManager at hadoopcluster79/10.0.1.79:8032
======================
Queue Name : default 
Queue State : running 
Scheduling Info : Capacity: 100.0, MaximumCapacity: 100.0, CurrentCapacity: 72.5

[hadoop@hadoopcluster78 bin]$ mapred queue -info default -showJobs
15/08/13 14:29:08 INFO client.RMProxy: Connecting to ResourceManager at hadoopcluster79/10.0.1.79:8032
======================
Queue Name : default 
Queue State : running 
Scheduling Info : Capacity: 100.0, MaximumCapacity: 100.0, CurrentCapacity: 72.5 
Total jobs:1
 JobId  State  StartTime  UserName  Queue  Priority  UsedContainers  RsvdContainers  UsedMem  RsvdMem  NeededMem  AM info
job_1437364567082_0107  RUNNING  1439447102615  root  default  NORMAL  28  0  29696M  0M  29696M http://hadoopcluster79:8088/proxy/application_1437364567082_0107/

[hadoop@hadoopcluster78 bin]$ mapred queue -showacls
15/08/13 14:31:44 INFO client.RMProxy: Connecting to ResourceManager at hadoopcluster79/10.0.1.79:8032
Queue acls for user : hadoop

Queue Operations
=====================
root ADMINISTER_QUEUE,SUBMIT_APPLICATIONS
default ADMINISTER_QUEUE,SUBMIT_APPLICATIONS

管理员命令

以下是对hadoop集群超级管理员很有用的命令。

historyserver

启动JobHistoryServer服务。

使用: mapred historyserver

也可以使用sbin/mr-jobhistory-daemon.sh start|stop historyserver来启动/停止JobHistoryServer。

hsadmin

运行hsadmin去执行JobHistoryServer管理命令。

Usage: mapred hsadmin [-refreshUserToGroupsMappings] | [-refreshSuperUserGroupsConfiguration] | [-refreshAdminAcls] | [-refreshLoadedJobCache] | [-refreshLogRetentionSettings] | [-refreshJobRetentionSettings] | [-getGroups [username]] | [-help [cmd]]


参数配置 描述
-refreshUserToGroupsMappings 刷新用户-组的对应关系。
-refreshSuperUserGroupsConfiguration 刷新超级用户代理组映射
-refreshAdminAcls 刷新JobHistoryServer管理的ACL
-refreshLoadedJobCache 刷新JobHistoryServer加载JOB的缓存
-refreshJobRetentionSettings 刷新Job histroy旗舰,job cleaner被设置。
-refreshLogRetentionSettings 刷新日志保留周期和日志保留的检查间隔
-getGroups [username] 获取这个用户名属于哪个组
-help [cmd] 帮助
示例:
[hadoop@hadoopcluster78 bin]$ mapred hsadmin -getGroups hadoop
hadoop : clustergroup


分享到:
评论

相关推荐

    Hadoop原理与技术MapReduce实验

    (1)熟悉Hadoop开发包 (2)编写MepReduce程序 (3)调试和运行MepReduce程序 (4)完成上课老师演示的内容 二、实验环境 Windows 10 VMware Workstation Pro虚拟机 Hadoop环境 Jdk1.8 二、实验内容 1.单词计数实验...

    Java操作Hadoop Mapreduce基本实践源码

    Java操作Hadoop Mapreduce基本实践源码.

    hadoop-mapreduce:hadoop MapReduce

    执行命令以在hadoop中执行mapreduce。 hadoop jar /Users/hello/Desktop/accessMR.jar accessMR.AccessMR /logs/access.log /user/output检查输出。 hadoop fs -cat /user/output/part-00000运行hadoop命令的快捷...

    实验项目 MapReduce 编程

    2. 在 Hadoop 集群主节点上搭建 MapReduce 开发环境 Eclipse。 3. 查看 Hadoop 自带的 MR-App 单词计数源代码 WordCount.java,在 Eclipse 项目 MapReduceExample 下建立新包 com.xijing.mapreduce,模仿内置的 ...

    Hadoop学习笔记

    bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar *** 输入文件目录 输出文件目录 *** 本地运行案例 bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar ...

    最高气温 map reduce hadoop 实例

    自己的第一个hadoop 实例,好高兴分享一下。 运行命令hadoop jar ‘/home/hadoop/downloas/max.jar’ upload.MaxTemperature

    CustomInputFormatCollection:Hadoop Mapreduce InputFormat 集合

    Hadoop 代码使用方式 ...hadoop jar hadoop-mapreduce-custom-inputformat-1.0-SNAPSHOT.jar org.apache.hadoop.mapreduce.sample.SmallFileWordCount -Dmapreduce.input.fileinputformat.split.maxsize=10

    【大数据】Hadoop常用启动命令.pdf

    【⼤数据】 【⼤数据】Hadoop常⽤启动命令 常⽤启动命令 Hadoop常⽤启停命令 常⽤启停命令 最近在装⼤数据环境,不知由于年纪⼤的问题还是笨的缘故,⽼师记不住⼀些常⽤命令,在这⾥就单独记⼀下Hadoop常⽤的启停命 ...

    hadoop(二:hadoop3.3.0搭建,HDFS shell 命令,MapReduce程序)

    hadoop(二:hadoop3.3.0搭建,HDFS shell 命令,MapReduce程序)

    hadoop+hive+mapreduce的java例子

    使用下面命令进行开启: Java代码 收藏代码 hive --service hiveserver &gt;/dev/null 2&gt;/dev/null & 我们可以通过CLI、Client、Web UI等Hive提供的用户接口来和Hive通信,但这三种方式最常用的是CLI;Client 是Hive...

    Hadoop下的shell命令

    Hadoop下MapReduce编写用的一些批处理命令,熟练掌握后,可以帮助开发人员更好的对程序的效率进行掌控

    Hadoop Shell命令大全

    Hadoop 有两个核心的东西:HDFS、MapReduce。操作HDFS可以通过命令行、WEB接口和JAVA代码。本文档详细介绍了操作HDFS的命令,并配有详细的例子。

    Java大数据培训学校全套教程-50)Hadoop与MapReduce最入门

     通过学习Hadoop的安装与配置,hdfs常用命令,WordCount程序详解,Shuffle过程详解,WordCount程序结果分析,Hadoop,HDFS,MapReduce,NameNode和DataNode,yarn,ResourceManager,NodeManager的概念等让大家对Hadoop和...

    Hadoop从入门到上手企业开发

    042 引出HDFS实际应用场景之合并文件和使用getmerge命令并查看实现源码 043 分析getmerge功能实现思路和代码实现 044 演示讲解【百度网盘】功能与HDFS API对应说明 045 HDFS 专题结束和布置HDFS 作业 046 MapReduce...

    Hadoop常用命令.pdf

    1.运行MapReduce程序 &gt; hadoop jar test-1.0-SNAPSHOT-jar-with-dependencies.jar /user/test/input /user/test/out 2.运行Jar包指定类中的主函数 &gt; java -cp test-1.0-SNAPSHOT-jar-with-dependencies.jar ...

    Apriori_java_MR.zip

    基于Hadoop的MapReduce并行apriori算法,实验设计在3台虚拟机上,搭建步骤:(1) 虚拟机上安装ubuntu系统,安装JDK、SSH、Hadoop。 (2) 配置JDK、Hadoop环境变量及MapReduce组件。 (3) 配置SSH免密登录。 (4)...

    分布式文件系统Hadoop

    hadoop 权威指南、命令手册、开发者入门专刊、开发者第一期、开发者第二期、开发者第三期、hadoop和hbase安装使用、hadhoop的安装与使用、hadoop的mapReduce执行过程介绍

    大数据学习指南合集(Hadoop、Spark、Flink等)

    Hadoop——分布式计算框架MapReduce   5. Hadoop——MapReduce案例   6. Hadoop——资源调度器YARN   7. Hadoop——Hadoop数据压缩 二、Zookeeper   1.Zookeeper——Zookeeper概述   2.Zookeeper——...

    Hadoop集群(1-11期)

    Hadoop集群·MapReduce初级案例(第9期) Hadoop集群·MySQL关系数据库(第10期) Hadoop集群·常用MySQL数据库命令(第10期副刊) Hadoop集群·HBase简介及安装(第11期) Hadoop集群·HBase之旅(第11期副刊)

    Hadoop2.x大数据平台

    HDFS 2.0实战—Shell命令使用.pdf (3) Understanding_Hadoop_Clusters_and_the_Network.pdf 《 HDFS应用场景、部署、原理与基本架构》作业.pdf 《 YARN应用程序设计方法》作业.pdf 《MapReduce 2.0程序设计(涉及多...

Global site tag (gtag.js) - Google Analytics