大数据学习路线分享MAPREDUCE - 好文

　　大数据学习路线分享MAPREDUCE，需求：统计大量的文本文件中的单词出现的次数

*
1）整个运算需要分阶段

* 阶段一：并行局部运算
* 阶段二：汇总处理，不同的阶段需要开发不同的程序
* 2）阶段之间的调用
* 3）业务程序（task程序）如何并发到集群并启动程序
* 4）如何监控task程序的运行状态，如何处理异常
* ::这些问题是开发分布式程序都会面临的问题，完全可以封装成框架::
MR 的结构
* 一个完整的MapReduce运行时有三类实例进程：
* 1）MRAppMaster ：负责整个程序的过程调度和状态调度
* 2）mapTask：负责map阶段的整个数据处理流程
* 3）ReduceTask：负责reduce阶段的整个数据处理流程
MR设计框架
::MAPERDUCE详细框架::
- 1）资源如何分发？
::放到HDFS:::中不能由客户端发送，如果配置1000台机器，也不能做pipeline，所以，可以把jar放在HDFS中的一个目录下。 -
2）虽然有上千台机器，现在job只需要20台机器即可完成，由谁决定是哪20台机器？::ResourceManager:: 作为master -
3)worker--NODEMANAGER,执行应用程序，监控应用程序的资源使用情况（cpu，磁盘，网络，硬盘）并且向调度器ResourceManager汇报

::作业提交流程::

* 1）客户端提交作业给resourcemanager
* 2）resourcemanager返回jobid，存储路径path信息
* 3）客户端将job.jar 、job.split（确定需要运行多少task）、job.splitinfo等资源上传到HDFS的存储路径
* 4）上传到hdfs完成后，客户端通知resourcemanager启动job
* 5）resourcemanager将job加入到job等待队列
，然后nodemanager启动container，将资源下载到container内，向客户端发出请求启动master
* 6)Appmaster向resourcemanager请求maptask的资
*
7）resourcemanager分配资源，从hdfs下载jar到container中，master启动maptask，通过心跳机制，检查job.split
* 8）maptask执行完成，通知Appmaster，释放maptask资源。
分片机制

::如何确定需要运行多少task（并行度）::

*
决定需要多大的并行度

* map阶段并行度：客户端首先查看一下待处理数据目录下的数据量
/data/a.txt 1G
/data/b.txt 800M

* 循环遍历：对每个文件看文件有多少个block，将block数量累加到计数器
*
返回一任务规划描述文件：job.split：
- [ ] split0: /data/a.txt 0-128M - [ ] split1: /data/a.txtx 128-256M ….. - [
] split8: /data/b.txt 0-128M
写入HDFS中

*
分片和分块不同：

* 分片是逻辑概念，给task一个数据处理的范围
* 存在冗余（10%），偏移量和数据大小
* 特性：移动计算（jar包中封装的计算）而不是移动数据
编写MR程序的步骤：
1、用户编写程序分为三个部分：Mapper、Reducer、Driver
2、Mapper的输入数据是kv对的形式（数据类型可自定义）
3、Mapper的输出数据是kv对的形式（数据类型可自定义）
4、Mapper中的业务逻辑写在map（）方法中
5、Map（）方法对每一对kv值调用一次
6、Reducer的输入数据是kv对的形式（数据类型可自定义）
7、Reducer的输出数据是kv对的形式（数据类型可自定义）
8、Reducer中的业务逻辑写在reduce（）方法中
9、ReduceTask进程对每一组相同的key的调用一次reduce（）方法
10、用户自定义的Mapper、Reducer类都要继承各自的父类
11、整个程序需要一个Driver来进行提交，提交是一个描述了各种必要信息的job对象

* 案例：wordcount
* 需求：有一批数据文件（TB或者PB级别的数据），如何统计这些文件中的单词出现次数

热门工具换一换