当在Map阶段输入数据逻辑上很大(二十G)(存在hdfs上实际都是以64M的块存储),
而你的集群数量不是很大(只有十台),
这样造成会有很多的Map(320个),
造成map效率不是很高
这里可以通过设置 Configuration
Configuration defaultConf = new Configuration();
defaultConf.set("mapred.min.split.size", "134217728"); //默认为64M,这里改为128M
来增大map的split的大小
将Map数减少为160个
hadoop版本:1.0.4