最近工作中需要使用shell,从远程rsync数据过来预处理后提交到hdfs中,再调用pig脚本在hadoop集群上处理数据,完了fs -get下来结果文件并进行进一步处理,再推送给其他系统使用。其间需要将pig作业的结果文件合并并且均分为10个文件推送给远程服务器上的应用加载。因为结果文件比较大,远程应用拿到结果文件后使用多线程加载,所以需均分为10个小文件。虽然mr作业出来的文件结果也是part-00000、part-00001,但若pig脚本中不指定reduce任务数,产生的结果文件个数是3个,而且下下来之后需要进行重命名。与其这样还不如自己处理。
|
|