2011年3月3日 星期四

mapreduce & compress

mapreduce 壓縮檔


我針對Hive是否能在Laod Data時順便壓縮搜尋了一下
目前只看到他只能設定在"Output"時壓縮

hive.exec.compress.output 和hive.exec.compress.intermediate 這兩個參數可以調整
reference

因此假如我們需要將hive資料搬到Hbase時,就可以設定資料壓縮再傳過去
set hfile.compression=gz; reference

另外MapReduce可以設定在Output時做壓縮 Reference

我剛剛測試covire的資料是可以成功的
壓縮比也約在75%左右
未來也可以嘗試把壓縮包在Oozie
就可以節省許多時間

沒有留言: