Wordcount 就是 Hadoop 中的 Hello World,本文將這個範例程式碼拆成三個部分解析,main function、Mapper、Reducer,並且針對中Wordcount範例中沒有,但實作時常發生的錯誤講解。Configuration:用來讀取 Hadoop resource的Class,預設會讀入基本的 Hadoop 設定。Job:一個 job 會包含一個完整的 Map-Reduce,需要設定 Mapper、Reducer 等 Class。



本文將介紹如何實作客製化的Writable Class。在 Hadoop 中,很多時候是官方提供的 Writable Class是不夠用的,所以需要自己寫個 Class 來實作 Writable。Writable Class 最主要的用途在於它是一個可序列化的物件 (serializable object),由於在 Hadoop 不同階段 (Mapper、Combiner、Reducer 等)間的資料傳輸,都會把資料轉成 byte code(serialize)寫至 local dis k...