Hadoop Sorts a Petabyte in 16.25 Hours and a Terabyte in 62 Seconds
May 11, 2009
Apache Hadoop を用いて、 Jim Gray’s Sort を実施した。 Jim’s Gray ソートのベンチマークは、類似する各種のテストを組み合わせるというルールのことである。すべてのソート・ベンチマークは、それぞれの 100 Byte レコードにおけるソート時間を測定するものである。 このレコードにおける最初の 10 Byte はキーであり、残りは値である。また、最小のソートでは、全体を1分以内で処理しなければならない。そして、Gray Sort は、100 T Byte 以上を 1時間以内でソートしなければならない。検証されたベスト・タイムは以下のとおりである。
2009 Gray ソートのルールにおいては、私たちの 500 G Byte ソートが、新記録となった。 また、100 T Byte 記録は 0.578 TB/minute であり、こちらも記録を更新した。 2009 年のエントリーが締め切られた後だが、1 PByte が 1.03 TB/minute まで向上した。そのときの 62 秒/ T Byte テストは世界記録であるが、T Byte 部門では、昨年の記録を更新できなかった。
環境は以下のとおり:
- approximately 3800 nodes (in such a large cluster, nodes are always down)
- 2 quad core Xeons @ 2.5ghz per node
- 4 SATA disks per node
- 8G RAM per node (upgraded to 16GB before the petabyte sort)
- 1 gigabit ethernet on each node
- 40 nodes per rack
- 8 gigabit ethernet uplinks from each rack to the core
- Red Hat Enterprise Linux Server Release 5.1 (kernel 2.6.18)
- Sun Java JDK (1.6.0_05-b13 and 1.6.0_13-b03) (32 and 64 bit)
詳細は、以下で ど~ぞ<http://developer.yahoo.net/blogs/hadoop/2009/05/hadoop_sorts_a_petabyte_in_162.html>







