10月2日、ニューヨークにて Cloudera が主催 ・・・
Hadoop World 2009 へ行ってきました。エンタープライズという概念が大きく変化しているのだなぁという、全体的な印象がありました。
たとえば、Web から集めてきたデータを、ある方向性をもって分析すれば、それが検索エンジンになるわけですが、膨大な特許データだけに対象を絞りこみ、どのようなキーワードが含まれるのか、それを情報として出力すれば、これまでは人手に依存してきた処理の工程が大幅に短縮されます。また、各種のログデータなどの解析や、遺伝子工学におけるゲノム研究といった分野もあり、そこでは Web 以外をソースとしたデータの解析が必要になります。
ゲノムの場合に、いったいどれくらいのデータ量を処理すれば良いのかと考えてみても、皆目見当もつきませんが、たとえばログ解析であれば計算も可能です。仮に 1日に 10GB の想定で、月に 300GB、年で 3.6TB です。そして、大本となる 10GB が10 倍に増大し、対象が10個に増えれば、3年で PB の世界に突入です。10TB の前提も、x10 x10 の増幅も、それほどトッピなことではないと思われます。
それはもう、RDB 型のストレージでは手におえるものではありません。しかし、ニーズとしては明確なものがあり、それに対する回答のひとつが Hadoop だと思えたので、わざわざ NY まで1日のセッションのために行ってきた、というのが今回の経緯です。ただ、明確なニーズといっても根拠があるわけではなく、その裏付けを得るための参加だったというのが正直なところです。なにせ、VISA や、JP Morgan、eBay、Amazon といった大所が Hadoop にコミットするのですから、それを聞かないわけにはいきません。
写真を説明します:
(上)会場となったマンハッタン 45St の Roosevelt Hotel
(中)期待はしていなかったが、期待どおりだったランチ・ボックス
(下)決して怪しい人たちではなく、Aaron Kimball さんたちの一座
このカンファレンスのプログラムは、午前中がジェネラルなものであり、Amazon、Facebook、Yahoo といった Hadoop 環境における提供側のセッションが続きます。それぞれが、Elastic MapReduce、Hive、Pig などを提供しているのですが、それぞれが Hadoop の利用者でもあります。
今回のHadoop World 2009 では、それらのスピーカーが、自社のテクノロジーというより、利用形態を中心に話してくれたので、当初は午後のセッションに託していた、Hadoop を利用していくためのシナリオを探るという目的は、午前中でほぼ達成されてしまいました。
・・・ というわけで、何が、というわけなのか、定かではありませんが(笑)、詳しいレポートに関しては太田一樹さんのブログをご参照ください。すばらしい解説があります。
話はもどりますが、実は NY に着いたのが前日の夕方だったので、Welcome レセプションに遅刻してしまい、流れに乗り遅れてしまいました。そのとき、ある在米中国人に話しかけられ、情報交換というか、一方的に情報をもらうことになったのですが、その会社では 40 台の Hadoop クラスタで、スパム・フィルタリングのサービスを提供しているとのことでした。RDB では 10 時間ほどかかる分析が、Hadoop では 1時間もかからずに終了する、という成果を既に得ていると教えてもらいました。
40台のクラスタだとすると、おそらく TB オーダーの領域なのかと思いますが、そくらいのスケールであっても、Hadoop のアドバンテージが証明されたことになります。それに関連してですが、SQL Azure の上限が、10GB に決まったようですが、そのあたりを境にして(Azure Table もあるので一概に言えませんが)、RDB型と MapReduce 型の住みわけが進むのかという感じがします。
ただ、気を付けないといけないのが、当然のことながら、すべてのケースに Hadoop が適しているわけではないということです。そのことは、前述の中国人エンジニアも言っていました。つまり、Write Many Query Many の方式と、Write Once Read Many の方式が、それぞれの得意分野を持っているということです。
何というか、これまでのエンタープライズモデルを支えてきた、過去、現在、未来というつながりに対して、つまり垂直思考に対して、水平思考の流れがクロスする場所が、クラウド・マーケットなのかと思えてきた Hadoop World 2009 NYC でした。
それと、ひょっとすると Hadoop Japan(?)が、近々にあるかもしれないということで、ご興味のある方は上記の大田さんのブログに注目です! --- A.C.
<関連>
Hadoop World Report:優良企業はなぜ Hadoop に走るのか
Hadoopの最新動向を「Hadoop World:NY 2009」の資料から
Hadoop World NYC 参加記




























SQL Azureの上限は10TBじゃなくて、10GBですよ・・・。(´・ω・`)
RDBのクラウド移行という点では、Hiveが急速にプレゼンスを増してるという印象を最近の動きから感じますね。(・∀・)
Comment by nsharp — October 9, 2009 @ 7:00 am |
nsharp さん、間違いのご指摘をありがとうございます。早速、修正しました。。。
ペタバイト、ペタバイト、、、と何度も聞かされてきて、サイズに関する感覚がマヒ状態でした(笑)
Hive に限らず、いろいろなツールが充実してきているようですね。
Comment by Agile Cat — October 9, 2009 @ 8:12 am |