Agile Cat — Azure & Hadoop — Talking Book

November 10, 2009

Agile_Cat が google.com の上位に

Filed under: Hadoop, Twitter — Agile Cat @ 10:47 am
Tags: , , ,

何気なく検索してみたら、ひえぇ~~~

これは、日本の Hadooper さんたちが、とても熱心なことの表れですね。 Hadoop Conference Japan が、瞬く間に満席になってしまったことからも窺い知れますよね。母数が小さいので、だんだんと沈み込んでいくでしょうが、なんか嬉しいじゃぁないですか!

AC on Google

hadoop twitter – Google Search
http://www.google.com/search?hl=en&source=hp&q=hadoop+twitter&aq=f&oq=&aqi= 
Screen clipping taken: 11/10/2009, 10:02 AM

今日、11月10日は、台湾で開催されているはずですが、きっと 盛り上がっているのでしょうね --- A.C.

10月の Japan Clouds から

Filed under: Miscs — Agile Cat @ 5:23 am
Tags: , , , , , , ,

日本発のクラウド関連ニュースのまとめです

j-clouds[1]

J Clouds とは、日本から発信されるクラウド関連のニュースをまとめたもので、海外の方々に日本市場の動向を知ってもらうという目的を持っています。下手な英語ですが、発信すれば何かが起こるだろうという、きわめて漠然とした目論見の基に、無謀にもスタートしてしまったサイトです。

ただ、それぞれのリンクの先には、必ず日本語のコンテンツがあり、また、それなりにフィルタリングされた情報となっていますので、我々 日本語ネイティブにとっても、多少のメリットはあるはずだと思い、以下に 2009年 10月分をリストアップしてみました。

1日:Hitachi Systems and Services launched the customer oriented cloud building businesses
1日:NTT Data talked about "Kasumigaseki cloud" and "Local Government Cloud"
5日:IIJ announced their cloud services – $80/month
5日:Terilogy announced to make the new businesses with NIHON Unisys
5日:IT Core announced their cloud services – $100/month
5日:Data Japan has started to provide cloud hosting services with Hyper-V
7日:JB Group launched their cloud businesses
8日:NEC leverages the sales for cloud software and devices
8日:NTT Communication will launch a cloud services as free trial
8日:Cyboze announced to collaborate with IIJ
9日:MITI of Japanese Government will collect ideas for e-Government
13日:NetWorld will dive into the cloud market with Bplats
13日:A major common paper ASAHI talked the about cloud
13日:NTT focuses on the social infrastructure with clouds
14日:Bit Isle announced to provide private cloud services
14日:Microsoft’s Future Technology Days in Tokyo with David Chappell
15日:NEC opened "Cloud Plaza" in their head quarter
16日:Ministry of Internal Affairs and (MIC) reduces 30% of extra budgets
18日:The security service market will grow well
19日:Special program “Twitter” of NHK
19日:Mitsubishi Tokyo UFJ Bank will employ IBM’s Desktop Cloud Service
19日:One day sold out – Hadoop Conference Japan 2009
21日:Fujitsu provides SaaS against influenza
21日:Linus Torvalds talked in Tokyo
24日:Nihon Unisys will launch a datacenter in Sapporo
26日:IIJ Group shakes hands with Citrix
26日:NEC will deliver middleware "WebOTX V8.3" for cloud computing
27日:Microsoft Japan announced Tech Days 2010
27日:MITI has gotten 220000 page views in a week
27日:Microsoft Japan makes an alliance with IIJ in clouds businesses
31日:NS Solutions launches a Web style conference service with V-Cube
31日:Startia shakes hands with BrandDialog in SaaS business
31日:System Lab shows a trade currency exchange system in IT Expo 09

この 10月は33本のリンクがありましたが、もっと、もっと、増えていくと良いですね --- A.C.

 

November 9, 2009

2009/9 : 世界中で 270 億時間がインターネットに!

Filed under: Miscs — Agile Cat @ 8:03 pm
Tags: , , , , , ,

1位は Microsoft というか Live Messenger でした・・・

From <http://www.eweek.com/c/a/Search-Engines/Microsoft-Trumps-Google-Yahoo-in-Total-Time-Spent-Online-584004/>

com score

ComScore Nov. 6 の調査によると、2009年 9月には、世界中で12億人のユーザーが 270億時間を、インターネットに費やしたとのこと。この調査では、その対象者が15歳以上に絞られ、また、インターネット・カフェだけではなく、なんとモバイルからのユーザーも対象外とされるそうです。それで、いったい、どれだけの意味があるんだ、というご指摘は脇において、、、気になるランキングですが、以下のような順位となります。

1位 : Microsoft : 14.5 percent (3.9 billion hours)
2位 : Google : 9.3 percent (2.5 billion hours)
3位 : Yahoo : 6.3 percent (1.7 billion hours)
4位 : Facebook :5 percent (1.4 billion hours)

ただし、Microsoft の 約 40 億時間のうち、30 億時間は Windows Live Messenger であり、Google の半分にあたる 12億時間は Youtube video-sharing site とのことです。

ちなみに、人間が 80歳まで生きるとして、その一生は約 70万時間。 ネコにいたっては、12歳まで生きるとして 10万時間ちょいです。ーーー A.C.

Hadoop : Twitter よ、お前もか!

Filed under: Hadoop, Twitter — Agile Cat @ 7:03 am
Tags: , , , , , , , ,

NoSQL East 2009 – Summary of Day 2

From <http://journal.uggedal.com/>

なんとなく、そんな気はしていたのですが、Twitter も Hadooper のようです。NoSQL East 2009 という刺激的な名前のカンファレンスで、同社の Kevin Weil 氏が、その利用方法について、Pig のメリットも含めて語ったとのことです。

Hadoop Twitter Pig 1

Data is getting big. NYSE produces 1TB of data every day, Facebook produces 20TB+ of compressed data each day, and CERN produces 40TB each day (15PB each year). This creates a need for multiple machines and horizontal scalability.

データの大容量化はとまらない。 NYSE は毎日 1TB のデータを吐き出し、Facebook は毎日 20TB+ の圧縮データを作り出し、CERN は毎日 40TB(年間で 15PB)のデータを生じている。 それにより、マルチ・マシンによる水平的なスケーラビリティへのニーズが生まれる。

Hadoop is two things: a distributed file system and a map/reduce framework for parallel computation. The file system is fault-tolerant, replicated, and handles node failure. If it’s hard to store a PB it’s even harder to compute a PB. Yahoo is the largest user of Hadoop.

Hadoop は 2つの要素で構成される。 つまり、パラレル・コンピューティングのための、分散ファイル・システムとMar/Reduce フレームワークである。 このファイル・システムは、フォールと・トレラントとリプリケーション、そしてノードでの障害に対応する。 P Bytes のストアが困難なら、P Bytes のコンピューティングは更に困難になるが、現実として Yahoo は Haoop の最大のユーザーである。

Map/reduce at twitter: how many tweets per user, given tweets table?

Twitter における Map/Reduce : ユーザごとにいくつ tweet がある? つまり、前提となるテーブルは?

Input: key=row, value=tweet_info.
Map: output key=user_id, value=1.
Shuffle: sort by user_id (so that one can use more than one reducer).
Reduce: for each user_id, sum.
Output: user_id, tweet count.

With 2x machines this job runs just about 2x faster.

この処理に、2倍のマシンを与えれば、約 2倍の速度が得られる。

The problem with Hadoop is that analysis is typically written in Java. It’s single-input, two-stage data flow (map, then reduce) is rigid. Joins (distributed) are also hard to do in Hadoop. Java is simply to verbose for writing map/reduce jobs. Lastly, rapid prototyping and exploration is hindered by compilation.

Hadoop における問題とは、その解析部分が、一般的には Java で記述されていることである。 その single-input と two-stage のデータ・フローは、固定的なものである。 さらに、join(distributed)も、Hadoop の中で行うのは困難である。 簡潔に言って Java は、Map/Reduce 処理を記述するには冗長である。 さらに言えば、プロトタイピングや調査が、コンパイルにより影響を受けてしまう。

Pig is a high level language that can be easily read. You think about data as transformations on sets of records. You do one transformation at a time so that you just have to think about the next step. This leads to fewer errors. Pig helps Twitter understand their business faster.

Pig は、可読性の高い、ハイレベル言語である。また、レコード・セットの transformations として、データを取り扱うことができる。 一度に、一回の transformation を実行することで、次のステップへと確実に移行できる。 この方式により、エラーを減らせる。 Twitter は Pig の支援を得ることで、そのビジネスを加速させる方式を理解した。

Hadoop Twitter Pig 2 Kevin Weil talks about Pig. Picture taken by Paul Stamatiou.

Pig makes it easier for non programmers to do large-scale data analysis. It’s easily learnable for people who know SQL. An example analytic script from Twitter is 5% the code and took 5% of the time of writing compared to straight Hadoop. Execution time is roughly 50% of Hadoop.

Pig により、プログラマーでなくても、ラージ・スケールのデータ解析が容易になる。 SQL を知っている人にとって、その学習は容易である。 Twitter における分析スクリプトを例にすると、Hadoop をダイレクトに操作する場合と比較して、5% のコードと、5% の時間で、その記述が完了している。 また、実行時間に関しては、おおよそで Hadoop の 50% になっている。

At Twitter they run Cloudera’s free distribution of Hadoop 0.20.1, with a heavily modified Scribe installation for log collection straight to HDFS, and heavily modified LZO code for fast and splittable data compression. Data is then stored as either LZO-compressed flat files or serialized, LZO-compressed protocol buffers.

Twitter では、 Cloudera の free distribution of Hadoop 0.20.1 を利用し、ログ・コレクションを HDFS にダイレクトに吐き出すために、Scribe インストレーションを大幅に修正している。 さらに、データ圧縮の高速化と、分割処理のために、LZO コードも大幅に変更している。

Semi structured data at Twitter are: apache logs, search logs, RoR logs, MySQL logs, rate limiter logs, per-application logs. Structured data are: tweets, users, block notifications, phones, saved searches, retweets, authentication, SMS usage, third party clients, followings. Entangled data: the social graph (doesn’t really lend itself to be map/reduced).

Twitter の セミ・ストラクチャード・データは: apache logs/search logs/RoR logs/MySQL logs/rate limiter logs/per-application logs で構成されている。 また、ストラクチャード・データは: tweets/users/block notifications/phones/saved searches/retweets/authentication/SMS usage/third party clients などで構成される。 そして、それらを取りまとめるデータが、social graph である(それ自体は、Map/Reduce されない)。

Pig is good at counting big data with standard counts, min, max, std dev. “What get measured gets improved”. Examples at Twitter are:

  • How many request do we serve each day.
  • What is the average latency? 95% latency?
  • Grouped by response code: what is the hourly distribution?
  • How many searches happen each day at Twitter?
  • Where do they come from?
  • How many unique queries?
  • How many unique users?
  • Geographic distribution?

Correlating big data with probabilities, covariance, influence. Examples at Twitter are:

  • How does usage differ for mobile users?
  • How does usage differ for 3rd party desktop client users?
  • Cohort analysis: all users who signed up on the same day—then see how they differ over time.
  • Site problems: what goes wrong at the same time?
  • Which features get users hooked?
  • Which features do successful users use often?
  • Search corrections and suggestions (not done now at Twitter, but coming in the feature).
  • A/B testing.

Research on Big data: prediction, graph analysis, natural language. Examples at Twitter are:

  • What can web tell about a user from their tweets?
  • What can we tell about you from the tweets of those you follow?
  • What can we tell about you from the tweets of your followers?
  • What can we tell about you from the ratio of your followers/following?
  • What graph structures lead to successful networks? (Twitter’s graph structure is interesting since it’s not two-way)
  • Sentiment analysis (you can predict the success of a movie by following its mentions on Twitter the first days after its release).
  • What features get a tweet retweeted?
  • When a tweet is retweeted, how deep is the corresponding retweet three?
  • Long-term duplicate detection (short term for abuse and stopping spammers)
  • Machine learning. About not quite knowing the right questions to ask at first. How do we cluster users?
  • Language detection (contact mobile providers to get SMS deals for users—focusing on the most popular countries at first).
  • How can we detect bots and other non-human tweeters?

———————–

こちらも ど~ぞ。

http://www.slideshare.net/kevinweil/hadoop-pig-and-twitter-nosql-east-2009

ちなみに、このコンテンツは、http://twitter.com/Nakada_itpro さんの "NoSQL EAST 2009 行きたい" 電波にしびれ、さらに、http://twitter.com/shot6 さんの "意味深ツブヤキ” に対して、"教えて君” と化した http://twitter.com/Agile_Cat が食い下がった結果として、発見されたものです ーーー A.C.

<関連>
Hadoop DFS _ Introduction

November 8, 2009

FORTUNE の Jobs 特集

Filed under: Miscs — Agile Cat @ 5:24 pm
Tags: , , , , ,

Rarely seen Steve Jobs --- 写真集

http://money.cnn.com/galleries/2009/fortune/0911/gallery.steve_jobs_rare_photos.fortune/index.html

ここから始まります ・・・

At age 21, in 1976, Steve Jobs co-founded Apple with Steve Wozniak in Jobs’ family garage in Los Altos, Calif. Jobs’ father removed his car restoration equipment and brought home a wooden workbench that served as Apple’s first manufacturing base. Jobs returned to the empty garage in 1996 to be photographed for Fortune.

・・・そして近影まで、12枚の写真で歴史を見せてくれます。

S Jobs

途中には、Macintosh を抱えた 1984年の写真John Sculley や、 Bill Gates とのツーショットもあります。

Steve Jobs’ hits and misses --- 年表

http://money.cnn.com/magazines/fortune/steve_jobs/2009/timeline.html

こちらは、Flash で見せてくれる Jobs の年表です。 成功もあれば失敗もありですが、この人の情熱が伝わってくるコンテンツです。

Jobs ファンの人は もちろん、別に、、、と仰る方も、ぜひ ど~ぞ。

November 7, 2009

Twitter だらけの NY Times

Filed under: Twitter — Agile Cat @ 10:30 am
Tags: , , ,

IT 化への真剣な取り組みが伝わってきます

Times Machine (これも Hadoop?)で IT への取り組みを明らかにしている New York Times ですが、Twitter もスゴイです。 新聞の本来の役割って何なのか、、、と問いかけているような気がしてしまいます。 紙という制約から解放される新聞は、いったい何処へ向かっていくのでしょうかね?

政治、経済から、スポーツにいたるまで、さまざまな Twitter で紙面をサポートしているようです。これらの人が、記者なのか、どうなのかは、ちゃんと見ていないので分かりませんが。。。

NY_T Twitter_1 http://nytimes.com/twitter/accounts

上記のフィーチャード Twitter の下には、分野別にカテゴライズされた 200個ほどの Twitter が並んでいます。なんと、Weddings までありますが、先頭に ”NY Times” と書いてあるものは、オフィシャルなものなんだろうと思います。

NY_T Twitter_2 http://nytimes.com/twitter/accounts

となりのタブをクリックすると、また別の Twitter リストが表示されます。 "On Technology" という項目には、Mary Jo Foley さんもいます。 つまり、NY Times - MJF(個人)ー ZDNet というツナガリなのだろうと解釈できます。

NY_T Twitter_3 http://nytimes.com/twitter/lists

Twitter には、これまでのものを大きく変えていくパワーがあります。 2009年の年間 IT 大賞は、間違いなく Twitter でしょうね。 ちなみに、この情報は、私の Twitter つながりの http://twitter.com/bsiyo さんから教えてもらいました--- A.C.

November 6, 2009

またまた Hadoop の記事が!

Filed under: Hadoop — Agile Cat @ 8:49 am
Tags: , , , , , ,

Hadoopが秘める可能性:オンプレミスでもクラウドでも使えるプラットフォームの魅力

今朝に気づきましたが、今度は ZDNet から Hadoop World の記事がでました。 これも、10月2日の Hadoop World について説明しています。

Google の MapReduceと GFS のオープンソース実装「Hadoop」をご存じだろうか? Yahoo や Amazon でも利用されているフレームワークで、その可能性に今、大きな注目が集まっている。NYで開催されたイベントには、Cloudera、Amazon、Yahoo、IBM、Facebook といった豪華講演者が次々と登壇したほどだ。

Hadoop ZDNet http://japan.zdnet.com/news/internet/story/0,2000056185,20403053,00.htm

11月13日の Hadoop Conference Japan が楽しみですね ~~~  A.C.

<関連>

Hadoop World 2009 レポート
Hadoop Conference Japan 2009 が、もう満員だって!
北京でも Hadoop World を開催
台湾でも Hadoop World を開催
Hadoop World Report:優良企業はなぜ Hadoop に走るのか
Hadoopの最新動向を「Hadoop World:NY 2009」の資料から

November 5, 2009

【速報】 Microsoft Developer Forum 2009

Microsoft は Rich Client + Rich Cloud だ!

開発者を対象とした "Microsoft Developer Forum 2009" が開催されたというか、開催中です。先ほどスティーブ バルマー氏のキーノートが終わったところです。そのメッセージの内容は、「IT 産業のベースはデベロッパーにあり」というもので、3回ほど Developer Developer Developer と叫んでいました。

MDF_SB まずは、もっとも ・・・ らしい、スナップを 一枚 ど~ぞ!

話の切り口は「PC と Mobile と TV を網羅するユーザー環境が前提となるが、それを支えるのは、あなた方 デべロッパー だ! どちらを向いたって Windows があるんだ」、、、いうところから。

MDF_1

さらに、「革新的なテクノロジーにより、デベロッパーと開発環境を支えていく」と続きます。VS 2010 に合わせてという開催日程ですが、Azure と SharePoint にも力が入っているなぁ、という感じでした。

MDF_2

これらの製品とサービスを組み合わせた 「Rich Client + Rich Cloud 」により、クラウド市場で、VMware も、Amazon も、Google も、IBM も、みんなやっつけると、いつもの威勢の良いトーンで叫んでいました。ただし、Yahoo! と、Facebook と、Twitter と、Apple の名前は出ませんでした。。。 

MDF_4

そしてキーノートに続くトーク・セッションでは、大場章弘氏も登壇。いくつかの Q&A がありましたが、「Microsoft 製品の中でのお気に入りは?」という質問に対しては、「①に Windows 7、②に SharePoint、③に Windows Phone」という回答です。

そして、日本のデベロッパーへ向けて、 Together with You!という力強いメッセージで締めくくっていました。

ひぇ~~~ ハングル版の JClouds が!

Filed under: .Chronicle — Agile Cat @ 7:40 am
Tags: , , , ,

英語で発信してみると、面白いことがたくさんあります

実は、この週末に、JClouds のカテゴリを整理して、さらにタグを貼ってみたのですが、WordPress のタグは評判どおりにパワフルで、Google からのリンクが急に増えてきたところです。 まず、外国の方にとって ”Kasumigaseki Cloud” が、とても気になる キーワードなんだということが判りました。それだけではなく、Google 翻訳を介して、ハングル版の JClouds が提供されていることも知りました。ココで見られます!

JClouds KR 

以前に、日本語が亡びるとき(著:水村美苗)について、簡単に紹介したことがあります。

言語のスコープを、普遍語、国語、現地語と切り分ける、著者の合理性には賛成ですが、はたして合理で良いのかという疑問が残ります。しかし、普遍語として日本の社会にポジションを確立しつつある英語、そして国語という不安定なものから、やがては現地語というポジションに移行するかもしれない日本語。その流れを加速するインターネットと、Google 図書館。認めたくなくても認めざるを得ない近未来が、そこにはあると思います。

こんなことが目の前で実際に起こると、つまり、自動ハングル翻訳された JCLouds などを見てしまうと、理屈抜きに嬉しい反面、う~ん と考え込んでしまうところもありますね --- A.C.

November 4, 2009

Microsoft Chicago 特集

まずは、コンテナ 56台、4,500 m2 からスタート

この 10月の1日に、Data Center Knowledge が Microsoft Chicago を特集していたのですね。ちょうど出張中だったので、見落としていました。 以下に、5つのポストからの写真と概要を載せていきますので、詳細については個々のリンクをクリックしてください。

Microsoft Chicago: The Road Ahead
October 1st, 2009 : Rich Miller
The entrance to the new Microsoft data center in Northlake, Ill.

Chicago 1

まず、正面玄関の写真です。 この建屋の中に 12,000-square-foot のサーバー・ルームが 4つあると書かれています。 56台のコンテナが第1フェーズとして設置され、同じだけのコンテナが第2フェーズとして収容されるとのことです。12,000-square-foot の広さですが、以下の計算となります。 これが4つですから、4,5000 m2 に近い面積となります。

1 ft2 = 0.0929 m2
0.0929 * 12,000 = 1,114.8 m2
1,114.8 / 3.306 = 337.2051 坪

From <http://www.datacenterknowledge.com/microsoft-chicago-the-road-ahead/>

Power and Cooling Infrastructure
October 1st, 2009 : Rich Miller

Chicago 2

昨年の冬の段階の、建設中の水冷用タンクとのことです。まだ、700,000 square feet のスペースが、300,000 servers 用に空いているとのことです。そして、以下のインフラストラクチャを必要とすると書いてあります。

  • 11 diesel generators, each supplying 2.8 megawatts of power
  • 11 electrical substations and power rooms
  • 12 chillers, each with a capacity of 1,260 tons

1 ft2 = 0.0929 m2
0.0929 * 70,000 = 6,503.0 m2
6,503 / 3.306 = 1,967.0296 坪

Pasted from <http://www.datacenterknowledge.com/microsoft-chicago-infrastructure/>

Microsoft Chicago: Side-Aisle Container
October 1st, 2009 : Rich Miller

Chicago 3

このコンテナには、2000台以上のサーバー・マシンが収納され、Microsoft Live online services を駆動するのに必要な密度を達成しているとのことです。 この写真は、“side aisle” 型という、側廊スタイルのものとのことです。

Pasted from <http://www.datacenterknowledge.com/microsoft-chicago-side-aisle-container/>

Microsoft Chicago: Center-Aisle Container
October 1st, 2009 : Rich Miller

Chicago 4

こちらは、中廊スタイルのコンテナとのことです。側廊スタイルと比べて、どちらが効率が良いのか、実際に運用してみて、その辺りを見極めようという目論見でしょうか? なお、こうしたコンテナのことを “Pre-Assembled Components”、つまり PAC と呼ぶみたいです。

Pasted from <http://www.datacenterknowledge.com/microsoft-chicago-center-aisle-container/>

Inside Microsoft’s Chicago Data Center
October 1st, 2009 : Rich Miller

Chicago 5

こちらは、コンテナの搬入風景です。 この Chicago データセンターの構築費用は、$500 million とのことですので、500 億円弱という計算になります。 ただし、フェーズ1 の費用なのか、フェーズ 2 を含めた費用なのか、その辺りはわかりません。

Pasted from <http://www.datacenterknowledge.com/inside-microsofts-chicago-data-center/>

搬入風景の動画

最後にですが、、、、コンテナの搬入を撮影した画像が、Bing の中で公開されています。以下のリンクから、ど~ぞ。

Chicago 6

Microsoft Showcase: Microsoft Chicago Data Center Container Bay

Pasted from <http://www.microsoft.com/video/en/us/details/bafe5c0f-8651-4609-8c71-24c733ce628b>

Next Page »

Blog at WordPress.com.