Agile Cat — in the cloud

April 22, 2010

Office 2010 は、Docs.com で Facebook とコラボ?

Filed under: Facebook,Microsoft — Agile Cat @ 10:37 am
Tags: , , , , , , , ,

この数日で、Microsoft Facebook 連合が出来上がってしまったという感じですね

Facebook の F8 developer conference で、Office 2010 に関する Microsoft と Facebook の提携が発表されました。 それによると、 Docs.com という新しいサイトがオープンされ、Facebook を介して Office 2010 ドキュメントのオンライン化や、グループによる共有が促進されるとのことです。 このテクノロジーは FUSE (Future Social Experiences) Labs  により開発されたものであり、その他にも、Twitter や Bing との連携などが研究されているとのことです。

docs.com 

 

Facebook friends Web "likes," Microsoft Docs.com, more
Ars Technica – Jacqui Cheng – 1 hour ago
Microsoft won’t let Google chip away at its Office market share without a fight, though, which is why it launched Docs.com in a partnership with Facebook.

Microsoft, Facebook launch Docs.com‎ – CNET
Microsoft And Facebook Launch Docs.com‎ – Ghacks Technology News
Docs.com – Social Online Word-Processing By Microsoft and Facebook‎ – Redmond Pie
Channel 4 News (blog)TechWhack (blog)
all 51 news articles »

 

Facebook F8: What’s New? Open Graph, Data Policy Change, Docs.com
NowPublic – Scott Wu – 51 minutes ago
Facebook also announced the partnership with Microsoft, with the document sharing product Docs.com. It allows users to edit or share documents online.

Hacking The Graph: Live From Facebook’s f8 Conference‎ – TechCrunch (blog)
Facebook Changes Shock Web Observers‎ – MyFox Philadelphia
f8: Facebook Touts ‘Open Graph,’ Connects With Smaller Sites‎ – PC Magazine
The Business InsiderBoy Genius Report (blog)
all 545 news articles »

Docs.com: Facebook and Microsoft Go After Google Docs
ReadWriteWeb (blog) – Frederic Lardinois – 6 hours ago
With Docs.com, Microsoft’s FUSE labs just launched an online document editor and viewer that connects directly to Facebook and uses all of the new social

Docs.com: Facebook and Microsoft partner for social office apps‎ – ElectricPig.co.uk
Andrew Kameka Facebook and Microsoft’s Docs.com brings Office 2010 …‎ – Sync (blog)
Microsoft Taps Into Facebook’s Open Graph To Launch Docs.com‎ – TechCrunch (blog)
Seattle Post Intelligencer (blog)VentureBeat
all 23 news articles »

小熊在线

Facebook与微软合作 启用docs.com域名
易名中国 – 8 minutes ago
易名中国(4月22日)讯,据国外媒体网站报道,在F8会议上,Facebook创始人和CEO马克·祖克伯格(Mark Zuckerberg)宣布了微软的一项新合作,并正式启用了docs.com作为官网

Facebook与微软联合发布Docs.com 挑战Google‎ – 腾讯网
微软联合Facebook推文档共享网站Docs.com‎ – 搜狐
Facebook推出在线文档共享网站Docs.com‎ – 新浪网
网易凤凰网
all 24 news articles »

Facebook e Microsoft lançam Docs.com
Info Online – 3 hours ago
O Docs.com foi lançado hoje na conferência F8, do Facebook. Através da página, usuários da rede social podem ser logar com seu usuário e senha para criar,

Microsoft e Facebook lançam Docs.com em nova investida contra a Google‎ – PC World
Facebook e Microsoft lançam ferramenta para edição de documentos …‎ – O Dia Online
all 3 news articles »

Microsoft y Facebook lanzan Docs.com
El Capital Financiero – 4 hours ago
Los documentos nuevos aparecerán en el news feed de los usuarios, como ocurre con las actualizaciones de estados y de álbumes fotográficos.

Facebook y Microsoft se unen y lanzan Docs.com‎ – latercera.com
Facebook universaliza su "me gusta"‎ – RTVE
Facebook quiere ser la llave maestra de toda la web‎ – elEconomista.es
FayerWayer (blog)
all 127 news articles »

Com Open Graph, Facebook estimula personalização da web
IDG Now! – 3 hours ago
Na F8 Developer Conference, realizada nesta quarta-feira (21/4), o Facebook não apresentou apenas o aplicativo Docs.com, criado em parceria com a Microsoft.

Zuckerberg está muito + para ‘Facebook’ q para ‘Connect …‎ – Blue Bus
all 11 news articles »

___space

docs.com 3

それと、TownHall に関するポストでも紹介しましたが、この Docs.com でも Facebook アカウントによるログインが可能でした。 Docs.com と Office Online の関係、そして今後の Windows Live の在り方など、いろいろな展開が予測されますね。ーーー A.C.

ーーーーー

<関連>
Microsoft TownHall : Windows Azure と Facebook の連携が始まった!

 

Microsoft TownHall : Windows Azure と Facebook の連携が始まった!

Filed under: Facebook,Microsoft — Agile Cat @ 9:51 am
Tags: , , , ,

Introducing Microsoft TownHall, a New Windows Azure-hosted Engagement Platform
Published Monday, April 19, 2010 5:00 PM by
WindowsAzure
Filed under: Windows Azure Offers, TownHall
http://blogs.msdn.com/windowsazure/archive/2010/04/19/introducing-microsoft-townhall-a-new-windows-azure-hosted-engagement-platform.aspx

Windows Azure

Today at the Politics Online Conference in Washington, D.C. we launched TownHall, a new Windows Azure-hosted engagement platform that fosters, moderates and houses conversations between groups. As you may have seen on today’s Microsoft on the Issues blog, TownHall is an ideal tool for politicians and other public officials (among others) who want to host online social experiences that drive richer discussion around top interests and concerns with the American public.

2010年4月19日に Washington, D.C. で開催された Politics Online Conference で、私たちは Windows Azure 上にホストされ、グループ間の意見交換を促進/調整/収束させるための、TownHall という新しいコミュニケーション・プラットフォームをアナウンスした。   今日の  Microsoft on the Issues blog で確認できるように、TownHall は、アメリカ国民が重要な関心事についてディスカッションする際に必要とされる、リッチなオンライン・ソーシャル・エクスペリエンスを、政治家や行政当局に提供するための理想的なツールだ。

townHall_5

Think of TownHall as software that allows you to easily create a destination for folks to voice opinions, identify problems, offer solutions and come together around common interests and concerns.  It is also a place to ask questions, where the most popular or relevant questions bubble to the top, so all can quickly see timely topics at any given moment. It does this by letting the community decide what’s relevant, allowing folks to ‘vote up’ questions that they would like to have answered or ‘vote down’ questions that don’t interest them. Check out this site to see TownHall in action.

人々が意見を言い、問題を認識し、解決策を得るために、また、関心事を共有していくたとき、その目的地を容易に見出すためのソフトウェアが、TownHall だと考えてほしい。  また、それは誰もが疑問に思う事柄について質問できる場所でもあるため、いつでも素早く、タイムリーなトピックを発見できる。つまり、人々が回答して欲しいと思う質問に投票することで、そのコミュニティに関連する問題について判断させることで、こうした解決方法が得られる。 もちろん、関心のないことは、票を得られずに沈んでいく。 TownHall の動きを確認するために、このサイトをチェックしてほしい。

One of the challenges (and opportunities) technology companies face today is delivering compelling, rich and interactive experiences across a number of devices. The cloud provides an opportunity to do just that. With TownHall, we’ve established a REST API in the cloud that enables us to deliver clients on a number of platforms and to do so quickly. Today, we’ve released source code you can use to create a great Web experience, and over the coming months, we’ll release TownHall clients that run natively on the iPhone, the iPad, Google Android and Windows Phone 7 devices. We will also release a Facebook client that allows you to extend TownHall into your Facebook fan page as an embeddable widget, and for enterprise and B2B communities using TownHall, we’ll release a SharePoint Web Part.

テクノロジーを追求する企業は直面する課題として、多様なデバイスをまたがるエクスペリエンスを、説得力/リッチネス/インタラクションを用いて提供していくことが挙げられる。 クラウドが提供するのは、まさにそれを実施する場である。 TownHall では、クラウドにおける REST API を確立することで、多様なプラットフォーム上のクライアントをつなぎ、それを迅速に実施する。 そして今日、私たちは、素晴らしい Web エクスペリエンスを開発するために利用できるソースコードをリリースした。 そして数カ月以内に、iPhone/iPad/Android/Windows Phone 7 で実行できる、ネイティブの TownHall クライアントをリリースする予定だ。 さらに、Facebook ファン・ページの中で、TownHall の拡張を実現する Facebook クライアントを、エンベッドが可能なウィジェットとしてリリースする。また、TownHall を用いるエンタープライズと B2B コミュニティのために、SharePoint Web Part もをリリースするだろう。

townHall_3

TownHall is designed to help you gain insight into your community. It’s optimized to collect data from each engagement, providing insight you can use for analytics and to identify opportunities. It’s also integrated with Facebook Connect, which reduces friction for your community to sign-up and provides you the opportunity to integrate social graph and demographic information into your data. All the data is stored in SQL Azure, which makes it easy to incorporate into existing systems or use with familiar tools like Microsoft Excel and Microsoft Access. In TownHall, we recognize that your data is valuable and that you own it. We see our role as empowering you with software, not owning and mining your data.

TownHall は、コミュニティにおける洞察を高めるためにデザインされている。そして、それぞれの参加者からのデータを集めて、さまざまな機会を分析/識別するために最適化されている。 さらに、あなたのコミュニティが参加する際の労力を低減し、あなたのデータに社会的なグラフと、人口統計学的な情報を組み込むために、Facebook Connect と統合されている。 すべてのデータは SQL Azure にストアされているため、既存システムへの取り込みや、Microsoft Excel/Access といったツールでの利用も容易になっている。 TownHall においては、あなたのデータが貴重であり、また、あなたがそれを所有すると認識している。 そして、私たちの役割については、ソフトウェアにより機能を提供し、あなたのデータを所有することもなければ、マイニグすることもないと認識している。

Because TownHall is hosted on Windows Azure, we do the heavy lifting for you. Windows Azure provides a scalable environment which makes TownHall ideal for people who don’t want to manage bulky technical infrastructure. It’s available using a pay-only-for-usage model, so customers don’t have to pay for unnecessary hardware and bandwidth that might sit idle or worry about handling a crush of traffic around a spike in activity.

TownHall は Windows Azure 上にホストされているため、利用するのに労力は不要である。 そして、Windows Azure がスケーラブルな環境を提供するため、膨大でテクニカルなインフラストラクチャを管理しなくないと思う人々にとって理想的なものとなる。 そこでは、pay-only-for-usage モデルが利用できるため、ハードウェアやネットワークに対する不要な支出は削減される。つまり、停止中のサイトや、ピーク時への対応などは、考えないでよくなる。

Licensing TownHall is free from Microsoft; you only pay to host TownHall on Windows Azure. With the cost benefits of the cloud, you could engage with hundreds of thousands of citizens for less than a penny each. 

TownHall のライセンスは、Microsoft からフリーで提供されるため、TownHall をホストする Windows Azure への対価だけが生じる。 クラウドにおける費用対効果により、一人当たり 1ペニー以下で、何十万という人々と関わりを持つことができる。

Though today we’re primarily talking about the ways politicians and other advocacy organizations in can use TownHall, it isn’t limited to those groups. In the way TownHall fosters conversation between public officials and citizens, it can do the same for non-profits, associations and corporations in the private sector looking to connect with customers. Additional examples of where TownHall can be used to engage communities might include:

TownHall の利用方法について、今日の段階では、主として政治や行政を前提に説明しているが、そこだけに限定されているわけではない。行政機関と市民の間で TownHall が対話を促進する方法により、顧客との連絡を目的とする民間組織の、非営利部門などでも効果が得られる。 TownHall によるコミュニティには、以下のような例が含まれるかもしれない:

  • Customers of a brand
  • Attendees of an event
  • Customers looking for support
  • Fans of a sports team, TV show, or film
  • Fans in advertiser sponsored Q&As with celebrities
  • Voters in a political or issue campaign
  • Constituents looking to interact with government agencies
  • Disaster victims looking to connect with resources
  • Virtual teams that include internal and external resources (OEMs, partners, etc.)

Beginning today, Microsoft is making TownHall available to a wide variety of organizations and businesses. Visit http://code.msdn.microsoft.com/TownHall to download the necessary code to learn more and to get started.

今日から、Microsoft は TownHall を、多様な組織や企業に提供していく。必要なコードをダウンロードして学習するためには、http://code.msdn.microsoft.com/TownHall を参照してほしい。

Published Monday, April 19, 2010 5:00 PM by WindowsAzure
Filed under: Windows Azure Offers,TownHall

ーーーーー

<関連>
Office 2010 は、Docs.com で Facebook とコラボ?

April 21, 2010

アメリカのクラウドと、ヨーロッパのクラウドは、何が違うのだろうか?

Cloud Computing Differences Between U.S. And Europe
Posted by
Charles Babcock  @ 05:47:PM | Apr, 5, 2010
http://www.informationweek.com/cloud-computing/blog/archives/2010/04/cloud_computing_17.html?cid=RSSfeed_IWK_ALL

Informationweek writer Charles Babcock

The trans-Atlantic 451 Group has its eye on how cloud computing is developing in Europe and the rest of the world as well as the U.S. The old adage that European IT lags the U.S. by a couple of years applies to cloud computing–more than that when it comes to infrastructure as a service.

大西洋の向こう側では 451 Group が、クラウド・コンピューティングの開発が、ヨーロッパ、アメリカ、その他の国で、どのように進んでいるのかという点に注目している。 European IT はアメリカに 2年遅れだという、古いことわざはクラウド・コンピューティングに当てはまり、また IaaS になると、それ以上になる。

For example, The 451 Group’s William Fellows in a "Cloud Outlook 2010" Webcast, says that 57% of spending on cloud computing is done in the U.S., 31% in Europe and 12% in Asia. But when it comes to the adoption of infrastructure as a service, the way to leap the furthest into cloud computing by using Amazon’s EC2 or Rackspace, 93% of that spending is done in the U.S., 6% in Europe and 1% in Asia.

たとえば、451 Group の William Fellows 氏は、クラウド・コンピューティングへの全世界での支出において、アメリカでは 57% であり、ヨーロッパで 31%、アジアでは 12% だと、 "Cloud Outlook 2010" Webcast で発言している。 しかし、Amazon EC2 や Rackspace を使用する IaaS 採用の話になると、つまり、クラウド・コンピューティングにさらにコミットしていくという方向においては、アメリカで 93%、ヨーロッパで 6%、アジアで 1% の支出になっている。

Several service providers are trying to get more cloud customers in Europe, he said, including Rackspace, Terremark and Savvis. But they have not established data centers there to serve their European customers, giving those with an interest in cloud computing a reason to delay signing up.

Rackspace や、Terremark、Savvis といった、いくつかのサービス・プロバイダーはヨーロッパさらに多くのクラウド・カスタマを得ようとしている。 ただし、それらのプロバイダーは、ヨーロッパの顧客にサービス提供するための、データセンターを現地には構築していない。 そして、クラウド・コンピューティングに興味を持っている人々にとって、そのことが参加を引き伸ばす理由になっていると、彼は発言している。

Ninety-nine percent of businesses in Europe are small and medium sized businesses, he added. They may be able to look to their telecommunications provider, of which there are many, for cloud services, if U.S. cloud service providers don’t figure out the European market soon.

ヨーロッパのビジネスは、その 99% が中小企業により構成されている。 アメリカのクラウド・サービス・プロバイダーが、早急にヨーロッパ市場を理解しないと、それらの企業の大半が、クラウ・ドサービスをテレコム・プロバイダーに求める可能性があると、彼は付け加えている。

One obstacle to both sides is the U.S. Patriot Act, which gives the U.S. government a right to demand data if it defines conditions as being an emergency or necessary to homeland security, and a measure that contradicts that power when the data is of European origin, the European Union’s Data Protection Directive. In 2006, the European Court of Justice ruled that an agreement negotiated with the U.S. Department of Homeland Security was too broadly construed and violated the EU’s directive. The agreement was about sharing data on European airline passengers headed for the U.S. The data sought by the U.S. was too broadly construed and violated the EU’s directive, the court said.

この両者にとっての 1つの障害は、国土の安全保障において緊急かつ必要と判断されたときに、アメリカ政府にデータ開示の権利を与える U.S. Patriot 法であり、また、そのデータがヨーロッパのものである場合に効力を否定する、 EU の Data Protection Directive である。 そして European Court of Justice は 2006年に、U.S. Department of Homeland Security と交渉した協定が、あまりにも概括的であり、また、EU の指示に違反していると裁決した。 この協定は、飛行機でアメリカへ向かう、ヨーロッパからの乗客データを共有するものだった。 つまり、アメリカにより要求されたデータが、あまりにも概括的に解釈され、EU の指示に違反したと、法廷は言い渡したことになる。

"Both measures could prevent establishing a cloud without borders," Fellows noted. Cloud advocates say services established via an Internet data center should be accessible by people around the world, and they are in the case of Google search or Facebook apps. But when it comes to sensitive data, national borders still prevail because of conflicting laws.

「両者の法律が、境界を持たないクラウドの確立を妨げているのかもしれない」と、Fellows は指摘している。 クラウドの提唱者たちが言うには、インターネット・データセンターを介したサービスは、世界中人々からアクセスできる存在でなければならない。 そして、この前提は、Google サーチや Facebook アプリケーションのケースに該当している。 ただし、機密性の高いデータの場合には、競合する法律により、国々を隔てるカベの方が優先している。

Since his Mar. 10 Web cast, troubles between Google’s search engine in China and what the Chinese government will allow to be aired illustrates another national boundary shutting down the international operation of cloud computing. It may look formless, but in many instances, the cloud still has invisible national boundaries blocking the free flow of information.

Fellows の 3月 10日の Web キャスト以降、中国 における Google サーチ・エンジンの在り方と、中国政府が公表できる情報との間でトラブルが起きたが、それは、クラウド・コンピューティングの国際運用を閉じてしまう、もう 1つの国境を例証している。こうした現象は不定形なものと映るが、数多くの事例において、クラウドが持つ見えない国境により、自由な情報の流れが阻まれている。

Total spending on cloud services amounted to $500 million in 2009. It will amount to $13 billion by 2013, Fellows said in the Web cast.

クラウド・サービスに費やされた全体的な支出は、2009年で 5億ドルに至っている。 そして、2013年までに130億ドルになるだろうと、Fellows は Web キャストで発言している。

InformationWeek has published an in-depth report on cloud computing and service-level agreements.Download the report here  (registration required).

ーーーーー

Charles Babcock さんは Informationweek の論客の一人であり、アメリカの IT 産業をサポートする人かと思っていましたが、このレポートを読む限り、とてもニュートラルな立場から、きわめてフェアに問題点を指摘していますね。 ーーー A.C.

Gridmix3 : Apache Hadoop の実運用負荷をエミュレート _1

Filed under: Hadoop — Agile Cat @ 6:52 am
Tags: , , , , ,

Gridmix3 – Emulating Production Workload for Apache Hadoop _1
Chris Douglas, Hong Tang
Hadoop Performance Engineering, Yahoo!
April 6, 2010
http://developer.yahoo.net/blogs/hadoop/2010/04/gridmix3_emulating_production.html?utm_source=feedburner&utm_medium=feed&utm_campaign=Feed%3A+YDNHadoop+%28Hadoop+and+Distributed+Computing+at+Yahoo%21%29&utm_content=Google+Feedfetcher

image At Yahoo!, grids running Hadoop have attracted a wide range of applications from a diverse set of functional groups. The workload submitted by each group is distinguished not only from others in the cluster, but its profile also changes as users gain experience with Hadoop. Users tune their jobs to consume available resources; some may circumvent the assumptions and fairness control mechanisms of the MapReduce scheduler, at the expense of more timid workloads.

Yahoo! においては、 Hadoop を実行するグリッドが、多様な機能グループのセットに基づく、広範囲におよぶアプリケーションをアタッチしている。 それぞれのグループがサブミットするワークロードは、クラスタ内の他の処理と区別されるだけではなく、ユーザーが Hadoop のエクスペリエンスを得るにつれて、そのプロファイルも変化していく。 つまり、利用可能なリソースを消費するように、ユーザーのジョブは調整されていく。したがって、いくつかのケースでは、完成度の低いワークロードのために、MapReduce スケジューラーにおける仮定や原則のメカニズムを回避する場合もある。

Tracking, modeling, and mimicking this adaptive, complex workload is a prerequisite to effective performance engineering.

こうした、適用が可能で複雑なワークロードに対する、トラッキング/モデリング/模倣は、効率の良いエンジニアリングの前提条件となる。

A Brief History of Gridmix

Until recently, most of our work has been based on the existing, de facto benchmark for Hadoop, Gridmix (and its enhancement Gridmix2). Gridmix consists the following parts:

最近にいたるまで、私たちの大部分の作業は、Hadoop のための既存のデファクト・ベンチマークである、 Gridmix (そして拡張版の Gridmix2)をベースにして行われてきた。 Gridmix は以下のパートにより構成される:

A data generation script that must be run once to generate data needed for running the actual benchmark. Several types of jobs in the "mix". The particular jobs varied slightly between Gridmix and Gridmix2, but examples include sorts of text data and SequenceFiles, jobs sampling from large, compressed datasets, chains of MapReduce jobs, and jobs exercising the combiner. Configuration files- either XML files or shell scripts- that permitted the operator to tune the number of jobs in each type and of each size. A driver that parses the configuration file, submits MapReduce jobs to the cluster, and (in Gridmix2) collects statistics for each job.

データ生成スクリプト:実際のベンチマークの実行で必要となるデータを生成するために、一度は実行する必要がある。何種類かのジョブ(混乱している): 特殊なジョブが、Gridmix と Gridmix2 の間で少々変化しているが、サンプルには sorts of text data and SequenceFiles/jobs sampling from large/compressed datasets/chains of MapReduce jobs/jobs exercising the combiner などが含まれる。コンフィグレーション・ファイル(XML files もしくは shell scripts による):それぞれのタイプとサイズにおいて、大量のジョブを調整する権限を、オペレーターに与える。ドライバー:コンフィグレーション・ファイルの解析/MapReduce ジョブをクラスターへ向けてサブミット/それぞれのジョブに関する統計を収集(Gridmix2)。

While running Gridmix as an end-to-end benchmark yielded many insights into framework bottlenecks in medium-sized clusters under a saturating load, it does not model the diverse mix of jobs running in our environment. On the contrary, framework improvements motivated by studies based on Gridmix often had ambiguous effects in production after showing dramatic gains in a test environment. Consider the following set of workload characteristics based on a two-day window of production (Figure 1):

End-to-End ベンチマークとしての Gridmix の実行は、中規模サイズ・クラスタ・フレームワークのボトルネックが、その負荷により飽和している状況のものとで、数多くの洞察をもたらす。しかし、その環境で動作しているジョブの、多様な混じり合いをモデル化することはない。 それどころか、テスト環境において劇的な進歩を示していても、Gridmix をベースにしたに研究により動機づけられたフレームワークの改善が、プロダクション環境では曖昧な効果を持ってしまうことが多々あった。 プロダクション環境での2日間において、ワークロードのセットが見せた、以下の特性について考えてほしい(Figure 1):

Gridmix3_1

Even with respect to these basic metrics, the "real" load is considerably more complex than Gridmix. While there are few user jobs attempting to run hundreds of thousands of tasks, process many terabytes of data, or run for days, their presence on the cluster can skew metrics on throughput, utilization, and, most importantly, other users’ experience on the grid. So it is critical to not only model the full range of jobs on the cluster, but also the co-incidence of jobs on the grid to accurately identify and reproduce load-related bottlenecks.

こうしたベーキックな基準においてさえ、リアルな負荷は Gridmix と比べて、かなり複雑なものとなる。 ほとんどのジョブが、何10万のタスクの実行や、数テラ・バイトのデータ処理や、何日間にもおよぶ実効を試みていないにも関わらず、そのクラスタ上でのプレゼンスは、スループットや使用の測定基準を歪めている。 さらに重要なことは、対象となるグリッド上の、他者のユーザー・エクスペリエンスをも歪めることだ。 したがって、クラスタ上のフル・レンジのジョブをモデル化するだけでは無く、グリッド上におけるジョブ間での相互影響を正確に識別し、負荷に関連するボトルネックを再現することが重要になる。

<続く>

ーーーーー

<関連>
Gridmix3 : Apache Hadoop の実運用負荷をエミュレート _1
Gridmix3 : Apache Hadoop の実運用負荷をエミュレート _2
Gridmix3 : Apache Hadoop の実運用負荷をエミュレート _3
Hadoop による Web 広告システムの構築と運用 :ヨーロッパでの事例_1
Apache ZooKeeper による分散並列キューの構築 _1
Observers と ZooKeeper _1

April 20, 2010

Gridmix3 : Apache Hadoop の実運用負荷をエミュレート _2

Filed under: Hadoop — Agile Cat @ 6:55 am
Tags: , , , , ,

Gridmix3 – Emulating Production Workload for Apache Hadoop _2
Chris Douglas, Hong Tang
Hadoop Performance Engineering, Yahoo!

April 6, 2010
http://developer.yahoo.net/blogs/hadoop/2010/04/gridmix3_emulating_production.html?utm_source=feedburner&utm_medium=feed&utm_campaign=Feed%3A+YDNHadoop+%28Hadoop+and+Distributed+Computing+at+Yahoo%21%29&utm_content=Google+Feedfetcher

image

Gridmix3

The above observations motivated us to develop a new workload generator, Gridmix3 [1 ] , to narrow the following gaps between the existing benchmark suite and the load we’re interested in:

これまでの観察から、以下のような問題点が浮上してきた。 それにより、既存のベンチマーク・スイートと、興味の対象となっている負荷とのギャップを狭めるための、新しいワークロードジェネレーター、 Gridmix3 [1]の開発が動機つけられた。

  • Task distribution: The number of tasks in a job varies widely in Yahoo! clusters, from a single task to hundreds of thousands.
  • Submission interval: Users are not nearly as predictable as the saturating benchmarks. We observe cyclic and bursty patterns that stress the JobTracker and the cluster in ways not seen in the synthetic load.
  • Input dataset: The data processed by Gridmix jobs are distributed over a small subset of the blocks in a system, with artificial hotspots and a distribution unlike what is measured in practice.
  • User diversity: The JobTracker schedulers are far more interesting under multiple user workloads.
  • Job complexity: User jobs are not the simple, I/O bound sorts of saturating benchmarks, pressing the low-level limits of the framework.
  • Task distribution: Yahoo! クラスタの多様に変化するジョブにおいて、タスク数をシングルから数10万に引き上げる。
  • Submission interval: 私たちは循環と突発のパターンを観察しており、それらが、合成的な負荷では見られない方式で、obTracker とクラスタにストレスを与えている。
  • Input dataset: Gridmix ジョブにより処理されるデータは、実際に測定されるものとは異なり、人工的なホットスポットとディストリビューションを用いて、システム内における小さなブロックのサブ・セットに配信される。
  • User diversity: JobTracker スケジューラーは、マルチ・ユーザによるワークロードのもとでは、さらに興味深いものとなる。
  • Job complexity: ユーザージョブは単純なものではなく、また、ベンチマークを飽和させる I/O バウンドの類でもなく、このフレームワークにおける低レベルの限界点を押し下げている。

Given that our cluster workload is constantly evolving, it is impractical to manually calibrate our benchmarks to follow it and inaccurate to determine a job mixture based on a static snapshot. Instead, we elected to build a benchmark that can reproduce the workload by replaying traces that automatically capture essential ingredients of job executions.

私たちのクラスタ・ワークロードが常に発展しているとすれば、それに追随するために、手作業でベンチマークを測定することは現実的ではない。また、静的なスナップショットに基づいた、ジョブの混じり合いに対する判断も、不正確なものとなる。 それに代えて、ジョブ実行における本質的構成要素を、自動的にキャプチャするトレースを用いて、ワークロードの再生を実現するベンチマークの構築を選んだ。

Gridmix3_2

The benchmark takes as input a job trace, essentially a stream of JSON-encoded job descriptions derived from artifacts collected on a cluster (such as job history logs and configuration files). For each job, the submitting client obtains the original job submission time, the memory allocated to each task, and- for each task in that job- the byte and record counts read and written. Given this data, it constructs a synthetic job with the same byte and record patterns recorded in the trace and submits each at a matching interval, "replaying" that job on the cluster. The synthetic job will generate a comparable load on the I/O subsystems in the test grid as the original did in production. Figure 2 compares the workload characteristics of a two-hour production trace and the trace of Gridmix3 replay. Gridmix does such a flawless job matching the workload characteristics that we can hardly distinguish the lines for Gridmix3 from the production workload for some of the graphs. However, Gridmix3 does run much faster than actual jobs due to the omission of the emulation of other job execution details.

このベンチマークは、クラスタ上で収集された成果物から、JSON-encoded ジョブ・ディスクリプションを取り出すという、本質的なジョブ・トレースを入力として取得する。 それぞれのジョブに対してクライアントをサブミットする際には、オリジナルのジョブ・サブミット時刻と、個々のタスクに対するメモリ・アロケーションが含まれる。 また、対象ジョブ内の個々のタスクに対する、read/write のバイト数とレコード・カウントも含まれる。このデータを前提とすれば、トレース内に記録されたバイトとレコードのパターンを用いて、ジョブの合成が可能となり、また、適切なインターバルで、クラスタ上のジョブを「再生」させるためのサブミットも可能になる。合成されたジョブは、プロダクション環境におけるオリジナルと同様に、テスト・グリッド内の I/O サブ・システム上で、類似の負荷を生成することになる。 Figure 2 が示すのは、2時間のプロダクション・トレースにおける負荷と、Gridmix3 再生におけるトレースの、特性の比較である。 このように、Gridmix は、ワークロードの特質をマッチングさせる完璧な処理を行う。そのため、Gridmix3 のラインと、プロダクション・ワークロードとの区別が、ほとんど不可能になる。さらに Gridmix3 では、他のジョブの実行を省略できるため、実際のジョブよりも、高速で実行することが可能になる。

As our models for synthetic jobs improve, Gridmix3 runs will capture interactions between jobs- for example, two I/O-bound tasks running on the same node- with accuracy sufficient for analysis and validation of code changes. We are in the process of extending the synthetic job mix to model CPU usage, memory, job dependencies, etc. as data become available. Since users often rely on core libraries and frameworks built on top of MapReduce, we also plan to include facilities for adding representatives of these to the job mix.

ジョブ合成に関する私たちのモデルが改善されるにつれて、 Gridmix3 の実行により、ジョブ間のインタラクションがキャプチャされていく。 たとえば、同じノード上で実行される 2つの I/O バウンド・タスクの、コードを変更する際の分析と検査において、充分な正確性が得られる。 私たちは、ジョブ合成のミックス・モデルの拡張において、CPU使用や、メモリ、ジョブ間依存などについて、それらのデータが利用可能になるにつれて対応していく。多くのケースにおいてユーザーは、MapReduce 上に構築されたコア・ライブラリやフレームワークに依存するため、それらのジョブ・ミックスに関する表現も、このファシリティに含んでいこうと計画している。

<続く>

ーーーーー

References

  1. Gridmix3: git://git.apache.org/hadoop-mapreduce.git/src/contrib/gridmix/.
  2. Mumak: git://git.apache.org/hadoop-mapreduce.git/src/contrib/mumak/.
  3. Rumen: git://git.apache.org/hadoop-mapreduce.git/src/tools/org/apache/hadoop/tools/rumen/.

ーーーーー

<関連>

Gridmix3 : Apache Hadoop の実運用負荷をエミュレート _1
Gridmix3 : Apache Hadoop の実運用負荷をエミュレート _2
Gridmix3 : Apache Hadoop の実運用負荷をエミュレート _3
Hadoop による Web 広告システムの構築と運用 :ヨーロッパでの事例_1
Apache ZooKeeper による分散並列キューの構築 _1
Observers と ZooKeeper _1

« Previous PageNext Page »

Theme: Rubric. Blog at WordPress.com.

Follow

Get every new post delivered to your Inbox.

Join 3,239 other followers