Microsoft Research Releases Another Hadoop Alternative for Azure
By Klint Finley / July 18, 2011 1:40 PM
http://www.readwriteweb.com/cloud/2011/07/mapreduce-for-microsoft-azure.php
Today Microsoft Research announced the availability of a free technology preview of Project Daytona MapReduce Runtime for Windows Azure. Using a set of tools for working with big data based on Google’s MapReduce paper, it provides an alternative to Apache Hadoop.
今日のことだが(7/18)、Microsoft Research は Project Daytona MapReduce Runtime for Windows Azure に関する、無償のテクノロジー・プレビューの提供についてアナウンスした。つまり、Google MapReduce ペーパーをベースとした、Big Data を用いる作業のためのツールセットとして、Apache Hadoop に代わる選択肢を提供することになる。
Daytona was created by the eXtreme Computing Group at Microsoft Research. It’s designed to help scientists take advantage of Azure for working with large, unstructured data sets. Daytona is also being used to power a data-analytics-as-a-service offering the team calls Excel DataScope.
この Daytona は、Microsoft Research の eXtreme Computing Group により作成された。 それは、大規模で構造化されていないデータ・セットに対して、Azure の先進性を活用する科学者を、支援するようにデザインされている。 さらに Daytona は、このチームが Excel DataScope と呼んでいる、data-analytics-as-a-service に対してパワーを提供するためにも用いられる。
Big Data Made Easy?
The team’s goal was to make Daytona easy to use. Roger Barga, an architect in the eXtreme Computing Group, was quoted saying:
このチームのゴールは、Daytona を使い易くすることにある。 以下は、この eXtreme Computing Group のアーキテクトである、Roger Barga の発言からの引用である:
"’Daytona’ has a very simple, easy-to-use programming interface for developers to write machine-learning and data-analytics algorithms. They don’t have to know too much about distributed computing or how they’re going to spread the computation out, and they don’t need to know the specifics of Windows Azure."
「 Daytona は、machine-learning とdata-analytics のアルゴリズムを記述する開発者のための、シンプルで使い易いプログラミング・インターフェイスを提供する。 そのため、開発者たちは、分配コンピューティングについて、また、計算能力を分散させる方式について、深い理解を必要としない。 さらには、Windows Azure の詳細すら知る必要がなくなる」
To accomplish this difficult goal (MapReduce is not known to be easy) Microsoft Research is including a set of example algorithms and other sample code along with a step-by-step guide for creating new algorithms.
この困難なゴールを達成するために(MapReduce は容易ではないと認識されている)、Microsoft Research はサンプル・アルゴリズムのセットを取り込みと、新しいアルゴリズム作成ための step-by-step ガイドを伴う、サンプルコードの取り込みを進めている。
Data Analytics as a Service
To further simplify the process of working with big data, the Daytona team has built an Azure-based analytics service called Excel DataScope, which enables developers to work with big data models using an Excel-like interface. According to the project site, DataScope allows the following:
Big Data を用いる作業のプロセスを、さらに単純化するために、Excel DataScope と呼ばれる Azure ベースの分析サービスを、この Daytona チームは構築している。それによりデベロッパーたちは、Excel-like なインターフェイスを用いて、Big Data モデルを取り扱うことができる。 このプロジェクト・サイトによると、 以下の項目が Datascope で実現される:
- Users can upload Excel spreadsheets to the cloud, along with metadata to facilitate discovery, or search for and download spreadsheets of interest.
- Users can sample from extremely large data sets in the cloud and extract a subset of the data into Excel for inspection and manipulation.
- An extensible library of data analytics and machine learning algorithms implemented on Windows Azure allows Excel users to extract insight from their data.
- Users can select an analysis technique or model from our Excel DataScope research ribbon and request remote processing. Our runtime service in Windows Azure will scale out the processing, by using possibly hundreds of CPU cores to perform the analysis.
- Users can select a local application for remote execution in the cloud against cloud scale data with a few mouse clicks, effectively allowing them to move the compute to the data.
- We can create visualizations of the analysis output and we provide the users with an application to analyze the results, pivoting on select attributes.
- ユーザーはクラウドへ向けて、Excel スプレッドシートをアップロードできる。そこには、発見や検索を容易にするためのメタデータが含まれ、また、重要なスプレッドシートをダウンロードすることになる。
- ユーザーはクラウドにおいて、きわめて大規模なデータセットのサンプルを取得し、検証と操作のためのサブセット・データを、Excel へ向けて抽出ができる。
- Windows Azure に実装された、data analytics と machine learning アルゴリズムのための拡張可能なライブラリーにより、Excel ユーザーは、それらのデータから洞察を抽出できる。
- ユーザーは、私たちが提供する Excel Datascope のリサーチ・リボンから、解析のためのテクニックやモデルを選択し、また、リモート処理をリクエストできる。Windows Azure のランタイム・サービスは分析のために、数100 個にいたるかも知れないCPU コアを用いて、そのための処理をスケールアウトしていく。
- ユーザーは、リモート処理のためのおローカル・アプリケーションを、クラウドで選択できる。それにより、クラウド・スケール・データを、数回のマウスクリックで処理することが可能となり、データに対する計算処理が効果的に達成される。
- 分析アウトプットに対する、ビジュアライゼーションが可能である。そして、結果を解析するためのアプリケーションを、ユーザーに提供することで、選択された属性の pivoting を実現する。
This reminds me a bit of Google’s integration between BigQuery and Google Spreadsheets, but Excel DataScope sounds much more powerful.
それは、BigQuery と Google Spreadsheets 結ぶ、Google のインテグレーションを思い出させるが、Excel DataScope の方がずっとパワフルに思える。
We’ve discussed data as a service as a future market for Microsoft previously.
なお、私たちは以前に、Microsoft における将来のマーケットとして、data as a service を解説している。
Microsoft’s Other Hadoop Alternative
Microsoft also recently released the second beta of its other Hadoop alternative LINQ to HPC, formerly known as Dryad. LINQ/Dryad have been used for Bing for some time, but not the tools are available to users of Microsoft Windows HPC Server 2008 clusters.
Microsoft は以前から、Dryad として知られる LINQ to HPC を、Hadoop に代わる選択肢として進めており、最近になって 2番目のベータを発表している。 はしばらくの間、LINQ/Dryad は Bing で使用されたが、Microsoft Windows HPC Server 2008 Cluster のユーザーが、利用可能というわけではない。
Instead of using MapReduce algorithms, LINQ to HPC enables developers to use Visual Studio to create analytics applications for big, unstructured data sets on HPC Server. It also integrates with several other Microsoft products such as SQL Server 2008, SQL Azure, SQL Server Reporting Services, SQL Server Analysis Services, PowerPivot, and Excel.
MapReduce アルゴリズムの利用に代えて、LINQ to HPC は、デベロッパーによる Visual Studio の使用を実現している。 それにより、HPC Server 上の、大規模・非構造データセットのための、分析アプリケーションが開発される。 そして、さらに、SQL Server 2008 および、SQL Azure、SQL Server Reporting Services、SQL Server Analysis Services、PowerPivot、Excel といった、Microsoft プロダクツとの統合も可能だ。
Microsoft also offers Windows Azure Table Storage, which is similar to Google’s BigTable or Hadoop’s data store Apache HBase.
さらに Microsoft は、 Google の BigTable や、Hadoop のデータストアである Apache HBase に相当するものとして、Windows Azure Table Storage を提供している。
More Big Data Initiatives from Microsoft
We’ve looked previously at Probase and Trinity, two related big data projects at Microsoft Research. Trinity is a graph database, and Probase is a machine learning platform/knowledge base.
私たちは以前に、Probase と Trinity という、2 つの Big Data 関連プロジェクトを、Microsoft Research で見ている。 Trinity はグラフ・データベースであり、Probase は machine learning platform/knowledge base である。
We also covered Project Barcelona, an enterprise search system that will compete with Apache Solr.
私たちは、Apache Solr と競合するエンタープライズ・サーチ・システムとして、Project Barcelona もカバーしている。
See Also
- The Limits of Big Data
- Is Apple iCloud Powered by Microsoft Windows Azure?
- Ex-Google Engineer Says the Company’s Software Infrastructure is Obsolete
- Is Microsoft’s Future in Data-as-a-Service?
- Gnip CEO on the Challenges of Handling the Real-Time, Big Data Firehose
ーーーーー
先日も、Microsoft Research が、Barrelfish というオープンソース OS(以下のリンク) に取り組んでいることを紹介しましたが、こちらの Project Daytona のページを見ても、オープンソース に関する表記はありませんでした。 ただ、いずれにしても、Microsoft Research の動きが活発になっているようで、とても歓迎できる状況だと言えます。 ーーー ![]()
ーーーーー
<関連>
Microsoft Research が、オープンソースの OS に取り組んでいる




























