Agile Cat — in the cloud

May 28, 2009

Hadoop DFS _ Introduction

Filed under: Big Data,Hadoop,HDFS — Agile Cat @ 10:42 pm
Tags: , ,

Hadoop DFS Architecture

このホワイトペーパーは、Apache のサイトからダウンロードしたものであり、HDFS(Hadoop Distributed File System)のアーキテクチャについて説明するものです。 4月の末から、7回に分けてポストしてきましたが、ようやく最後までたどり着きましたので、順番に読めるように整理しました。

以下の目次から個別のチャプタを参照することも可能ですし、右のカテゴリ ”HDFS” から連続ものとして参照することも可能です。— A.C.

<目次>ーーーーーーーーーーーーーーーーーーーー

Introduction _1

Assumptions and Goals

Hardware Failure
Streaming Data Access 
Large Data Sets 
Simple Coherency Model 
“Moving Computation is Cheaper than Moving Data” 
Portability Across Heterogeneous Hardware and Software Platforms

NameNode and DataNodes _2

The File System Namespace _3

Data Replication

Replica Placement: The First Baby Steps 
Replica Selection 
Safemode

The Persistence of File System Metadata _4

The Communication Protocols _5

Robustness

Data Disk Failure, Heartbeats and Re-Replication 
Cluster Rebalancing 
Data Integrity 
Metadata Disk Failure 
Snapshots

Data Organization _6

Data Blocks 
Staging 
Replication Pipelining

Accessibility _7

FS Shell 
DFSAdmin 
Browser Interface

Space Reclamation

File Deletes and Undeletes 
Decrease Replication Factor

References

Advertisement

Leave a Comment »

No comments yet.

RSS feed for comments on this post. TrackBack URI

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Connecting to %s

Theme: Rubric. Blog at WordPress.com.