最終更新:2011-04-12 (火) 21:39:07 (4762d)  

Hadoop
Top / Hadoop

http://hadoop.apache.org/

Hadoopは

  • HDFS(Hadoop Distributed File System)
  • Hadoop MapReduce Framework?

から構成されています。Googleの基盤技術に対応させると、前者はGFS、後者はMapReduceに対応します

HadoopはすべてJavaで記述されており、MapReduce処理を書く場合も基本的にはJavaでプログラムを書くことが想定されています。ただしHadoop Streaming?という拡張パッケージを用いると、C言語/C++RubyPythonなど任意の言語と標準入出力を用いてMapReduce処理を書くことができます。

What Is Hadoop?

The Apache Hadoop project develops open-source software for reliable, scalable, distributed computing. Hadoop includes these subprojects:

  • Hadoop Common: The common utilities that support the other Hadoop subprojects.
  • Chukwa: A data collection system for managing large distributed systems.
  • HBase: A scalable, distributed database that supports structured data storage for large tables.
  • HDFS: A distributed file system that provides high throughput access to application data.
  • Hive: A data warehouse infrastructure that provides data summarization and ad hoc querying.
  • MapReduce: A software framework for distributed processing of large data sets on compute clusters.
  • Pig: A high-level data-flow language and execution framework for parallel computation.
  • ZooKeeper: A high-performance coordination service for distributed applications.

インストール

  • ClouderarpmパッケージとAmazon EC2用のインスタンスが用意されているので使うと便利
Hadoopを用いた大規模ログ解析 from shuichi iida

参考

CentOS